EP3729832A1 - Processing of a monophonic signal in a 3d audio decoder, delivering a binaural content - Google Patents

Processing of a monophonic signal in a 3d audio decoder, delivering a binaural content

Info

Publication number
EP3729832A1
EP3729832A1 EP18833274.6A EP18833274A EP3729832A1 EP 3729832 A1 EP3729832 A1 EP 3729832A1 EP 18833274 A EP18833274 A EP 18833274A EP 3729832 A1 EP3729832 A1 EP 3729832A1
Authority
EP
European Patent Office
Prior art keywords
signal
processing
channel
position information
channels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
EP18833274.6A
Other languages
German (de)
French (fr)
Inventor
Grégory PALLONE
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
Orange SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orange SA filed Critical Orange SA
Priority to EP22197901.6A priority Critical patent/EP4135350A1/en
Publication of EP3729832A1 publication Critical patent/EP3729832A1/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Definitions

  • the present invention relates to the processing of an audio signal in a coded 3D audio decoding system standard MPEG-H 3D audio.
  • the invention relates more particularly to the processing of a monophonic signal intended to be reproduced on a headset which also receives binaural audio signals.
  • binaural aims at a reproduction on headphones or pair of headphones, a sound signal with nevertheless spatialization effects.
  • a binaural processing of audio signals subsequently called binauralization or binauralization processing, uses HRTF filters (for "Head Related Transfer Function” in English) in the frequency domain or HRIR, BRIR ("Head Related Transfer Function", " Binaural Room Impulse Response "in the time domain that reproduce the acoustic transfer functions between the sound sources and the ears of the listener.
  • HRTF filters for "Head Related Transfer Function” in English
  • BRIR Head Related Transfer Function
  • Binaural Room Impulse Response in the time domain that reproduce the acoustic transfer functions between the sound sources and the ears of the listener.
  • the signal of the right ear is obtained by filtering a monophonic signal by the transfer function (HRTF) of the right ear and the signal of the left ear is obtained by filtering this same monophonic signal by the transfer function of the right ear. left ear.
  • HRTF transfer function
  • NGA Next Generation Audio
  • Next Generation Audio type codecs, such as MPEG-H 3D audio described in the document referenced ISO / IEC 23008-3: "High efficiency coding and media deiivery in heterogeneous environments - Part 3: 3D audio »published on 25/07/2014 or AC4 described in the document referenced ETSI TS 103 190:" Digital Audio Compression Standard "published in April 2014
  • the signals received at the decoder are at first decoded and then undergo a processing of Binauralization as described above before being rendered on a headset.
  • the encoded codes therefore provide the possibility of a restitution on several virtual speakers through listening to a binaural signal on headphones but also provide the possibility of a reproduction on several real speakers, a sound spatialized.
  • Head tracking in English
  • This treatment makes it possible to take into account the movement of the listener's head to modify the sound reproduction on each ear in order to keep the restitution of the sound stage stable.
  • the listener will perceive the sound sources in the same place in the physical space if he moves or if he does not move his head. This can be important for viewing and listening to video content
  • a content producer may wish that a sound signal be reproduced independently of the sound scene, that is to say that it is perceived as a sound apart from the sound scene, for example as in the case of an "OFF" voice.
  • This type of reproduction may allow for example to give explanations on a sound scene otherwise restored.
  • the content producer may wish the sound to be reproduced on one ear to be able to obtain a voluntary effect of "headset" type, that is to say that the sound is heard only in one ear .
  • headset a voluntary effect of "headset" type, that is to say that the sound is heard only in one ear .
  • This sound remains permanently only on this ear even if the listener moves his head, which is the case in the previous example.
  • the content producer may also wish this sound to be rendered at a precise position in the sound space, relative to an ear of the listener (and not only within a single ear), even if he moves his head.
  • Such monophonic signal decoded and put in input of a system of reproduction of a codice of type MPEG-H 3D audio or AC4, will be binauralised.
  • the sound will then be spread over both ears (although it will be less loud in the contra-lateral ear) and if the listener moves his head, he will not perceive the sound in the same way on his ear, since the follow-up treatment of the head, if implemented, will ensure that the position of the sound source remains the same as in the initial sound stage: depending on the position of the head, the sound will appear stronger in the one or the other of the ears.
  • a "Dichotic" identification is associated with the contents that should not be processed by binauralization.
  • an information bit indicates that a signal is already virtualized. This bit allows the deactivation of the post-processing.
  • the contents thus identified are contents already formatted for the audio headphones, that is to say in binaural. They have two channels. These methods do not deal with the case of a monophonic signal for which, the producer of the sound stage does not wish to binauralization.
  • the present invention improves the situation.
  • a method of processing an audio monophonic signal in a 3D audio decoder comprising a binauralization processing step of the decoded signals intended to be spatially reproduced by an audio headset.
  • the method is such that, upon detecting, in a data flow representative of the monophonic signal, an indication of binaural non-processing associated with a restitution spatial position information, the decoded monophonic signal is directed to a transmission engine. stereophonic rendering taking into account the position information to construct two rendering channels processed by a direct mixing step summing these two channels with a binauralized signal resulting from binauralization processing, to be rendered on the headphones.
  • a monophonic content must be rendered at a precise spatial position with respect to an ear of a listener and that it does not undergo binauralization processing so that this restored signal can have an "ear" effect, that is to say, it is heard by the listener at a specific position with respect to an ear, inside the head in the same way as a stereophonic signal and this even if the listener's head moves.
  • the stereophonic and binaural signals are similar in that they consist of 2 left and right channels, and are distinguished by the content of these 2 channels.
  • This monaural signal (for monophonic) restored then superimposes the other restored signals that form a 3D sound scene.
  • the rate required to indicate this type of content is optimized since it is sufficient to code only a position indication in the sound scene in addition to the indication of non-binauralization to inform the decoder of the treatment to be performed, unlike a method that would require encoding, transmit and decode a stereo signal taking into account this spatial position.
  • the restitution spatial position information is a binary data indicating a single channel of the reproduction audio headset.
  • This information requires only one coding bit, which further allows the necessary bit rate to be restricted.
  • only the playback channel corresponding to the channel indicated by the binary data is summed to the corresponding channel of the binauralized signal in the direct mixing step, the other playback channel being of zero value.
  • the monophonic signal is a channel-type signal directed to the stereophonic rendering engine with the spatial position feedback information.
  • the monophonic signal does not undergo a binauralization processing step and is not treated as channel-type signals usually processed by state-of-the-art methods.
  • This signal is processed by a stereophonic rendering engine different from that existing for the channel type signals.
  • This rendering engine consists of duplicating the monophonic signal on the 2 channels, by applying function factors of the spatial position information of restitution, on both channels.
  • This stereophonic rendering engine can also be integrated into the channel rendering engine with a differentiated processing according to the detection made for the signal at the input of this rendering engine or the direct mixing module summing the channels resulting from this rendering engine. stereophonic signal binauralized binaural processing module.
  • the restitution spatial position information is an interaural sound level difference data type ILD or more generally a level report information between the left and right channels.
  • the monophonic signal is an object type signal associated with a set of reproduction parameters including the non-binauralization indication and the restitution position information, the signal being directed to the rendering engine. stereophonic with spatial position feedback information.
  • the restitution spatial position information is for example an azimuth angle datum.
  • This information makes it possible to give a restitution position with respect to an ear of the headset carrier so that this sound is superimposed on a sound stage.
  • the monophonic signal does not undergo a binauralization processing step and is not treated as the object type signals usually processed by the methods of the state of the art.
  • This signal is processed by a stereophonic rendering engine different from that existing for the object type signals.
  • Binaural non-processing indication and rest position information are included in the rendering parameters (Metadata) associated with the object type signal.
  • This rendering engine can also be integrated with the object rendering engine or with the direct mixing module summing the channels resulting from this stereophonic rendering engine with the binauralized signal coming from the binauralization processing module.
  • the present invention also relates to a device for processing an audio monophonic signal comprising a processing module for binauralization of decoded signals intended to be spatially reproduced by an audio headset.
  • This device is such that it comprises:
  • a detection module adapted to detect, in a data flow representative of the monophonic signal, an indication of binaural non-processing associated with a restitution spatial position information
  • a redirection module in the case of a positive detection by the detection module, able to direct the monophonic signal to a stereophonic rendering engine
  • a stereophonic rendering engine adapted to take into account the position information to construct two rendering channels
  • a direct mixing module able to directly process the two rendering channels by summing them with a binauralized signal from the binauralization processing module, to be rendered on the headphones.
  • the stereophonic rendering engine is integrated in the direct mixing module.
  • This signal may be of the channel type or of the object type.
  • the monophonic signal is a channel-type signal and the stereophonic rendering engine is integrated with a channel rendering engine that also builds rendering channels for multi-channel signals.
  • the monophonic signal is an object type signal and the stereophonic rendering engine is integrated with an object rendering engine that also builds rendering channels for monophonic signals associated with sets of rendering parameters.
  • the present invention relates to an audio decoder comprising a processing device as described and a computer program comprising code instructions for implementing the steps of the processing method as described, when these instructions are executed by a processor.
  • the invention relates to a storage medium, readable by a processor, integrated or not to the processing device, possibly removable, storing a computer program comprising instructions for executing the processing method as described above.
  • FIG. 1 illustrates a decoder of the MPEG-H 3D audio type as it exists in the state of the art
  • FIG. 2 illustrates the steps of a processing method according to one embodiment of the invention
  • FIG. 3 illustrates a decoder comprising a processing device according to a first embodiment of the invention
  • FIG. 4 illustrates a decoder comprising a processing device according to a second embodiment of the invention.
  • FIG. 5 illustrates a hardware representation of a processing device according to one embodiment of the invention.
  • FIG. 1 schematically illustrates a decoder as standardized in the MPEG-H 3D audio standard according to the document referenced above.
  • Block 101 is a heart decoding module which decodes both channel-type multichannel audio signals (Ch.) And object-type monophonic audio signals (Obj.) Associated with spatialization (“Metadata") (Obj.MeDa.) and audio signals in Higher Order Ambisonic Audio (HOA) format (HOA).
  • Ch. channel-type multichannel audio signals
  • Obj. object-type monophonic audio signals
  • Methodadata OFbj.MeDa.
  • HOA Higher Order Ambisonic Audio
  • a channel-type signal is decoded and processed by a channel rendering engine 102 ("Channel renderer” in English, also called “Format Converter” in MPEG-H 3D Audio) in order to adapt this channel signal to the audio rendering system.
  • the channel rendering engine knows the characteristics of the rendering system and thus provides a signal by way of reproduction (Rdr.Ch.) to supply either real speakers or virtual speakers (which will then be binauralised for a rendering at helmet).
  • rendering channels are mixed by the mixing module 110 to other rendering channels from the object rendering engines 103 and HOA 105 described later.
  • Object-type signals are monophonic signals associated with data (“Metadata”) such as spatialization parameters (azimuth angles, elevation) which make it possible to position the monophonic signal in the spatialized sound scene, priority parameters or sound volume settings.
  • Metadata such as spatialization parameters (azimuth angles, elevation) which make it possible to position the monophonic signal in the spatialized sound scene, priority parameters or sound volume settings.
  • object signals are decoded, together with the associated parameters, by the decoding module 101 and are processed by an object rendering engine 103 ("Object Renderer" in English) which, knowing the characteristics of the rendering system, adapts these monophonic signals to these characteristics.
  • the various reproduction channels (Rdr.Obj.) Thus created are mixed with the other rendering channels from the channel and HOA rendering engines, by the mixing module 110.
  • HOA Higher Order Ambisonic
  • the reproduction channels (Rdr .HOA) created by this rendering engine HOA are mixed at 110 with the reproduction channels created by the other rendering engines 102 and 103.
  • the signals at the output of the mixing module 110 can be restored by HP real speakers located in a playback room.
  • the signals at the output of the mixing module can directly supply these real speakers, a channel corresponding to a loudspeaker.
  • the signals at the output of the mixing module are to be reproduced on an AC headset, then these signals are processed by a binauralization processing module 120 according to binauralization techniques described for example in the document cited for the MPEG standard. -H 3D audio.
  • FIG. 2 now describes the steps of a method of processing according to one embodiment of the invention.
  • This method relates to the processing of a monophonic signal in a 3D audio decoder.
  • a step E200 detects whether the data flow (SMo) representative of the monophonic signal (for example the bitstream at the input of the audio decoder) includes a binaural non-processing indication associated with a restitution spatial position information.
  • the signal must be binauralized. It is processed by binauralization processing, in step E210, before being restored in E240 on a playback headset.
  • This binauralized signal can be mixed with other stereophonic signals from step E220 described below.
  • the signal monophonic decoded is directed to a stereophonic rendering engine to be processed by a step E220.
  • This non-binauralization indication may be, for example, as in the state of the art, a "Dichotic" identification given to the monophonic signal or another identification understood as an instruction not to process the signal by a binauralization process.
  • the spatial position information of restitution can be for example an azimuth angle indicating the restitution position of the sound with respect to an ear, right or left, or an indication of difference in level between the left and right channels as a piece of information.
  • ILD for distributing the energy of the monophonic signal between the left and right channels, or simply the indication of a single channel of restitution, corresponding to the right or left ear. In the latter case, this information is binary information that requires very little bit rate (1 bit of information).
  • step E220 the position information is taken into account to build two rendering channels for the two earphones of the headphones. These two playback channels thus constructed are processed directly by a direct mixing step E230 summing these two stereo channels with the two channels of the binauralized signal from binauralization processing E210.
  • Each of the stereophonic reproduction channels is then summed with the corresponding channel of the binauralized signal.
  • the restitution spatial position information is a binary data indicating a single channel of the playback headset
  • the two reproduction channels constructed in step E220 by the stereophonic rendering engine consist of a channel comprising the monophonic signal, the other channel being zero, and therefore possibly absent.
  • a single channel is summed with the corresponding channel of the binauralized signal, the other channel being zero. This mixing step is simplified.
  • the listener equipped with the audio headset hears on the one hand, a spatialized sound scene from the binauralized signal, this sound scene is heard by him at the same physical place even if he moves his head in the case of a dynamic rendering and on the other hand, a sound positioned inside the head, between an ear and the center of the head, which is superimposed on the sound stage independently, that is, if the listener move your head, this sound will be heard in the same position relative to an ear.
  • This sound is perceived as a superposition of other binauralized sounds of the sound stage, and will act as an "OFF" voice to this sound scene.
  • FIG. 3 illustrates a first embodiment of a decoder comprising a processing device implementing the processing method described with reference to FIG. 2.
  • the monophonic signal processed by the method used is a channel type signal (Ch.).
  • the object (object) and HOA (HOA) type signals are processed in the same way by the respective blocks 303, 304 and 305 as the blocks 103, 104 and 105 described with reference to FIG. way, the mixing block 310 performs a mixing as described for the block 110 of Figure 1.
  • the block 330 receiving the channel-type signals treats differently a monophonic signal having a non-binauralization indication (Di.) associated with a restitution spatial position information (Pos.) That another signal does not include this information, in particularly a multichannel signal. For these signals not having this information, they are processed by the block 302 in the same way as the block 102 described with reference to FIG.
  • the block 330 acts as a router or switch and directs the decoded monophonic signal (Mo.) to a stereophonic rendering engine 331.
  • stereophonic rendering engine also receives, from the decoding module, the spatial position information of restitution (Pos.). With this information, it builds two playback channels (2 Vo.), Corresponding to the left and right channels of the playback headphones, for these channels to be output to the AC headphones.
  • the restitution spatial position information is interaural sound level difference information between the left and right channels. This information makes it possible to define a factor to be applied to each of the rendering channels in order to respect this restitution spatial position.
  • the definition of these factors can be done as in the document referenced MPEG-2 AAC: ISO / IEC 13818-4: 2004 / DCOR 2, AAC in section 7.2 describing the stereo intensity.
  • these rendering channels are added to the channels of a binauralized signal from binauralization module 320 which performs a binauralization processing in the same way as block 120 of FIG.
  • This channel summing step is performed by the direct mixing module 340 which is the left channel from the stereophonic rendering engine 331 to the left channel of the binauralized signal from binauralization processing module 320 and the right channel from the engine stereophonic rendering 331 to the right channel of the binauralized signal from binauralization processing module 320, before playback on the CA headset.
  • the monophonic signal does not pass through the binauralization processing module 320, it is transmitted directly to the stereophonic rendering engine 331 before being directly mixed with a binauralized signal.
  • This signal will not undergo either head tracking treatment.
  • the restored sound will be in a position of restitution with respect to an ear of the listener and will remain in this position even if the listener moves his head.
  • the stereophonic rendering engine 331 can be integrated with the channel rendering engine 302.
  • this channel rendering engine implements both the adaptation of the conventional channel type signals, as described in FIG. FIG. 1 and the construction of the two renderer rendering channels of the rendering engine 331 as explained above by receiving the restitution spatial position information (Pos). Only the two playback channels are then redirected to the direct mixing module 340 before playback on the AC headphones.
  • the stereophonic rendering engine 331 is integrated with the direct mixing module 340.
  • the routing module 330 directs the decoded monophonic signal (for which the non-binauralization indication has been detected. and the restitution spatial position information) to the direct mixing module 340.
  • the decoded spatial position information (Pos) is also transmitted to the direct mixing module 340.
  • This mixing module direct then comprising the stereophonic rendering engine implements the construction of the two rendering channels taking into account the spatial position information of restitution as well as the mixing of these two rendering channels with the return channels of a binauralized signal from binauralization processing module 320.
  • FIG. 4 illustrates a second embodiment of a decoder comprising a processing device implementing the processing method described with reference to FIG. 2.
  • the monophonic signal processed by the method implemented is an object type signal (Obj.).
  • the channel type (Ch) and HOA type (HOA) signals are treated in the same way by the respective blocks 402 and 405 as the blocks 102 and 105 described with reference to FIG. 1.
  • the block mixer 410 performs a mixing as described for block 110 of FIG.
  • the block 430 receiving the object type signals (Obj.) Treats differently a monophonic signal for which it has detected a non-binauralization indication (Di.) associated with a spatial position information of restitution (Pos.) That a other monophonic signal for which this information has not been detected.
  • a non-binauralization indication Di.
  • a spatial position information of restitution Pos.
  • the block 430 acts as a router or switch and directs the decoded monophonic signal (Mo.) to a stereophonic rendering engine 431.
  • the non-binauralization indication (Di.) as well as the restitution spatial position information (Pos) are decoded by the decoding block 404 of the metadata or parameters associated with the object type signals.
  • the non-binauralization indication (Di.) is transmitted to the routing block 430 and the restitution spatial position information is transmitted to the stereophonic rendering engine 431.
  • This stereophonic rendering engine thus receiving the positional restitution position information (Pos.), Builds two rendering channels corresponding to the left and right channels of the reproduction headphones, so that these channels are reproduced on the AC headphones.
  • the restitution spatial position information is an azimuth angle information defining an angle between the desired restitution position and the center of the listener's head.
  • This information makes it possible to define a factor to be applied to each of the rendering channels in order to respect this restitution spatial position.
  • the gain factors for the left and right channels can be calculated as presented in City Pulkki's Virtual Sound Source Positioning Using Vector Base Amplitude Panning in J. Audio Eng. Soc., Vol.45, No.6, of June 1997.
  • the gain factors of the stereophonic rendering engine can be given by:
  • g2 (cosO.sinH - sin0.cosH) / (2.cosH.sinH)
  • O the angle between the frontal direction and the object (called azimuth)
  • H the angle between the frontal direction and the position of the virtual speaker (corresponding to the half-angle between the speakers), fixed for example at 45 °.
  • these rendering channels are added to the channels of a binauralized signal from the binauralization module 420 which performs a binauralization processing in the same way as the block 120 of FIG.
  • This channel summing step is performed by the direct mixing module 440 which is the left channel from the stereophonic rendering engine 431 to the left channel of the binauralized signal from the binauralization processing module 420 and the right channel from the engine stereophonic rendering 431 to the right channel of the binauralized signal from binauralization processing module 420, before playback on the CA headset.
  • the monophonic signal does not go through the binaural processing module 420, it is transmitted directly to the stereophonic rendering engine 431 before being mixed directly to a binauralized signal.
  • This signal will not undergo either head tracking treatment.
  • the restored sound will be in a position of restitution with respect to an ear of the listener and will remain in this position even if the listener moves his head.
  • the stereophonic rendering engine 431 can be integrated with the object rendering engine 403.
  • this object rendering engine implements both the adaptation of the conventional object type signals, as described in FIG. FIG. 1 and the construction of the two renderer rendering channels 431 as explained above by receiving the restitution spatial position information (Pos) of the decoding module 404 of the parameters. Only the two playback channels (2Vo.) Are then redirected to the direct mixing module 440 before playback on the AC headphones.
  • the stereophonic rendering engine 431 is integrated with the direct mixing module 440.
  • the routing module 430 directs the decoded monophonic signal (Mo.) (for which the indication has been detected. non-binauralization and restitution spatial position information) to the direct mixing module 440.
  • the decoded spatial position information (Pos) is also transmitted to the direct mixing module 440 by the parameter decoding module 404.
  • This direct mixing module then including the stereophonic rendering engine, implements the construction of the two reproduction channels taking into account the spatial position information of restitution as well as the mixing of these two paths. rendering with the return channels of a binauralized signal from binauralization processing module 420.
  • FIG. 5 now illustrates an example of a hardware embodiment of a processing device adapted to implement the treatment method according to the invention.
  • the device DIS comprises a storage space 530, for example a memory MEM, a processing unit 520 comprising a processor PROC, driven by a computer program Pg, stored in the memory 530 and implementing the processing method according to the invention .
  • the computer program Pg comprises code instructions for the implementation of the steps of the processing method in the sense of the invention, when these instructions are executed by the processor PROC, and in particular, on detection, in a representative data stream.
  • code instructions for the implementation of the steps of the processing method in the sense of the invention when these instructions are executed by the processor PROC, and in particular, on detection, in a representative data stream.
  • a step of directing the decoded monophonic signal to a stereophonic rendering engine taking into account the position information to construct two paths restitution treated directly by a direct mixing step summing these two channels with a binauralized signal from binauralization processing, to be rendered on the headphones.
  • FIG. 2 typically repeats the steps of an algorithm of such a computer program.
  • the code instructions of the program Pg are for example loaded into a RAM (not shown) before being executed by the processor PROC of the processing unit 520.
  • the program instructions can be stored on a memory card. storage medium such as flash memory, hard disk, or other non-transient storage media.
  • the device DIS comprises a reception module 510 adapted to receive a representative SMo data stream including a monophonic signal. It comprises a detection module 540 able to detect, in this data stream, an indication of binaural non-processing associated with spatial position information rendition. It comprises a direction module 550, in the case of a positive detection by the detection module 540, of the decoded monophonic signal to a stereophonic rendering engine 560, the stereophonic rendering engine 560 being able to take into account the information position to build two tracks of restitution.
  • the device DIS also comprises a direct mixing module 570 able to directly process the two reproduction channels by summing them with the two channels of a binauralized signal coming from a binauralization processing module.
  • the playback channels thus obtained are transmitted to an AC headset via an output module 560, to be restored.
  • module may correspond to a software component as well as a hardware component or a set of hardware and software components, a software component corresponding to one or more programs or subprograms computer or more generally to any element of a program capable of implementing a function or a set of functions as described for the modules concerned.
  • a hardware component corresponds to any element of a hardware set (or hardware) able to implement a function or a set of functions for the module concerned (integrated circuit, smart card, memory card, etc. .)
  • the device can be integrated into an audio decoder as described in FIG. 3 or 4 and can be integrated, for example, in multimedia equipment of the set-top box type, or audio or video content player. They can also be integrated into communication equipment of the mobile phone or communication gateway type.

Abstract

The invention relates to a method for processing a monophonic signal in a 3D audio decoder, comprising a processing step for binauralizing decoded signals intended to be delivered spatially by a headset. The method is such that, on detection (E200), in a datastream representative of the monophonic signal, of an indication of non-binauralization processing, which indication is associated with spatial delivery position information, the decoded monophonic signal is directed (O-E200) to a stereophonic rendering engine, which takes into account the position information to construct two delivery channels (E220) that are directly processed via a direct mixing step (E230) that sums these two channels with a binauralized signal output from the binauralization processing, in order to be delivered (E240) via the headset. The invention also relates to a decoder device that implements the processing method.

Description

Traitement d'un signal monophonique dans un décodeur audio 3D restituant un contenu binaural  Processing a monophonic signal in a 3D audio decoder rendering binaural content
La présente invention se rapporte au traitement d'un signal audio dans un système de décodage audio 3D de type codée normalisé MPEG-H 3D audio. L'invention se rapporte plus particulièrement au traitement d'un signal monophonique destiné à être restitué sur un casque recevant par ailleurs des signaux audio binauraux. The present invention relates to the processing of an audio signal in a coded 3D audio decoding system standard MPEG-H 3D audio. The invention relates more particularly to the processing of a monophonic signal intended to be reproduced on a headset which also receives binaural audio signals.
Le terme binaural vise une restitution sur casque audio ou paire d'écouteurs, d'un signal sonore avec néanmoins des effets de spatialisation. Un traitement binaural de signaux audio, appelé par la suite binauralisation ou traitement de binauralisation, utilise des filtres HRTF (pour « Head Related Transfert Function » en anglais) dans le domaine fréquentiel ou HRIR, BRIR (Pour « Head Related Transfert Function », « Binaural Room Impulse Response » en anglais) dans le domaine temporel qui reproduisent les fonctions de transfert acoustiques entre les sources sonores et les oreilles de l'auditeur. Ces filtres servent à simuler des indices de localisation auditive qui permettent à un auditeur de localiser les sources sonores comme en situation d'écoute réelle.  The term binaural aims at a reproduction on headphones or pair of headphones, a sound signal with nevertheless spatialization effects. A binaural processing of audio signals, subsequently called binauralization or binauralization processing, uses HRTF filters (for "Head Related Transfer Function" in English) in the frequency domain or HRIR, BRIR ("Head Related Transfer Function", " Binaural Room Impulse Response "in the time domain that reproduce the acoustic transfer functions between the sound sources and the ears of the listener. These filters are used to simulate auditory location indices that allow a listener to locate sound sources as in real listening situations.
Le signal de l'oreille droite est obtenu en filtrant un signal monophonique par la fonction de transfert (HRTF) de l'oreille droite et le signal de l'oreille gauche est obtenu en filtrant ce même signal monophonique par la fonction de transfert de l'oreille gauche.  The signal of the right ear is obtained by filtering a monophonic signal by the transfer function (HRTF) of the right ear and the signal of the left ear is obtained by filtering this same monophonic signal by the transfer function of the right ear. left ear.
Dans les codées de type NGA (pour « Next Génération Audio » en anglais), tels que MPEG-H 3D audio décrit dans le document référencé ISO/IEC 23008-3 : « High efficiency coding and media deiivery in heterogeneous environments - Part 3 :3D audio » publié le 25/07/2014 ou encore AC4 décrit dans le document référencé ETSI TS 103 190 : « Digital Audio Compression Standard » publié en Avril 2014, les signaux reçus au décodeur sont dans un premier temps décodés puis subissent un traitement de binauralisation tel que décrit ci- dessus avant d'être restitués sur un casque audio. On s'intéresse ici au cas de la restitution sur casque audio, avec son spatialisé, c'est-à-dire à un signal binauralisé.  In the NGA (for "Next Generation Audio") type codecs, such as MPEG-H 3D audio described in the document referenced ISO / IEC 23008-3: "High efficiency coding and media deiivery in heterogeneous environments - Part 3: 3D audio »published on 25/07/2014 or AC4 described in the document referenced ETSI TS 103 190:" Digital Audio Compression Standard "published in April 2014, the signals received at the decoder are at first decoded and then undergo a processing of Binauralization as described above before being rendered on a headset. We are interested here in the case of restitution on audio headphones, with its spatialized, that is to say a binauralized signal.
Les codées cités prévoient donc la possibilité d'une restitution sur plusieurs des haut- parleurs virtuels grâce à l'écoute d'un signal binauralisé sur casque mais prévoient également la possibilité d'une restitution sur plusieurs haut-parleurs réels, d'un son spatialisé.  The encoded codes therefore provide the possibility of a restitution on several virtual speakers through listening to a binaural signal on headphones but also provide the possibility of a reproduction on several real speakers, a sound spatialized.
Dans certains cas, est associée avec le traitement de binauralisation, une fonction de traitement de suivi de la tête de l'auditeur (« Head tracking » en anglais) que l'on nommera rendu dynamique, par opposition au rendu statique. Ce traitement permet de prendre en compte le mouvement de la tête de l'auditeur pour modifier la restitution sonore sur chaque oreille afin de garder la restitution de la scène sonore stable. En d'autres termes, l'auditeur percevra les sources sonores au même endroit dans l'espace physique s'il bouge ou s'il ne bouge pas la tête. Ceci peut être important pour la visualisation et l'écoute associée d'un contenu vidéoIn some cases, is associated with the binauralization processing, a function of treatment of tracking the head of the listener ("Head tracking" in English) that will be called dynamic rendering, as opposed to static rendering. This treatment makes it possible to take into account the movement of the listener's head to modify the sound reproduction on each ear in order to keep the restitution of the sound stage stable. In other words, the listener will perceive the sound sources in the same place in the physical space if he moves or if he does not move his head. This can be important for viewing and listening to video content
360°. 360 °.
Cependant, pour certains contenus, il n'est pas souhaitable qu'ils soient traités par ce type de traitement. En effet, dans certains cas, lorsque le contenu a été créé spécifiquement pour un rendu binaural, par exemple si les signaux ont été enregistrés directement par une tête artificielle ou déjà traités par un traitement de binauralisation, alors ils doivent être restitués directement sur les écouteurs du casque. Ces signaux ne nécessitent pas de traitement de binauralisation supplémentaire.  However, for certain contents, it is not desirable that they be treated by this type of treatment. Indeed, in some cases, when the content was created specifically for binaural rendering, for example if the signals were recorded directly by an artificial head or already processed by binauralization processing, then they must be returned directly on the headphones helmet. These signals do not require additional binaural processing.
De même, un producteur de contenu peut souhaiter qu'un signal sonore soit restitué de façon indépendante de la scène sonore, c'est-à-dire qu'il soit perçu comme un son à part de la scène sonore, par exemple comme dans le cas d'une voix « OFF ».  Similarly, a content producer may wish that a sound signal be reproduced independently of the sound scene, that is to say that it is perceived as a sound apart from the sound scene, for example as in the case of an "OFF" voice.
Ce type de restitution peut permettre par exemple de donner des explications sur une scène sonore par ailleurs restituée. Par exemple, le producteur de contenu peut souhaiter que le son soit restitué sur une seule oreille pour pouvoir obtenir un effet volontaire de type « oreillette », c'est-à-dire que le son n'est entendu que d'une seule oreille. On peut souhaiter également que ce son reste en permanence uniquement sur cette oreille même si l'auditeur bouge sa tête, ce qui est le cas dans l'exemple précédent. Le producteur de contenu peut également souhaiter que ce son soit restitué à une position précise dans l'espace sonore, par rapport à une oreille de l'auditeur (et pas uniquement à l'intérieur d'une seule oreille) et ce, même s'il bouge la tête.  This type of reproduction may allow for example to give explanations on a sound scene otherwise restored. For example, the content producer may wish the sound to be reproduced on one ear to be able to obtain a voluntary effect of "headset" type, that is to say that the sound is heard only in one ear . We may also wish that this sound remains permanently only on this ear even if the listener moves his head, which is the case in the previous example. The content producer may also wish this sound to be rendered at a precise position in the sound space, relative to an ear of the listener (and not only within a single ear), even if he moves his head.
Un tel signal monophonique décodé et mis en entrée d'un système de restitution d'un codée de type MPEG-H 3D audio ou AC4, sera binauralisé. Le son sera alors réparti sur les deux oreilles (même s'il sera moins fort dans l'oreille contra-latérale) et si l'auditeur bouge sa tête, il ne percevra pas le son de la même façon sur son oreille, puisque le traitement de suivi de la tête, s'il est mis en oeuvre, fera en sorte que la position de la source sonore reste la même que dans la scène sonore initiale : selon la position de la tête, le son apparaitra donc plus fort dans l'une ou l'autre des oreilles.  Such monophonic signal decoded and put in input of a system of reproduction of a codice of type MPEG-H 3D audio or AC4, will be binauralised. The sound will then be spread over both ears (although it will be less loud in the contra-lateral ear) and if the listener moves his head, he will not perceive the sound in the same way on his ear, since the follow-up treatment of the head, if implemented, will ensure that the position of the sound source remains the same as in the initial sound stage: depending on the position of the head, the sound will appear stronger in the one or the other of the ears.
Dans une proposition de modification du codée MPEG-H 3D audio, une contribution référencée « ISO/IEC JTC1/SC29/WG11 MPEG2015/M37265 » d'Octobre 2015 propose d'identifier les contenus qui ne doivent pas être altérés par la binauralisation.  In a proposal to modify the codec MPEG-H 3D audio, a contribution referenced "ISO / IEC JTC1 / SC29 / WG11 MPEG2015 / M37265" of October 2015 proposes to identify the contents that should not be altered by binauralization.
Ainsi, une identification « Dichotic » est associée aux contenus ne devant pas être traités par binauralisation.  Thus, a "Dichotic" identification is associated with the contents that should not be processed by binauralization.
Tous les éléments audio seront alors binauralisés sauf ceux référencés « Dichotic ». « Dichotic » signifie que l'on a un signal différent sur chacune des oreilles.  All the audio elements will then be binauralised except those referenced "Dichotic". "Dichotic" means that you have a different signal on each ear.
De la même façon, dans la norme AC4, un bit d'information indique qu'un signal est déjà virtualisé. Ce bit permet la désactivation du post-traitement. Les contenus ainsi identifiés sont des contenus déjà formatés pour le casque audio, c'est à dire en binaural. Ils comportent deux canaux. Ces méthodes ne traitent pas du cas d'un signal monophonique pour lequel, le producteur de la scène sonore ne désire pas de binauralisation. In the same way, in the AC4 standard, an information bit indicates that a signal is already virtualized. This bit allows the deactivation of the post-processing. The contents thus identified are contents already formatted for the audio headphones, that is to say in binaural. They have two channels. These methods do not deal with the case of a monophonic signal for which, the producer of the sound stage does not wish to binauralization.
Ceci ne permet pas de restituer un signal monophonique de façon indépendante de la scène sonore, à une position précise par rapport à une oreille d'un auditeur qu'on appellera en mode « oreillette ». En utilisant les techniques de l'état de l'art à deux canaux, une solution serait de créer un contenu à 2 canaux constitué d'un signal dans une des voies et d'un silence dans l'autre voie pour une restitution souhaitée sur une seule oreille ou bien de créer un contenu stéréophonique prenant en compte la position spatiale souhaitée et d'identifier ce contenu comme ayant déjà été spatialisé avant de le transmettre.  This does not make it possible to restore a monophonic signal independently of the sound stage, at a precise position with respect to an ear of a listener who will be called in the "ear" mode. Using two-channel state of the art techniques, one solution would be to create a 2-channel content consisting of a signal in one of the channels and a silence in the other channel for a desired rendition on a single ear or to create a stereophonic content taking into account the desired spatial position and to identify this content as having already been spatialized before transmitting it.
Cependant ce type de traitement crée de la complexité par la création de ce contenu stéréophonique et demande un débit supplémentaire de transmission de ce contenu stéréophonique.  However, this type of processing creates complexity by the creation of this stereophonic content and requires an additional bit rate of transmission of this stereophonic content.
Il existe donc un besoin d'offrir une solution qui permette de faire transiter un signal qui sera restitué à une position précise par rapport à une oreille d'un porteur de casque audio de façon indépendante d'une scène sonore restituée par ce même casque, tout en optimisant le débit du codée utilisé.  There is therefore a need to offer a solution that makes it possible to pass a signal that will be restored to a precise position relative to an ear of an audio headphone wearer independently of a sound scene restored by the same headset, while optimizing the rate of the coded used.
La présente invention vient améliorer la situation.  The present invention improves the situation.
Elle propose à cet effet, un procédé de traitement d'un signal monophonique audio dans un décodeur audio 3D comportant une étape de traitement de binauralisation des signaux décodés destinés à être restitué spatialement par un casque audio. Le procédé est tel que, à la détection, dans un flux de données représentatif du signal monophonique, d'une indication de non-traitement de binauralisation associée à une information de position spatiale de restitution, le signal monophonique décodé est dirigé vers un moteur de rendu stéréophonique prenant en compte l'information de position pour construire deux voies de restitution traitées par une étape de mixage direct sommant ces deux voies avec un signal binauralisé issu du traitement de binauralisation, pour être restitué sur le casque audio.  To this end, it proposes a method of processing an audio monophonic signal in a 3D audio decoder comprising a binauralization processing step of the decoded signals intended to be spatially reproduced by an audio headset. The method is such that, upon detecting, in a data flow representative of the monophonic signal, an indication of binaural non-processing associated with a restitution spatial position information, the decoded monophonic signal is directed to a transmission engine. stereophonic rendering taking into account the position information to construct two rendering channels processed by a direct mixing step summing these two channels with a binauralized signal resulting from binauralization processing, to be rendered on the headphones.
Ainsi, il est possible de spécifier qu'un contenu monophonique doit être restitué à une position spatiale précise par rapport à une oreille d'un auditeur et qu'il ne subisse pas de traitement de binauralisation de façon à ce que ce signal restitué puisse avoir un effet « oreillette », c'est-à-dire qu'il soit entendu par l'auditeur à une position déterminée par rapport à une oreille, à l'intérieur de la tête de la même façon qu'un signal stéréophonique et ceci même si la tête de l'auditeur bouge.  Thus, it is possible to specify that a monophonic content must be rendered at a precise spatial position with respect to an ear of a listener and that it does not undergo binauralization processing so that this restored signal can have an "ear" effect, that is to say, it is heard by the listener at a specific position with respect to an ear, inside the head in the same way as a stereophonic signal and this even if the listener's head moves.
En effet, les signaux stéréophoniques sont caractérisés par le fait que chaque source sonore se trouve présente dans chacune des 2 voies de sortie (gauche et droite) avec une différence d'intensité (ou ILD pour « Interaural Level Différence ») et parfois de temps (ou ITD pour « Interaural Time Différence ») entre les voies. Lors d'une écoute au casque d'un signal stéréophonique, les sources sont perçues à l'intérieur de la tête, à un endroit se situant entre l'oreille gauche et l'oreille droite, dépendant de l'ILD et/ou de l'ITD. Les signaux binauraux s'opposent aux signaux stéréophoniques en ce que les sources se voient appliquer un filtre reproduisant le trajet acoustique de la source à l'oreille de l'auditeur. Lors d'une écoute au casque d'un signal binaural, les sources sont perçues en dehors de la tête, à un endroit se situant sur une sphère, dépendant du filtre utilisé. Indeed, stereophonic signals are characterized by the fact that each sound source is present in each of the 2 output channels (left and right) with an intensity difference (or ILD for "Interaural Level Difference") and sometimes time (or ITD for "Interaural Time Difference") between the channels. When listening to the headphones of a stereophonic signal, the sources are perceived inside the head, at a location between the left ear and the right ear, depending on the ILD and / or ITD. Signals Binaurals oppose stereophonic signals in that the sources are applied a filter reproducing the acoustic path from the source to the ear of the listener. When listening to the headphones of a binaural signal, the sources are perceived outside the head, at a location on a sphere, depending on the filter used.
Les signaux stéréophoniques et binauraux se rapprochent en ce qu'ils sont constitués de 2 voies gauche et droite, et se distinguent par le contenu de ces 2 voies.  The stereophonic and binaural signals are similar in that they consist of 2 left and right channels, and are distinguished by the content of these 2 channels.
Ce signal mono (pour monophonique) restitué vient alors en superposition aux autres signaux restitués qui forment une scène sonore 3D.  This monaural signal (for monophonic) restored then superimposes the other restored signals that form a 3D sound scene.
Le débit nécessaire pour indiquer ce type de contenu est optimisé puisqu'il ne suffit de coder qu'une indication de position dans la scène sonore en plus de l'indication de non- binauralisation pour informer le décodeur du traitement à effectuer, contrairement à une méthode qui nécessiterait d'encoder, transmettre puis décoder un signal stéréophonique prenant en compte cette position spatiale.  The rate required to indicate this type of content is optimized since it is sufficient to code only a position indication in the sound scene in addition to the indication of non-binauralization to inform the decoder of the treatment to be performed, unlike a method that would require encoding, transmit and decode a stereo signal taking into account this spatial position.
Les différents modes particuliers de réalisation mentionnés ci-après peuvent être ajoutés indépendamment ou en combinaison les uns avec les autres, aux étapes du procédé de traitement défini ci-dessus.  The various particular embodiments mentioned below may be added independently or in combination with each other, to the steps of the treatment method defined above.
Dans un mode de réalisation particulier, l'information de position spatiale de restitution est une donnée binaire indiquant une seule voie du casque audio de restitution.  In a particular embodiment, the restitution spatial position information is a binary data indicating a single channel of the reproduction audio headset.
Cette information ne nécessite qu'un bit de codage, ce qui permet encore de restreindre le débit nécessaire.  This information requires only one coding bit, which further allows the necessary bit rate to be restricted.
Dans ce mode de réalisation, seule la voie de restitution correspondant à la voie indiquée par la donnée binaire est sommée à la voie correspondante du signal binauralisé à l'étape de mixage direct, l'autre voie de restitution étant de valeur nulle.  In this embodiment, only the playback channel corresponding to the channel indicated by the binary data is summed to the corresponding channel of the binauralized signal in the direct mixing step, the other playback channel being of zero value.
La sommation ainsi effectuée est simple à mettre en oeuvre et apporte l'effet « oreillette » désiré, de superposition du signal mono à la scène sonore restituée.  The summation thus performed is simple to implement and provides the desired "headset" effect of superposition of the mono signal to the sound scene restored.
Dans un mode de réalisation particulier, le signal monophonique est un signal de type canal dirigé vers le moteur de rendu stéréophonique avec l'information de position spatiale de restitution.  In a particular embodiment, the monophonic signal is a channel-type signal directed to the stereophonic rendering engine with the spatial position feedback information.
Ainsi, le signal monophonique ne subit pas d'étape de traitement de binauralisation et n'est pas traité comme les signaux de type canal habituellement traités par les méthodes de l'état de l'art. Ce signal est traité par un moteur de rendu stéréophonique différent de celui existant pour les signaux de type canal. Ce moteur de rendu consiste à dupliquer le signal monophonique sur les 2 voies, en appliquant des facteurs fonctions de l'information de position spatiale de restitution, sur les deux canaux.  Thus, the monophonic signal does not undergo a binauralization processing step and is not treated as channel-type signals usually processed by state-of-the-art methods. This signal is processed by a stereophonic rendering engine different from that existing for the channel type signals. This rendering engine consists of duplicating the monophonic signal on the 2 channels, by applying function factors of the spatial position information of restitution, on both channels.
Ce moteur de rendu stéréophonique peut par ailleurs être intégré au moteur de rendu canal avec un traitement différencié selon la détection faite pour le signal à l'entrée de ce moteur de rendu ou au module de mixage direct sommant les voies issues de ce moteur de rendu stéréophonique au signal binauralisé issu du module de traitement de binauralisation. Dans un mode de réalisation lié au signal de type canal, l'information de position spatiale de restitution est une donnée de différence interaurale de niveau sonore de type ILD ou plus généralement une information de rapport de niveau entre les voies gauche et droite. This stereophonic rendering engine can also be integrated into the channel rendering engine with a differentiated processing according to the detection made for the signal at the input of this rendering engine or the direct mixing module summing the channels resulting from this rendering engine. stereophonic signal binauralized binaural processing module. In an embodiment related to the channel-type signal, the restitution spatial position information is an interaural sound level difference data type ILD or more generally a level report information between the left and right channels.
Dans un autre mode de réalisation, le signal monophonique est un signal de type objet associé à un ensemble de paramètres de restitution comprenant l'indication de non- binauralisation et l'information de position de restitution, le signal étant dirigé vers le moteur de rendu stéréophonique avec l'information de position spatiale de restitution.  In another embodiment, the monophonic signal is an object type signal associated with a set of reproduction parameters including the non-binauralization indication and the restitution position information, the signal being directed to the rendering engine. stereophonic with spatial position feedback information.
Dans cet autre mode de réalisation, l'information de position spatiale de restitution est par exemple une donnée d'angle azimut.  In this other embodiment, the restitution spatial position information is for example an azimuth angle datum.
Cette information permet de donner une position de restitution par rapport à une oreille du porteur du casque audio de façon à ce que ce son soit restitué en superposition d'une scène sonore.  This information makes it possible to give a restitution position with respect to an ear of the headset carrier so that this sound is superimposed on a sound stage.
Ainsi, le signal monophonique ne subit pas d'étape de traitement de binauralisation et n'est pas traité comme les signaux de type objet habituellement traités par les méthodes de l'état de l'art. Ce signal est traité par un moteur de rendu stéréophonique différent de celui existant pour les signaux de type objet. L'indication de non-traitement de binauralisation ainsi que l'information de position de restitution sont comprises dans les paramètres de restitution (Métadata) associés au signal de type objet. Ce moteur de rendu peut par ailleurs être intégré au moteur de rendu objet ou au module de mixage direct sommant les voies issues de ce moteur de rendu stéréophonique au signal binauralisé issu du module de traitement de binauralisation.  Thus, the monophonic signal does not undergo a binauralization processing step and is not treated as the object type signals usually processed by the methods of the state of the art. This signal is processed by a stereophonic rendering engine different from that existing for the object type signals. Binaural non-processing indication and rest position information are included in the rendering parameters (Metadata) associated with the object type signal. This rendering engine can also be integrated with the object rendering engine or with the direct mixing module summing the channels resulting from this stereophonic rendering engine with the binauralized signal coming from the binauralization processing module.
La présente invention se rapporte aussi à un dispositif de traitement d'un signal monophonique audio comportant un module de traitement de binauralisation de signaux décodés destinés à être restitués spatialement par un casque audio. Ce dispositif est tel qu'il comporte :  The present invention also relates to a device for processing an audio monophonic signal comprising a processing module for binauralization of decoded signals intended to be spatially reproduced by an audio headset. This device is such that it comprises:
un module de détection apte à détecter, dans un flux de données représentatif du signal monophonique, une indication de non-traitement de binauralisation associée à une information de position spatiale de restitution ;  a detection module adapted to detect, in a data flow representative of the monophonic signal, an indication of binaural non-processing associated with a restitution spatial position information;
un module de redirection, dans le cas d'une détection positive par le module de détection, apte à diriger le signal monophonique vers un moteur de rendu stéréophonique ;  a redirection module, in the case of a positive detection by the detection module, able to direct the monophonic signal to a stereophonic rendering engine;
un moteur de rendu stéréophonique apte à prendre en compte l'information de position pour construire deux voies de restitution ;  a stereophonic rendering engine adapted to take into account the position information to construct two rendering channels;
un module de mixage direct apte à traiter directement les deux voies de restitution en les sommant avec un signal binauralisé issu du module de traitement de binauralisation, pour être restitué sur le casque audio. a direct mixing module able to directly process the two rendering channels by summing them with a binauralized signal from the binauralization processing module, to be rendered on the headphones.
Ce dispositif présente les mêmes avantages que le procédé décrit précédemment, qu'il met en oeuvre. Dans un mode de réalisation particulier, le moteur de rendu stéréophonique est intégré dans le module de mixage direct. This device has the same advantages as the method described above, which it implements. In a particular embodiment, the stereophonic rendering engine is integrated in the direct mixing module.
Ainsi, ce n'est qu'au module de mixage direct que les voies de restitution sont construites, seule l'information de position étant alors transmise avec le signal mono jusqu'au module de mixage direct. Ce signal peut être de type canal ou de type objet.  Thus, only the direct mixing module that the playback channels are built, only the position information is then transmitted with the mono signal to the direct mixing module. This signal may be of the channel type or of the object type.
Dans un mode de réalisation, le signal monophonique est un signal de type canal et le moteur de rendu stéréophonique est intégré à un moteur de rendu canal construisant par ailleurs des voies de restitution pour des signaux à plusieurs canaux.  In one embodiment, the monophonic signal is a channel-type signal and the stereophonic rendering engine is integrated with a channel rendering engine that also builds rendering channels for multi-channel signals.
Dans un autre mode de réalisation, le signal monophonique est un signal de type objet et le moteur de rendu stéréophonique est intégré à un moteur de rendu objet construisant par ailleurs des voies de restitution pour des signaux monophoniques associées à des ensembles de paramètres de restitution.  In another embodiment, the monophonic signal is an object type signal and the stereophonic rendering engine is integrated with an object rendering engine that also builds rendering channels for monophonic signals associated with sets of rendering parameters.
La présente invention vise un décodeur audio comportant un dispositif de traitement tel que décrit ainsi qu'un programme informatique comportant des instructions de code pour la mise en oeuvre des étapes du procédé de traitement tel que décrit, lorsque ces instructions sont exécutées par un processeur.  The present invention relates to an audio decoder comprising a processing device as described and a computer program comprising code instructions for implementing the steps of the processing method as described, when these instructions are executed by a processor.
Enfin l'invention se rapporte à un support de stockage, lisible par un processeur, intégré ou non au dispositif de traitement, éventuellement amovible, mémorisant un programme informatique comportant des instructions pour l'exécution du procédé de traitement tel que décrit précédemment.  Finally, the invention relates to a storage medium, readable by a processor, integrated or not to the processing device, possibly removable, storing a computer program comprising instructions for executing the processing method as described above.
D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante, donnée uniquement à titre d'exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels :  Other features and advantages of the invention will appear more clearly on reading the following description, given solely by way of nonlimiting example, and with reference to the appended drawings, in which:
la figure 1 illustre un décodeur de type MPEG-H 3D audio tel qu'il existe dans l'état de l'art ;  FIG. 1 illustrates a decoder of the MPEG-H 3D audio type as it exists in the state of the art;
La figure 2 illustre les étapes d'un procédé de traitement selon un mode de réalisation de l'invention ;  FIG. 2 illustrates the steps of a processing method according to one embodiment of the invention;
la figure 3 illustre un décodeur comportant un dispositif de traitement selon un premier mode de réalisation de l'invention ;  FIG. 3 illustrates a decoder comprising a processing device according to a first embodiment of the invention;
la figure 4 illustre un décodeur comportant un dispositif de traitement selon un deuxième mode de réalisation de l'invention ; et  FIG. 4 illustrates a decoder comprising a processing device according to a second embodiment of the invention; and
la figure 5 illustre une représentation matérielle d'un dispositif de traitement selon un mode de réalisation de l'invention.  FIG. 5 illustrates a hardware representation of a processing device according to one embodiment of the invention.
La figure 1 illustre schématiquement un décodeur tel que normalisé dans la norme MPEG-H 3D audio selon le document référencé ci-dessus. Le bloc 101 est un module de décodage cœur qui décode à la fois des signaux audio multicanaux (Ch.) de type « canal », des signaux audio monophoniques de type « objet » (Obj.) associés à des paramètres de spatialisation (« Metadata ») (Obj.MeDa.) et des signaux audio en format audio ambiophonique d'ordre supérieur (HOA) (HOA pour « Higher Order Ambisonic » en anglais). FIG. 1 schematically illustrates a decoder as standardized in the MPEG-H 3D audio standard according to the document referenced above. Block 101 is a heart decoding module which decodes both channel-type multichannel audio signals (Ch.) And object-type monophonic audio signals (Obj.) Associated with spatialization ("Metadata") (Obj.MeDa.) and audio signals in Higher Order Ambisonic Audio (HOA) format (HOA).
Un signal de type canal est décodé et traité par un moteur de rendu canal 102 (« Channel renderer » en anglais, encore appelé « Format Converter » dans MPEG-H 3D Audio) afin d'adapter ce signal canal au système de restitution audio. Le moteur de rendu canal connaît les caractéristiques du système de restitution et fournit ainsi un signal par voie de restitution (Rdr.Ch.) pour alimenter soit des haut-parleurs réels soit des haut-parleurs virtuels (qui seront alors binauralisés pour un rendu au casque).  A channel-type signal is decoded and processed by a channel rendering engine 102 ("Channel renderer" in English, also called "Format Converter" in MPEG-H 3D Audio) in order to adapt this channel signal to the audio rendering system. The channel rendering engine knows the characteristics of the rendering system and thus provides a signal by way of reproduction (Rdr.Ch.) to supply either real speakers or virtual speakers (which will then be binauralised for a rendering at helmet).
Ces voies de restitutions sont mixées par le module de mixage 110, à d'autres voies de restitutions issues des moteurs de rendu objet 103 et HOA 105 décrits ultérieurement.  These rendering channels are mixed by the mixing module 110 to other rendering channels from the object rendering engines 103 and HOA 105 described later.
Les signaux de type objet (Obj.) sont des signaux monophoniques associés à des données (« Metadata ») comme des paramètres de spatialisation (angles azimut, élévation) qui permettent de positionner le signal monophonique dans la scène sonore spatialisée, des paramètres de priorité ou des paramètres de volume sonore. Ces signaux objet sont décodés ainsi que les paramètres associés, par le module de décodage 101 et sont traités par un moteur de rendu objet 103 (« Object Renderer » en anglais) qui, connaissant les caractéristiques du système de restitution, adapte ces signaux monophoniques à ces caractéristiques. Les différentes voies de restitution (Rdr.Obj.) ainsi créées sont mixées avec les autres voies de restitution issues des moteurs de rendu canal et HOA, par le module de mixage 110.  Object-type signals (Obj.) Are monophonic signals associated with data ("Metadata") such as spatialization parameters (azimuth angles, elevation) which make it possible to position the monophonic signal in the spatialized sound scene, priority parameters or sound volume settings. These object signals are decoded, together with the associated parameters, by the decoding module 101 and are processed by an object rendering engine 103 ("Object Renderer" in English) which, knowing the characteristics of the rendering system, adapts these monophonic signals to these characteristics. The various reproduction channels (Rdr.Obj.) Thus created are mixed with the other rendering channels from the channel and HOA rendering engines, by the mixing module 110.
De la même façon, les signaux de type ambiophonique (HOA pour «Higher Order Ambisonic » en anglais) sont décodés et les composantes ambiophoniques décodées sont mis en entrée d'un moteur de rendu ambiophonique 105 (« HOA renderer » en anglais) pour adapter ces composantes au système de restitution sonore.  In the same way, the "Higher Order Ambisonic" (HOA) type signals are decoded and the decoded surround components are inputted from an ambient rendering engine 105 ("HOA renderer") to adapt these components to the sound reproduction system.
Les voies de restitution (Rdr .HOA) créées par ce moteur de rendu HOA sont mixées en 110 avec les voies de restitution crées par les autres moteurs de rendu 102 et 103.  The reproduction channels (Rdr .HOA) created by this rendering engine HOA are mixed at 110 with the reproduction channels created by the other rendering engines 102 and 103.
Les signaux à la sortie du module de mixage 110 peuvent être restitués par des hauts parleurs réels HP situés dans une pièce de restitution. Dans ce cas, les signaux en sortie du module de mixage peuvent alimenter directement ces haut-parleurs réels, une voie correspondant à un haut-parleur.  The signals at the output of the mixing module 110 can be restored by HP real speakers located in a playback room. In this case, the signals at the output of the mixing module can directly supply these real speakers, a channel corresponding to a loudspeaker.
Dans le cas où les signaux en sortie du module de mixage sont à restituer sur un casque audio CA, alors ces signaux sont traités par un module de traitement de binauralisation 120 selon des techniques de binauralisation décrits par exemple dans le document cité pour la norme MPEG-H 3D audio.  In the case where the signals at the output of the mixing module are to be reproduced on an AC headset, then these signals are processed by a binauralization processing module 120 according to binauralization techniques described for example in the document cited for the MPEG standard. -H 3D audio.
Ainsi, tous les signaux destinés à être restitués sur un casque audio, sont traités par le module de traitement de binauralisation 120.  Thus, all the signals intended to be rendered on a headphone, are processed by binauralization processing module 120.
La figure 2 décrit à présent les étapes d'un procédé de traitement selon un mode de réalisation de l'invention. Ce procédé concerne le traitement d'un signal monophonique dans un décodeur audio 3D. Une étape E200 détecte si le flux de données (SMo) représentatif du signal monophonique (par exemple le bitstream à l'entrée du décodeur audio) comporte une indication de non-traitement de binauralisation associée à une information de position spatiale de restitution. Dans le cas contraire (N à l'étape E200), le signal doit être binauralisé. Il est traité par un traitement de binauralisation, à l'étape E210, avant d'être restitué en E240 sur un casque audio de restitution. Ce signal binauralisé peut être mixé avec d'autres signaux stéréophoniques issus de l'étape E220 décrite ci-dessous. Figure 2 now describes the steps of a method of processing according to one embodiment of the invention. This method relates to the processing of a monophonic signal in a 3D audio decoder. A step E200 detects whether the data flow (SMo) representative of the monophonic signal (for example the bitstream at the input of the audio decoder) includes a binaural non-processing indication associated with a restitution spatial position information. In the opposite case (N in step E200), the signal must be binauralized. It is processed by binauralization processing, in step E210, before being restored in E240 on a playback headset. This binauralized signal can be mixed with other stereophonic signals from step E220 described below.
Dans le cas où le le flux de données représentatif du signal monophonique comporte à la fois une indication de non-binauralisation (Di.) et une information de position spatiale de restitution (Pos.) (O à l'étape E200), le signal monophonique décodé est dirigé vers un moteur de rendu stéréophonique pour être traité par une étape E220.  In the case where the representative data stream of the monophonic signal comprises both an indication of non-binauralization (Di.) and a positional spatial position information (Pos.) (O at step E200), the signal monophonic decoded is directed to a stereophonic rendering engine to be processed by a step E220.
Cette indication de non-binauralisation peut être par exemple comme dans l'état de l'art, une identification « Dichotic » donnée au signal monophonique ou une autre identification comprise comme une instruction de ne pas traiter le signal par un traitement de binauralisation. L'information de position spatiale de restitution peut être par exemple un angle azimut indiquant la position de restitution du son par rapport à une oreille, droite ou gauche, ou encore une indication de différence de niveau entre les voies gauche et droite comme une information d'ILD permettant de répartir l'énergie du signal monophonique entre les voies gauche et droite, ou encore simplement l'indication d'une seule voie de restitution, correspondant à l'oreille droite ou gauche. Dans ce dernier cas, cette information est une information binaire qui ne nécessite que très peu de débit (1 seul bit d'information).  This non-binauralization indication may be, for example, as in the state of the art, a "Dichotic" identification given to the monophonic signal or another identification understood as an instruction not to process the signal by a binauralization process. The spatial position information of restitution can be for example an azimuth angle indicating the restitution position of the sound with respect to an ear, right or left, or an indication of difference in level between the left and right channels as a piece of information. ILD for distributing the energy of the monophonic signal between the left and right channels, or simply the indication of a single channel of restitution, corresponding to the right or left ear. In the latter case, this information is binary information that requires very little bit rate (1 bit of information).
A l'étape E220, l'information de position est prise en compte pour construire deux voies de restitution pour les deux écouteurs du casque audio. Ces deux voies de restitution ainsi construites sont traitées directement par une étape de mixage direct E230 sommant ces deux voies stéréophoniques avec les deux voies du signal binauralisé issues du traitement de binauralisation E210.  In step E220, the position information is taken into account to build two rendering channels for the two earphones of the headphones. These two playback channels thus constructed are processed directly by a direct mixing step E230 summing these two stereo channels with the two channels of the binauralized signal from binauralization processing E210.
Chacune des voies de restitution stéréophonique est alors sommée avec la voie correspondante du signal binauralisé.  Each of the stereophonic reproduction channels is then summed with the corresponding channel of the binauralized signal.
Suite à cette étape de mixage direct, les deux voies de restitution issues de l'étape de mixage E230 sont restituées en E240 sur le casque audio CA.  Following this step of direct mixing, the two playback channels from the E230 mixing step are restored in E240 on the AC headphones.
Dans un mode de réalisation où l'information de position spatiale de restitution est une donnée binaire indiquant une seule voie du casque audio de restitution, cela veut dire que le signal monophonique doit être restitué uniquement sur un écouteur de ce casque. Les deux voies de restitution construites à l'étape E220 par le moteur de rendu stéréophonique sont constituées d'une voie comportant le signal monophonique, l'autre voie étant nulle, et donc possiblement absente. A l'étape de mixage direct E230, une seule voie est donc sommée avec la voie correspondante du signal binauralisé, l'autre voie étant nulle. Cette étape de mixage est donc simplifiée. In an embodiment where the restitution spatial position information is a binary data indicating a single channel of the playback headset, this means that the monophonic signal must be rendered only on a headphone of this headset. The two reproduction channels constructed in step E220 by the stereophonic rendering engine consist of a channel comprising the monophonic signal, the other channel being zero, and therefore possibly absent. At the step of direct mixing E230, a single channel is summed with the corresponding channel of the binauralized signal, the other channel being zero. This mixing step is simplified.
Ainsi, l'auditeur muni du casque audio entend d'une part, une scène sonore spatialisée provenant du signal binauralisé, cette scène sonore est entendue par lui au même endroit physique même s'il bouge la tête dans le cas d'un rendu dynamique et d'autre part, un son positionné à l'intérieur de la tête, entre une oreille et le centre de la tête, qui se superpose à la scène sonore de façon indépendante, c'est-à-dire que si l'auditeur bouge la tête, ce son sera entendu à la même position par rapport à une oreille.  Thus, the listener equipped with the audio headset hears on the one hand, a spatialized sound scene from the binauralized signal, this sound scene is heard by him at the same physical place even if he moves his head in the case of a dynamic rendering and on the other hand, a sound positioned inside the head, between an ear and the center of the head, which is superimposed on the sound stage independently, that is, if the listener move your head, this sound will be heard in the same position relative to an ear.
Ce son est donc perçu en superposition des autres sons binauralisés de la scène sonore, et agira par exemple comme une voix « OFF » à cette scène sonore.  This sound is perceived as a superposition of other binauralized sounds of the sound stage, and will act as an "OFF" voice to this sound scene.
L'effet « oreillette » est alors réalisé.  The "headset" effect is then realized.
La figure 3 illustre un premier mode de réalisation d'un décodeur comportant un dispositif de traitement mettant en oeuvre le procédé de traitement décrit en référence à la figure 2. Dans cet exemple de réalisation, le signal monophonique traité par le procédé mis en oeuvre est un signal de type canal (Ch.).  FIG. 3 illustrates a first embodiment of a decoder comprising a processing device implementing the processing method described with reference to FIG. 2. In this exemplary embodiment, the monophonic signal processed by the method used is a channel type signal (Ch.).
Les signaux de type objet (obj.) et de type HOA (HOA) sont traités de la même façon par les blocs respectifs 303, 304 et 305 que les blocs 103, 104 et 105 décrits en référence à la figure 1. De la même façon, le bloc de mixage 310 effectue un mixage tel que décrit pour le bloc 110 de la figure 1.  The object (object) and HOA (HOA) type signals are processed in the same way by the respective blocks 303, 304 and 305 as the blocks 103, 104 and 105 described with reference to FIG. way, the mixing block 310 performs a mixing as described for the block 110 of Figure 1.
Le bloc 330 recevant les signaux de type canal traite différemment un signal monophonique comportant une indication de non-binauralisation (Di.) associée à une information de position spatiale de restitution (Pos.) qu'un autre signal ne comportant pas ces informations, en particulier un signal multicanal. Pour ces signaux ne comportant pas ces informations, ils sont traités par le bloc 302 de la même façon que le bloc 102 décrit en référence à la figure 1.  The block 330 receiving the channel-type signals treats differently a monophonic signal having a non-binauralization indication (Di.) associated with a restitution spatial position information (Pos.) That another signal does not include this information, in particularly a multichannel signal. For these signals not having this information, they are processed by the block 302 in the same way as the block 102 described with reference to FIG.
Pour un signal monophonique comportant l'indication de non-binauralisation associée à une information de position spatiale de restitution, le bloc 330 agit comme un routeur ou interrupteur et dirige le signal monophonique décodé (Mo.) vers un moteur de rendu stéréophonique 331. Ce moteur de rendu stéréophonique reçoit par ailleurs, du module de décodage, l'information de position spatiale de restitution (Pos.). Avec cette information, il construit deux voies de restitution (2 Vo.), correspondants aux voies gauche et droite du casque audio de restitution, pour que ces voies soient restituées sur le casque audio CA.  For a monophonic signal comprising the non-binauralization indication associated with a restitution spatial position information, the block 330 acts as a router or switch and directs the decoded monophonic signal (Mo.) to a stereophonic rendering engine 331. stereophonic rendering engine also receives, from the decoding module, the spatial position information of restitution (Pos.). With this information, it builds two playback channels (2 Vo.), Corresponding to the left and right channels of the playback headphones, for these channels to be output to the AC headphones.
Dans un exemple de réalisation, l'information de position spatiale de restitution est une information de différence interaurale de niveau sonore entre les voies gauche et droite. Cette information permet de définir un facteur à appliquer à chacune des voies de restitution pour respecter cette position spatiale de restitution. La définition de ces facteurs peut s'effectuer comme dans le document référencé MPEG-2 AAC: ISO/IEC 13818-4:2004/DCOR 2, AAC dans la section 7.2 décrivant l'intensité stéréo. In an exemplary embodiment, the restitution spatial position information is interaural sound level difference information between the left and right channels. This information makes it possible to define a factor to be applied to each of the rendering channels in order to respect this restitution spatial position. The definition of these factors can be done as in the document referenced MPEG-2 AAC: ISO / IEC 13818-4: 2004 / DCOR 2, AAC in section 7.2 describing the stereo intensity.
Avant d'être restituées sur le casque audio, ces voies de restitution sont ajoutées aux voies d'un signal binauralisé issu du module de binauralisation 320 qui effectue un traitement de binauralisation de la même façon que le bloc 120 de la figure 1.  Before being rendered on the headphones, these rendering channels are added to the channels of a binauralized signal from binauralization module 320 which performs a binauralization processing in the same way as block 120 of FIG.
Cette étape de sommation des voies s'effectue par le module de mixage direct 340 qui somme la voie gauche issue du moteur de rendu stéréophonique 331 à la voie gauche du signal binauralisé issu du module de traitement de binauralisation 320 et la voie droite issue du moteur de rendu stéréophonique 331 à la voie droite du signal binauralisé issu du module de traitement de binauralisation 320, avant la restitution sur le casque CA.  This channel summing step is performed by the direct mixing module 340 which is the left channel from the stereophonic rendering engine 331 to the left channel of the binauralized signal from binauralization processing module 320 and the right channel from the engine stereophonic rendering 331 to the right channel of the binauralized signal from binauralization processing module 320, before playback on the CA headset.
Ainsi, le signal monophonique ne passe pas par le module de traitement de binauralisation 320, il est transmis directement au moteur de rendu stéréophonique 331 avant d'être mixé directement à un signal binauralisé.  Thus, the monophonic signal does not pass through the binauralization processing module 320, it is transmitted directly to the stereophonic rendering engine 331 before being directly mixed with a binauralized signal.
Ce signal ne subira donc pas non plus de traitement de suivi de la tête. Le son restitué sera donc à une position de restitution par rapport à une oreille de l'auditeur et restera à cette position même si l'auditeur bouge sa tête.  This signal will not undergo either head tracking treatment. The restored sound will be in a position of restitution with respect to an ear of the listener and will remain in this position even if the listener moves his head.
Dans ce mode de réalisation, le moteur de rendu stéréophonique 331 peut être intégré au moteur de rendu canal 302. Dans ce cas, ce moteur de rendu canal met en oeuvre à la fois l'adaptation des signaux de type canal classiques, comme décrit à la figure 1 et la construction des deux voies de restitution du moteur de rendu 331 comme expliqué ci-dessus en recevant l'information de position spatiale de restitution (Pos.). Seules les deux voies de restitution sont alors redirigées vers le module de mixage direct 340 avant restitution sur le casque audio CA.  In this embodiment, the stereophonic rendering engine 331 can be integrated with the channel rendering engine 302. In this case, this channel rendering engine implements both the adaptation of the conventional channel type signals, as described in FIG. FIG. 1 and the construction of the two renderer rendering channels of the rendering engine 331 as explained above by receiving the restitution spatial position information (Pos). Only the two playback channels are then redirected to the direct mixing module 340 before playback on the AC headphones.
Dans une variante de réalisation, le moteur de rendu stéréophonique 331 est intégré au module de mixage direct 340. Dans ce cas, le module de routage 330, dirige le signal monophonique décodé (pour lequel il a été détecté l'indication de non-binauralisation et l'information de position spatiale de restitution) vers le module de mixage direct 340. D'autre part, l'information de position spatiale de restitution (Pos.) décodée est transmise également au module de mixage direct 340. Ce module de mixage direct comportant alors le moteur de rendu stéréophonique, met en oeuvre la construction des deux voies de restitution prenant en compte l'information de position spatiale de restitution ainsi que le mixage de ces deux voies de restitution avec les voies de restitution d'un signal binauralisé issu du module de traitement de binauralisation 320.  In an alternative embodiment, the stereophonic rendering engine 331 is integrated with the direct mixing module 340. In this case, the routing module 330 directs the decoded monophonic signal (for which the non-binauralization indication has been detected. and the restitution spatial position information) to the direct mixing module 340. On the other hand, the decoded spatial position information (Pos) is also transmitted to the direct mixing module 340. This mixing module direct then comprising the stereophonic rendering engine, implements the construction of the two rendering channels taking into account the spatial position information of restitution as well as the mixing of these two rendering channels with the return channels of a binauralized signal from binauralization processing module 320.
La figure 4 illustre un deuxième mode de réalisation d'un décodeur comportant un dispositif de traitement mettant en oeuvre le procédé de traitement décrit en référence à la figure 2. Dans cet exemple de réalisation, le signal monophonique traité par le procédé mis en oeuvre est un signal de type objet (Obj.). Les signaux de type canal (Ch.) et de type HOA (HOA) sont traités de la même façon par les blocs respectifs 402 et 405 que les blocs 102 et 105 décrits en référence à la figure 1. De la même façon, le bloc de mixage 410 effectue un mixage tel que décrit pour le bloc 110 de la figure 1. FIG. 4 illustrates a second embodiment of a decoder comprising a processing device implementing the processing method described with reference to FIG. 2. In this exemplary embodiment, the monophonic signal processed by the method implemented is an object type signal (Obj.). The channel type (Ch) and HOA type (HOA) signals are treated in the same way by the respective blocks 402 and 405 as the blocks 102 and 105 described with reference to FIG. 1. In the same way, the block mixer 410 performs a mixing as described for block 110 of FIG.
Le bloc 430 recevant les signaux de type objet (Obj.) traite différemment un signal monophonique pour lequel il a été détecté une indication de non-binauralisation (Di.) associée à une information de position spatiale de restitution (Pos.) qu'un autre signal monophonique pour lequel ces informations n'ont pas été détectées.  The block 430 receiving the object type signals (Obj.) Treats differently a monophonic signal for which it has detected a non-binauralization indication (Di.) associated with a spatial position information of restitution (Pos.) That a other monophonic signal for which this information has not been detected.
Pour ces signaux monophoniques pour lequel ces informations n'ont pas été détectés, ils sont traités par le bloc 403 de la même façon que le bloc 103 décrit en référence à la figure 1 en utilisant les paramètres décodés du bloc 404 décodant les Metadata de la même façon que le bloc 104 de la figure 1.  For these monophonic signals for which this information has not been detected, they are processed by the block 403 in the same way as the block 103 described with reference to FIG. 1 using the decoded parameters of the block 404 decoding the Metadata of the same as the block 104 of Figure 1.
Pour un signal monophonique de type objet pour lequel il a été détecté l'indication de non-binauralisation associée à une information de position spatiale de restitution, le bloc 430 agit comme un routeur ou interrupteur et dirige le signal monophonique décodé (Mo.) vers un moteur de rendu stéréophonique 431.  For a monophonic signal of the object type for which the non-binauralization indication associated with a restitution spatial position information has been detected, the block 430 acts as a router or switch and directs the decoded monophonic signal (Mo.) to a stereophonic rendering engine 431.
L'indication de non-binauralisation (Di.) ainsi que l'information de position spatiale de restitution (Pos.) sont décodées par le bloc de décodage 404 des metadata ou paramètres associés aux signaux de type objet. L'indication de non-binauralisation (Di.) est transmise au bloc de routage 430 et l'information de position spatiale de restitution est transmise au moteur de rendu stéréophonique 431.  The non-binauralization indication (Di.) as well as the restitution spatial position information (Pos) are decoded by the decoding block 404 of the metadata or parameters associated with the object type signals. The non-binauralization indication (Di.) is transmitted to the routing block 430 and the restitution spatial position information is transmitted to the stereophonic rendering engine 431.
Ce moteur de rendu stéréophonique recevant ainsi l'information de position spatiale de restitution (Pos.), construit deux voies de restitution, correspondants aux voies gauche et droite du casque audio de restitution, pour que ces voies soient restituées sur le casque audio CA.  This stereophonic rendering engine thus receiving the positional restitution position information (Pos.), Builds two rendering channels corresponding to the left and right channels of the reproduction headphones, so that these channels are reproduced on the AC headphones.
Dans un exemple de réalisation, l'information de position spatiale de restitution est une information d'angle azimut définissant un angle entre la position de restitution voulue et le centre de la tête de l'auditeur.  In an exemplary embodiment, the restitution spatial position information is an azimuth angle information defining an angle between the desired restitution position and the center of the listener's head.
Cette information permet de définir un facteur à appliquer à chacune des voies de restitution pour respecter cette position spatiale de restitution.  This information makes it possible to define a factor to be applied to each of the rendering channels in order to respect this restitution spatial position.
Les facteurs de gains pour les voies gauche et droite peuvent être calculés de la manière présentée dans le document intitulé « Virtual Sound Source Positioning Using Vector Base Amplitude Panning » de Ville Pulkki dans J. Audio Eng. Soc., Vol.45, No.6, de Juin 1997.  The gain factors for the left and right channels can be calculated as presented in City Pulkki's Virtual Sound Source Positioning Using Vector Base Amplitude Panning in J. Audio Eng. Soc., Vol.45, No.6, of June 1997.
Par exemple, les facteurs de gain du moteur de rendu stéréophonique peuvent être donnés par:  For example, the gain factors of the stereophonic rendering engine can be given by:
gl = (cosO.sinH + sin0.cosH)/(2.cosH.sinH)  gl = (cosO.sinH + sin0.cosH) / (2.cosH.sinH)
g2 = (cosO.sinH - sin0.cosH)/(2.cosH.sinH) Où gl et g2 correspondent aux facteurs pour les signaux des voies gauche et droite, O est l'angle entre la direction frontale et l'objet (nommé azimut), et H est l'angle entre la direction frontale et la position du haut-parleur virtuel (correspondant au demi-angle entre les haut-parleurs), fixé par exemple à 45°. g2 = (cosO.sinH - sin0.cosH) / (2.cosH.sinH) Where gl and g2 correspond to the factors for left and right channel signals, where O is the angle between the frontal direction and the object (called azimuth), and H is the angle between the frontal direction and the position of the virtual speaker (corresponding to the half-angle between the speakers), fixed for example at 45 °.
Avant d'être restituées sur le casque audio, ces voies de restitution sont ajoutées aux voies d'un signal binauralisé issu du module de binauralisation 420 qui effectue un traitement de binauralisation de la même façon que le bloc 120 de la figure 1.  Before being rendered on the headphones, these rendering channels are added to the channels of a binauralized signal from the binauralization module 420 which performs a binauralization processing in the same way as the block 120 of FIG.
Cette étape de sommation des voies s'effectue par le module de mixage direct 440 qui somme la voie gauche issue du moteur de rendu stéréophonique 431 à la voie gauche du signal binauralisé issu du module de traitement de binauralisation 420 et la voie droite issue du moteur de rendu stéréophonique 431 à la voie droite du signal binauralisé issu du module de traitement de binauralisation 420, avant la restitution sur le casque CA.  This channel summing step is performed by the direct mixing module 440 which is the left channel from the stereophonic rendering engine 431 to the left channel of the binauralized signal from the binauralization processing module 420 and the right channel from the engine stereophonic rendering 431 to the right channel of the binauralized signal from binauralization processing module 420, before playback on the CA headset.
Ainsi, le signal monophonique ne passe pas par le module de traitement de binauralisation 420, il est transmis directement au moteur de rendu stéréophonique 431 avant d'être mixé directement à un signal binauralisé.  Thus, the monophonic signal does not go through the binaural processing module 420, it is transmitted directly to the stereophonic rendering engine 431 before being mixed directly to a binauralized signal.
Ce signal ne subira donc pas non plus de traitement de suivi de la tête. Le son restitué sera donc à une position de restitution par rapport à une oreille de l'auditeur et restera à cette position même si l'auditeur bouge sa tête.  This signal will not undergo either head tracking treatment. The restored sound will be in a position of restitution with respect to an ear of the listener and will remain in this position even if the listener moves his head.
Dans ce mode de réalisation, le moteur de rendu stéréophonique 431 peut être intégré au moteur de rendu objet 403. Dans ce cas, ce moteur de rendu objet met en oeuvre à la fois l'adaptation des signaux de type objet classiques, comme décrit à la figure 1 et la construction des deux voies de restitution du moteur de rendu 431 comme expliqué ci-dessus en recevant l'information de position spatiale de restitution (Pos.) du module de décodage 404 des paramètres. Seules les deux voies de restitution (2Vo.) sont alors redirigées vers le module de mixage direct 440 avant restitution sur le casque audio CA.  In this embodiment, the stereophonic rendering engine 431 can be integrated with the object rendering engine 403. In this case, this object rendering engine implements both the adaptation of the conventional object type signals, as described in FIG. FIG. 1 and the construction of the two renderer rendering channels 431 as explained above by receiving the restitution spatial position information (Pos) of the decoding module 404 of the parameters. Only the two playback channels (2Vo.) Are then redirected to the direct mixing module 440 before playback on the AC headphones.
Dans une variante de réalisation, le moteur de rendu stéréophonique 431 est intégré au module de mixage direct 440. Dans ce cas, le module de routage 430, dirige le signal monophonique décodé (Mo.) (pour lequel il a été détecté l'indication de non-binauralisation et l'information de position spatiale de restitution) vers le module de mixage direct 440. D'autre part, l'information de position spatiale de restitution (Pos.) décodée est transmise également au module de mixage direct 440 par le module de décodage des paramètres 404. Ce module de mixage direct comportant alors le moteur de rendu stéréophonique, met en oeuvre la construction des deux voies de restitution prenant en compte l'information de position spatiale de restitution ainsi que le mixage de ces deux voies de restitution avec les voies de restitution d'un signal binauralisé issu du module de traitement de binauralisation 420.  In an alternative embodiment, the stereophonic rendering engine 431 is integrated with the direct mixing module 440. In this case, the routing module 430 directs the decoded monophonic signal (Mo.) (for which the indication has been detected. non-binauralization and restitution spatial position information) to the direct mixing module 440. On the other hand, the decoded spatial position information (Pos) is also transmitted to the direct mixing module 440 by the parameter decoding module 404. This direct mixing module then including the stereophonic rendering engine, implements the construction of the two reproduction channels taking into account the spatial position information of restitution as well as the mixing of these two paths. rendering with the return channels of a binauralized signal from binauralization processing module 420.
La figure 5 illustre à présent un exemple de réalisation matérielle d'un dispositif de traitement apte à mettre en oeuvre le procédé de traitement selon l'invention. Le dispositif DIS comporte un espace de stockage 530, par exemple une mémoire MEM, une unité de traitement 520 comportant un processeur PROC, piloté par un programme informatique Pg, stocké dans la mémoire 530 et mettant en oeuvre le procédé de traitement selon l'invention. Figure 5 now illustrates an example of a hardware embodiment of a processing device adapted to implement the treatment method according to the invention. The device DIS comprises a storage space 530, for example a memory MEM, a processing unit 520 comprising a processor PROC, driven by a computer program Pg, stored in the memory 530 and implementing the processing method according to the invention .
Le programme informatique Pg comporte des instructions de code pour la mise en oeuvre des étapes du procédé de traitement au sens de l'invention, lorsque ces instructions sont exécutées par le processeur PROC, et notamment, à la détection, dans un flux de données représentatif du signal monophonique, d'une indication de non-traitement de binauralisation associée à une information de position spatiale de restitution, une étape de direction du signal monophonique décodé vers un moteur de rendu stéréophonique prenant en compte l'information de position pour construire deux voies de restitution traitées directement par une étape de mixage direct sommant ces deux voies avec un signal binauralisé issu du traitement de binauralisation, pour être restitué sur le casque audio.  The computer program Pg comprises code instructions for the implementation of the steps of the processing method in the sense of the invention, when these instructions are executed by the processor PROC, and in particular, on detection, in a representative data stream. of the monophonic signal, binaural non-processing indication associated with a restitution spatial position information, a step of directing the decoded monophonic signal to a stereophonic rendering engine taking into account the position information to construct two paths restitution treated directly by a direct mixing step summing these two channels with a binauralized signal from binauralization processing, to be rendered on the headphones.
Typiquement, la description de la figure 2 reprend les étapes d'un algorithme d'un tel programme informatique.  Typically, the description of FIG. 2 repeats the steps of an algorithm of such a computer program.
A l'initialisation, les instructions de code du programme Pg sont par exemple chargées dans une mémoire RAM (non représentée) avant d'être exécutées par le processeur PROC de l'unité de traitement 520. Les instructions de programme peuvent être mémorisées sur un support de stockage tel qu'une mémoire flash, un disque dur ou tout autre support de stockage non-transitoire.  At initialization, the code instructions of the program Pg are for example loaded into a RAM (not shown) before being executed by the processor PROC of the processing unit 520. The program instructions can be stored on a memory card. storage medium such as flash memory, hard disk, or other non-transient storage media.
Le dispositif DIS comporte un module de réception 510 apte à recevoir un flux de données SMo représentatif notamment d'un signal monophonique. Il comprend un module de détection 540 apte à détecter, dans ce flux de données, une indication de non-traitement de binauralisation associée à une information de position spatiale de restitution. Il comprend un module de direction 550, dans le cas d'une détection positive par le module de détection 540, du signal monophonique décodé vers un moteur de rendu stéréophonique 560, le moteur de rendu stéréophonique 560 étant apte à prendre en compte l'information de position pour construire deux voies de restitution.  The device DIS comprises a reception module 510 adapted to receive a representative SMo data stream including a monophonic signal. It comprises a detection module 540 able to detect, in this data stream, an indication of binaural non-processing associated with spatial position information rendition. It comprises a direction module 550, in the case of a positive detection by the detection module 540, of the decoded monophonic signal to a stereophonic rendering engine 560, the stereophonic rendering engine 560 being able to take into account the information position to build two tracks of restitution.
Le dispositif DIS comporte également un module de mixage direct 570 apte à traiter directement les deux voies de restitution en les sommant avec les deux voies d'un signal binauralisé issu d'un module de traitement de binauralisation. Les voies de restitution ainsi obtenues sont transmises à un casque audio CA via un module de sortie 560, pour être restituées.  The device DIS also comprises a direct mixing module 570 able to directly process the two reproduction channels by summing them with the two channels of a binauralized signal coming from a binauralization processing module. The playback channels thus obtained are transmitted to an AC headset via an output module 560, to be restored.
Ces différents modules sont tels que décrits en référence aux figures 3 et 4 selon les modes de réalisation.  These different modules are as described with reference to FIGS. 3 and 4 according to the embodiments.
Le terme module peut correspondre aussi bien à un composant logiciel qu'à un composant matériel ou un ensemble de composants matériels et logiciels, un composant logiciel correspondant lui-même à un ou plusieurs programmes ou sous- programmes d'ordinateur ou de manière plus générale à tout élément d'un programme apte à mettre en oeuvre une fonction ou un ensemble de fonctions telles que décrites pour les modules concernés. De la même manière, un composant matériel correspond à tout élément d'un ensemble matériel (ou hardware) apte à mettre en oeuvre une fonction ou un ensemble de fonctions pour le module concerné (circuit intégré, carte à puce, carte à mémoire, etc.) The term module may correspond to a software component as well as a hardware component or a set of hardware and software components, a software component corresponding to one or more programs or subprograms computer or more generally to any element of a program capable of implementing a function or a set of functions as described for the modules concerned. In the same way, a hardware component corresponds to any element of a hardware set (or hardware) able to implement a function or a set of functions for the module concerned (integrated circuit, smart card, memory card, etc. .)
Le dispositif peut être intégré dans un décodeur audio tel que décrit en figure 3 ou 4 et peut être intégré par exemple dans des équipements multimédia de type décodeur de salon, "set top box" ou lecteur de contenu audio ou vidéo. Ils peuvent également être intégré dans des équipements de communication de type téléphone mobile ou passerelle de communication.  The device can be integrated into an audio decoder as described in FIG. 3 or 4 and can be integrated, for example, in multimedia equipment of the set-top box type, or audio or video content player. They can also be integrated into communication equipment of the mobile phone or communication gateway type.

Claims

REVENDICATIONS
1. Procédé de traitement d'un signal monophonique audio dans un décodeur audio 3D comportant une étape de traitement de binauralisation des signaux décodés destinés à être restitué spatialement par un casque audio, caractérisé en ce que, à la détection (E200), dans un flux de données représentatif du signal monophonique, d'une indication de non-traitement de binauralisation associée à une information de position spatiale de restitution, le signal monophonique décodé est dirigé (O-E200) vers un moteur de rendu stéréophonique prenant en compte l'information de position pour construire deux voies de restitution (E220) traitées directement par une étape de mixage direct (E230) sommant ces deux voies avec un signal binauralisé issu du traitement de binauralisation, pour être restitué (E240) sur le casque audio. A method for processing an audio monophonic signal in a 3D audio decoder comprising a binauralization processing step of the decoded signals intended to be spatially reproduced by an audio headset, characterized in that, at the detection (E200), in a data stream representative of the monophonic signal, a binaural non-processing indication associated with a restitution spatial position information, the decoded monophonic signal is directed (O-E200) to a stereophonic rendering engine taking into account the position information for constructing two playback channels (E220) processed directly by a direct mixing step (E230) summing these two channels with a binauralized signal from the binauralization processing, to be rendered (E240) on the headphones.
2. Procédé selon la revendication 1, dans lequel l'information de position spatiale de restitution est une donnée binaire indiquant une seule voie du casque audio de restitution. The method of claim 1, wherein the restitution spatial position information is a binary data indicating a single channel of the playback audio headset.
3. Procédé selon la revendication 2, dans lequel seule la voie de restitution correspondant à la voie indiquée par la donnée binaire est sommée à la voie correspondante du signal binauralisé à l'étape de mixage direct, l'autre voie de restitution étant de valeur nulle. 3. The method as claimed in claim 2, in which only the playback channel corresponding to the channel indicated by the binary data is summed to the corresponding channel of the signal binauralised in the direct mixing step, the other rendering channel being of value. nothing.
4. Procédé selon la revendication 1, dans lequel le signal monophonique est un signal de type canal dirigé vers le moteur de rendu stéréophonique, avec l'information de position spatiale de restitution. The method of claim 1, wherein the monophonic signal is a channel-type signal directed to the stereophonic rendering engine, with the spatial position feedback information.
5. Procédé selon la revendication 4, dans lequel l'information de position spatiale de restitution est une donnée de différence interaurale de niveau sonore (ILD). The method of claim 4, wherein the restitution spatial position information is interaural sound level difference (ILD) data.
6. Procédé selon la revendication 1, dans lequel le signal monophonique est un signal de type objet associé à un ensemble de paramètres de restitution comprenant l'indication de non-binauralisation et l'information de position de restitution, le signal étant dirigé vers le moteur de rendu stéréophonique avec l'information de position de restitution. The method of claim 1, wherein the monophonic signal is an object type signal associated with a set of playback parameters including the non-binauralization indication and the playback position information, the signal being directed to the stereophonic rendering engine with playback position information.
7. Procédé selon la revendication 6, dans lequel l'information de position spatiale de restitution est une donnée d'angle azimut. The method of claim 6, wherein the restitution spatial position information is azimuth angle data.
8. Dispositif de traitement d'un signal monophonique audio comportant un module de traitement de binauralisation de signaux décodés destinés à être restitués spatialement par un casque audio, caractérisé en ce qu'il comporte : 8. Device for processing an audio monophonic signal comprising a processing module for binauralization of decoded signals intended to be spatially reproduced by an audio headset, characterized in that it comprises:
un module de détection (330 ;430) apte à détecter, dans un flux de données représentatif du signal monophonique, une indication de non-traitement de binauralisation associée à une information de position spatiale de restitution ; un module de redirection (330, 430), dans le cas d'une détection positive par le module de détection, apte à diriger le signal monophonique décodé vers un moteur de rendu stéréophonique ;  a detection module (330; 430) adapted to detect, in a data stream representative of the monophonic signal, an binaural non-processing indication associated with a restitution spatial position information; a redirection module (330, 430), in the case of a positive detection by the detection module, able to direct the decoded monophonic signal to a stereophonic rendering engine;
un moteur de rendu stéréophonique (331 ; 431) apte à prendre en compte l'information de position pour construire deux voies de restitution ;  a stereophonic rendering engine (331; 431) adapted to take position information into account to construct two rendering channels;
un module de mixage direct (340 ; 440) apte à traiter directement les deux voies de restitution en les sommant avec un signal binauralisé issu du module de traitement de binauralisation (320 ; 420), pour être restitué sur le casque audio.  a direct mixing module (340; 440) adapted to directly process the two reproduction channels by summing them with a binauralized signal from the binaural processing module (320; 420), to be rendered on the headphones.
9. Dispositif de traitement selon la revendication 8, dans lequel le moteur de rendu stéréophonique est intégré dans le module de mixage direct. 9. Processing device according to claim 8, wherein the stereophonic rendering engine is integrated in the direct mixing module.
10. Dispositif selon la revendication 8, dans lequel le signal monophonique est un signal de type canal et dans lequel le moteur de rendu stéréophonique est intégré à un moteur de rendu canal construisant par ailleurs des voies de restitution pour des signaux à plusieurs canaux. The apparatus of claim 8, wherein the monophonic signal is a channel-type signal and wherein the stereophonic rendering engine is integrated with a channel rendering engine which further provides playback channels for multi-channel signals.
11. Dispositif selon la revendication 8, dans lequel le signal monophonique est un signal de type objet et dans lequel le moteur de rendu stéréophonique est intégré à un moteur de rendu objet construisant par ailleurs des voies de restitution pour des signaux monophoniques associées à des ensembles de paramètres de restitution. Apparatus according to claim 8, wherein the monophonic signal is an object type signal and wherein the stereophonic rendering engine is integrated with an object rendering engine, further constructing rendering channels for monophonic signals associated with sets. restitution parameters.
12. Décodeur audio comportant un dispositif de traitement selon l'une des revendications 8 à 11. 12. Audio decoder comprising a processing device according to one of claims 8 to 11.
13. Programme informatique comportant des instructions de code pour la mise en oeuvre des étapes du procédé de traitement selon l'une des revendications 1 à 7, lorsque ces instructions sont exécutées par un processeur. Computer program comprising code instructions for implementing the steps of the processing method according to one of claims 1 to 7, when these instructions are executed by a processor.
14. Support de stockage, lisible par un processeur, mémorisant un programme informatique comportant des instructions pour l'exécution du procédé de traitement selon l'une des revendications 1 à 7. 14. Storage medium, readable by a processor, storing a computer program comprising instructions for executing the treatment method according to one of claims 1 to 7.
EP18833274.6A 2017-12-19 2018-12-07 Processing of a monophonic signal in a 3d audio decoder, delivering a binaural content Pending EP3729832A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EP22197901.6A EP4135350A1 (en) 2017-12-19 2018-12-07 Monophonic signal processing in a 3d audio decoder rendering binaural content

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1762478A FR3075443A1 (en) 2017-12-19 2017-12-19 PROCESSING A MONOPHONIC SIGNAL IN A 3D AUDIO DECODER RESTITUTING A BINAURAL CONTENT
PCT/FR2018/053161 WO2019122580A1 (en) 2017-12-19 2018-12-07 Processing of a monophonic signal in a 3d audio decoder, delivering a binaural content

Related Child Applications (1)

Application Number Title Priority Date Filing Date
EP22197901.6A Division EP4135350A1 (en) 2017-12-19 2018-12-07 Monophonic signal processing in a 3d audio decoder rendering binaural content

Publications (1)

Publication Number Publication Date
EP3729832A1 true EP3729832A1 (en) 2020-10-28

Family

ID=62222744

Family Applications (2)

Application Number Title Priority Date Filing Date
EP22197901.6A Pending EP4135350A1 (en) 2017-12-19 2018-12-07 Monophonic signal processing in a 3d audio decoder rendering binaural content
EP18833274.6A Pending EP3729832A1 (en) 2017-12-19 2018-12-07 Processing of a monophonic signal in a 3d audio decoder, delivering a binaural content

Family Applications Before (1)

Application Number Title Priority Date Filing Date
EP22197901.6A Pending EP4135350A1 (en) 2017-12-19 2018-12-07 Monophonic signal processing in a 3d audio decoder rendering binaural content

Country Status (8)

Country Link
US (1) US11176951B2 (en)
EP (2) EP4135350A1 (en)
JP (2) JP7279049B2 (en)
KR (1) KR102555789B1 (en)
CN (1) CN111492674B (en)
BR (1) BR112020012071A2 (en)
FR (1) FR3075443A1 (en)
WO (1) WO2019122580A1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11895479B2 (en) 2019-08-19 2024-02-06 Dolby Laboratories Licensing Corporation Steering of binauralization of audio
TW202348047A (en) * 2022-03-31 2023-12-01 瑞典商都比國際公司 Methods and systems for immersive 3dof/6dof audio rendering

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09327100A (en) * 1996-06-06 1997-12-16 Matsushita Electric Ind Co Ltd Headphone reproducing device
US20090299756A1 (en) * 2004-03-01 2009-12-03 Dolby Laboratories Licensing Corporation Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners
US7634092B2 (en) * 2004-10-14 2009-12-15 Dolby Laboratories Licensing Corporation Head related transfer functions for panned stereo audio content
KR100754220B1 (en) * 2006-03-07 2007-09-03 삼성전자주식회사 Binaural decoder for spatial stereo sound and method for decoding thereof
CN101690269A (en) * 2007-06-26 2010-03-31 皇家飞利浦电子股份有限公司 A binaural object-oriented audio decoder
ES2592416T3 (en) * 2008-07-17 2016-11-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding / decoding scheme that has a switchable bypass
TWI475896B (en) * 2008-09-25 2015-03-01 Dolby Lab Licensing Corp Binaural filters for monophonic compatibility and loudspeaker compatibility
EP2209328B1 (en) * 2009-01-20 2013-10-23 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
CN102414743A (en) * 2009-04-21 2012-04-11 皇家飞利浦电子股份有限公司 Audio signal synthesizing
MY154078A (en) * 2009-06-24 2015-04-30 Fraunhofer Ges Forschung Audio signal decoder, method for decoding an audio signal and computer program using cascaded audio object processing stages
CN113630711B (en) * 2013-10-31 2023-12-01 杜比实验室特许公司 Binaural rendering of headphones using metadata processing
CN106162500B (en) * 2015-04-08 2020-06-16 杜比实验室特许公司 Presentation of audio content

Also Published As

Publication number Publication date
FR3075443A1 (en) 2019-06-21
JP2021508195A (en) 2021-02-25
JP2023099599A (en) 2023-07-13
WO2019122580A1 (en) 2019-06-27
BR112020012071A2 (en) 2020-11-24
JP7279049B2 (en) 2023-05-22
EP4135350A1 (en) 2023-02-15
US11176951B2 (en) 2021-11-16
RU2020121890A (en) 2022-01-04
CN111492674B (en) 2022-03-15
KR20200100664A (en) 2020-08-26
KR102555789B1 (en) 2023-07-13
US20210012782A1 (en) 2021-01-14
CN111492674A (en) 2020-08-04

Similar Documents

Publication Publication Date Title
CN107533843B (en) System and method for capturing, encoding, distributing and decoding immersive audio
US9055371B2 (en) Controllable playback system offering hierarchical playback options
EP2042001B1 (en) Binaural spatialization of compression-encoded sound data
EP2489206A1 (en) Processing of sound data encoded in a sub-band domain
US11570569B2 (en) Associated spatial audio playback
EP2920979B1 (en) Acquisition of spatialised sound data
JP2023099599A (en) Processing of monophonic signal in 3d audio decorder, delivering binaural content
US20230232182A1 (en) Spatial Audio Capture, Transmission and Reproduction
EP3603076B1 (en) Method for selecting at least one image portion to be downloaded anticipatorily in order to render an audiovisual stream
FR3011373A1 (en) PORTABLE LISTENING TERMINAL HIGH PERSONALIZED HARDNESS
US11430451B2 (en) Layered coding of audio with discrete objects
EP4055840A1 (en) Signalling of audio effect metadata in a bitstream
RU2779295C2 (en) Processing of monophonic signal in 3d-audio decoder, providing binaural information material
KR100598602B1 (en) virtual sound generating system and method thereof
WO2006075079A1 (en) Method for encoding audio tracks of a multimedia content to be broadcast on mobile terminals
US20240114310A1 (en) Method and System For Efficiently Encoding Scene Positions
FR3040253B1 (en) METHOD FOR MEASURING PHRTF FILTERS OF AN AUDITOR, CABIN FOR IMPLEMENTING THE METHOD, AND METHODS FOR RESULTING IN RESTITUTION OF A PERSONALIZED MULTICANAL AUDIO BAND
CN117768832A (en) Method and system for efficient encoding of scene locations
WO2024012805A1 (en) Transporting audio signals inside spatial audio signal

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20200703

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

AX Request for extension of the european patent

Extension state: BA ME

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)
RAP3 Party data changed (applicant data changed or rights of an application transferred)

Owner name: ORANGE

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS

17Q First examination report despatched

Effective date: 20220824

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: GRANT OF PATENT IS INTENDED

INTG Intention to grant announced

Effective date: 20240311