EP3330966B1 - Improved frequency band extension in an audio frequency signal decoder - Google Patents

Improved frequency band extension in an audio frequency signal decoder Download PDF

Info

Publication number
EP3330966B1
EP3330966B1 EP17206563.3A EP17206563A EP3330966B1 EP 3330966 B1 EP3330966 B1 EP 3330966B1 EP 17206563 A EP17206563 A EP 17206563A EP 3330966 B1 EP3330966 B1 EP 3330966B1
Authority
EP
European Patent Office
Prior art keywords
signal
band
frequency
khz
tonal components
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
EP17206563.3A
Other languages
German (de)
French (fr)
Other versions
EP3330966A1 (en
Inventor
Magdalena KANIEWSKA
Stéphane RAGOT
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=51014390&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=EP3330966(B1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Priority to SI201531958T priority Critical patent/SI3330966T1/en
Priority to RS20230844A priority patent/RS64614B1/en
Priority to HRP20231164TT priority patent/HRP20231164T1/en
Publication of EP3330966A1 publication Critical patent/EP3330966A1/en
Application granted granted Critical
Publication of EP3330966B1 publication Critical patent/EP3330966B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B41PRINTING; LINING MACHINES; TYPEWRITERS; STAMPS
    • B41KSTAMPS; STAMPING OR NUMBERING APPARATUS OR DEVICES
    • B41K3/00Apparatus for stamping articles having integral means for supporting the articles to be stamped
    • B41K3/54Inking devices
    • B41K3/56Inking devices using inking pads
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B41PRINTING; LINING MACHINES; TYPEWRITERS; STAMPS
    • B41KSTAMPS; STAMPING OR NUMBERING APPARATUS OR DEVICES
    • B41K1/00Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor
    • B41K1/02Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor with one or more flat stamping surfaces having fixed images
    • B41K1/04Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor with one or more flat stamping surfaces having fixed images with multiple stamping surfaces; with stamping surfaces replaceable as a whole
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B41PRINTING; LINING MACHINES; TYPEWRITERS; STAMPS
    • B41KSTAMPS; STAMPING OR NUMBERING APPARATUS OR DEVICES
    • B41K1/00Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor
    • B41K1/08Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor with a flat stamping surface and changeable characters
    • B41K1/10Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor with a flat stamping surface and changeable characters having movable type-carrying bands or chains
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B41PRINTING; LINING MACHINES; TYPEWRITERS; STAMPS
    • B41KSTAMPS; STAMPING OR NUMBERING APPARATUS OR DEVICES
    • B41K1/00Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor
    • B41K1/08Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor with a flat stamping surface and changeable characters
    • B41K1/12Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor with a flat stamping surface and changeable characters having adjustable type-carrying wheels
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B41PRINTING; LINING MACHINES; TYPEWRITERS; STAMPS
    • B41KSTAMPS; STAMPING OR NUMBERING APPARATUS OR DEVICES
    • B41K1/00Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor
    • B41K1/36Details
    • B41K1/38Inking devices; Stamping surfaces
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B41PRINTING; LINING MACHINES; TYPEWRITERS; STAMPS
    • B41KSTAMPS; STAMPING OR NUMBERING APPARATUS OR DEVICES
    • B41K1/00Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor
    • B41K1/36Details
    • B41K1/38Inking devices; Stamping surfaces
    • B41K1/40Inking devices operated by stamping movement
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B41PRINTING; LINING MACHINES; TYPEWRITERS; STAMPS
    • B41KSTAMPS; STAMPING OR NUMBERING APPARATUS OR DEVICES
    • B41K1/00Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor
    • B41K1/36Details
    • B41K1/38Inking devices; Stamping surfaces
    • B41K1/40Inking devices operated by stamping movement
    • B41K1/42Inking devices operated by stamping movement with pads or rollers movable for inking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Definitions

  • the present invention relates to the field of the coding/decoding and processing of audio frequency signals (such as speech, music or other signals) for their transmission or their storage.
  • audio frequency signals such as speech, music or other signals
  • the invention relates to a method and a device for frequency band extension in a decoder or a processor performing an audio frequency signal enhancement.
  • 3GPP AMR-WB for "Adaptive Multi-Rate Wideband" which operates at an input/output frequency of 16 kHz and in which the signal is divided into two sub-bands, the low band (0-6.4 kHz) which is sampled at 12.8 kHz and coded by CELP model and the high band (6.4-7 kHz) which is reconstructed para metric by “Bandwidth Extension ” (or BWE) with or without additional information depending on the mode of the current frame.
  • codec coder and decoder
  • 3GPP AMR-WB for "Adaptive Multi-Rate Wideband”
  • the 3GPP AMR-WB speech codec was standardized in 2001 primarily for circuit mode (CS) telephony applications on GSM (2G) and UMTS (3G). This same codec was also standardized in 2003 at the ITU-T as recommendation G.722.2 "Wideband coding speech at around 16kbit/s using Adaptive Multi-Rate Wideband (AMR-WB)".
  • the principle of band extension in the AMR-WB codec is quite rudimentary. Indeed, the high band (6.4-7 kHz) is generated by shaping a white noise by means of a temporal envelope (applied in the form of gains per subframe) and frequency (by the application of a linear prediction synthesis filter or LPC for "Linear Predictive Coding").
  • This band extension technique is illustrated in figure 1 .
  • correction information is transmitted by the AMR-WB coder and decoded (blocks 107, 108) in order to refine the estimated gain per subframe (4 bits every 5 ms, ie 0.8 kbit/s).
  • s HB ( n ) is finally processed by a band-pass filter (block 112) of the FIR ("Finite Impulse Response") type, to keep only the 6-7 kHz band; at 23.85 kbit/s, a low-pass filter also of the FIR type (block 113) is added to the processing to further attenuate the frequencies above 7 kHz.
  • the high frequency (HF) synthesis is finally added (block 130) to the low frequency (LF) synthesis obtained with blocks 120 to 123 and resampled at 16 kHz (block 123).
  • the HF synthesis is rather included in the 6-7 kHz band before addition with the LF synthesis.
  • the AMR-WB decoding algorithm was improved in part with the development of the ITU-T G.718 scalable codec which was standardized in 2008.
  • the ITU-T G.718 standard includes a so-called interoperable mode, for which the core coding is compatible with the G.722.2 (AMR-WB) coding at 12.65 kbit/s; moreover, the G.718 decoder has the particularity of being able to decode an AMR-WB/G.722.2 binary train at all possible rates of the AMR-WB codec (from 6.6 to 23.85 kbit/s).
  • the interoperable G.718 decoder in low-delay mode (G.718-LD) is shown in Fig. figure 2 .
  • Fig. figure 2 The band expansion (described for example in clause 7.13.1 of recommendation G.718, block 206) is identical to that of the AMR-WB decoder, except that the 6-7 kHz bandpass filter and the 1/A HB (z) synthesis filter (blocks 111 and 112) are in reverse order.
  • the 4 bits transmitted by subframes by the AMR-WB coder are not used in the interoperable G.718 decoder; the synthesis of high frequencies (HF) at 23.85 kbit/s is therefore identical to 23.05 kbit/s, which avoids the known quality problem of AMR-WB decoding at 23.85 kbit/s.
  • HF high frequencies
  • the low-pass filter at 7 kHz block 113 is not used, and the specific decoding of the mode at 23.85 kbit/s is omitted (blocks 107 to 109).
  • a post-processing of the synthesis at 16 kHz is implemented in G.718 by " noise gate " in block 208 (to "improve” the quality of silences by level reduction), high-pass filtering (block 209), low-frequency post-filter (called “ bass posfilier ”) in block 210 attenuating inter-harmonic noise at low frequencies and a conversion to 16-bit integers with saturation control (with gain control or AGC) in block 211.
  • the synthesis of high frequencies by shaped white noise is a very limited model of the signal in the band of frequencies above 6.4 kHz.
  • the present invention improves the situation.
  • the invention proposes for this purpose a method for extending the frequency band of an audio frequency signal during a decoding or improvement process comprising a step of obtaining the decoded signal in a first so-called low band frequency band.
  • the method is such that it includes the steps of claim 1.
  • band extension will be taken in the broad sense and will include not only the case of the extension of a sub-band at high frequencies but also the case of a replacement of sub-bands set to zero (of the "noise filling" type in transform coding).
  • the signal decoded in the low band comprises a part corresponding to the sound environment which can be transposed at high frequency in such a way that a mixing of the harmonic components and of the existing atmosphere makes it possible to ensure a coherent reconstructed high band.
  • the band expansion is performed in the excitation domain and the decoded low band signal is a decoded low band excitation signal.
  • the advantage of this embodiment is that a transformation without windowing (or equivalently with an implicit rectangular window of the frame length) is possible in the excitation domain. In this case no artefact (block effects) is then audible.
  • This embodiment allows precise detection of the tonal components.
  • an energy level control factor used for the adaptive mixing is calculated based on the total energy of the decoded or decoded and extended low-band signal and the tonal components.
  • the decoded low-band signal undergoes a step of decomposition into sub-bands by transform or by filter bank, the extraction and combination steps then being performed in the frequency domain or in sub-bands.
  • the implementation of the band extension in the frequency domain makes it possible to obtain a precision of frequency analysis which is not available with a temporal approach, and also makes it possible to have a frequency resolution sufficient to detect the tonal components.
  • this function includes a resampling of the signal by adding samples to the spectrum of this signal.
  • Other ways of extending the signal are however possible, for example by translation in sub-band processing.
  • This device has the same advantages as the method described previously, which it implements.
  • the invention relates to a decoder comprising a device as described.
  • It relates to a computer program comprising code instructions for implementing the steps of the band extension method as described, when these instructions are executed by a processor.
  • the invention relates to a storage medium, readable by a processor, integrated or not in the tape extension device, optionally removable, storing a computer program implementing a tape extension method as described previously.
  • FIG. 3 illustrates an example of a decoder, compatible with the AMR-WB/G.722.2 standard in which there is a post-processing similar to that introduced in G.718 and described with reference to figure 2 and an improved tape extension according to the extension method of the invention, implemented by the tape extension device illustrated by block 309.
  • the CELP decoding (LF for low frequencies) always operates at the internal frequency of 12.8 kHz, as in AMR-WB and G.718, and the band extension (HF for high frequencies) which is the subject of the invention operates at the frequency of 16 kHz, the LF and HF synthesis are combined (block 312) at the frequency fs after adequate resampling (blocks 307 and 311).
  • the combination of the low and high bands could be done at 16 kHz, after having resampled the low band from 12.8 to 16 kHz, before resampling the combined signal at the frequency fs.
  • the post-processings applied to the excitation can be modified (for example, the phase dispersion can be improved) or these post-processings can be extended (for example, a reduction of the inter-harmonic noise can be implemented), without affecting the nature of the band extension.
  • the decoding of the low band described above assumes a current so-called “active” frame with a bit rate between 6.6 and 23.85 kbit/s.
  • active a current so-called “active” frame with a bit rate between 6.6 and 23.85 kbit/s.
  • some frames can be coded as "inactive” and in this case you can either transmit a silence descriptor (on 35 bits) or transmit nothing.
  • SID frame of the AMR-WB coder describes several parameters: ISF parameters averaged over 8 frames, average energy over 8 frames, "dithering flag" for the reconstruction of non-stationary noise.
  • the same decoding model is found as for an active frame, with reconstruction of the excitation and of an LPC filter for the current frame, which makes it possible to apply the invention even to inactive frames.
  • the same observation applies for the decoding of “lost frames” (or FEC, PLC) in which the LPC model is applied.
  • This exemplary decoder operates in the excitation domain and therefore includes a step for decoding the low-band excitation signal.
  • the band extension device and the band extension method within the meaning of the invention also operate in a domain different from the domain of excitation and in particular with a direct signal decoded in low band or a signal weighted by a perceptual filter.
  • the decoder described makes it possible to extend the decoded low band (50-6400 Hz taking into account the high-pass filtering at 50 Hz at the decoder, 0-6400 Hz in the general case) to an extended band whose width varies, ranging approximately from 50-6900 Hz to 50-7700 Hz depending on the mode implemented in the current frame.
  • the excitation for high frequencies is generated in the frequency domain in a band from 5000 to 8000 Hz, to allow a bandpass filtering of width 6000 to 6900 or 7700 Hz whose slope is not too steep in the upper rejected band.
  • the high band synthesis part is carried out in the block 309 representing the band extension device according to the invention and which is detailed in figure 5 in one embodiment.
  • a delay (block 310) is introduced to synchronize the outputs of blocks 306 and 309 and the synthesized 16 kHz high band is resampled by 16 kHz at frequency fs (output of block 311).
  • the extension method of the invention implemented in block 309 according to the first embodiment preferentially does not introduce any additional delay with respect to the reconstructed low band at 12.8 kHz; however, in variants of the invention (for example using a time/frequency transformation with overlap), a delay may be introduced.
  • the low and high bands are then combined (added) in block 312 and the synthesis obtained is post-processed by high-pass filtering at 50 Hz (of IIR type) of order 2 whose coefficients depend on the frequency fs (block 313) and output post-processing with optional application of the " noise gate " in a manner similar to G.718 (block 314).
  • the band extender according to the invention illustrated by block 309 according to the decoder embodiment of the figure 5 , implements a band extension method (in the broad sense) described now with reference to the figure 4 .
  • This extension device can also be independent of the decoder and can implement the method described in figure 4 to carry out a band extension of an existing audio signal stored or transmitted to the device, with an analysis of the audio signal to extract therefrom for example an excitation and an LPC filter.
  • This device receives as input a decoded signal in a first frequency band called the low band u ( n ) which can be in the field of excitation or in that of the signal.
  • a step of decomposition into sub-bands (E401b) by time-frequency transform or bank of filters is applied to the decoded low-band signal to obtain the spectrum of the decoded low-band signal U ( k ) for implementation in the frequency domain.
  • a step E401a of extending the low band decoded signal into a second frequency band higher than the first frequency band, to obtain an extended low band decoded signal U HB 1 ( k ), can be performed on this low band decoded signal before or after the analysis step (decomposition into sub-bands).
  • This extension step can comprise both a resampling step and an extension step or simply a frequency translation or transposition step as a function of the signal obtained as input.
  • step E401a may be performed at the end of the processing described in figure 4 ,, that is to say on the combined signal, this processing then being mainly carried out on the low band signal before extension, the result being equivalent.
  • a step E402 of extracting an ambient signal ( U HBA ( k )) and tonal components (y(k)) is performed from the decoded low band signal ( U ( k )) or decoded and extended ( U HB 1 ( k )) .
  • Ambiance is defined here as the residual signal which is obtained by removing the main (or dominant) harmonics (or tonal components) from the existing signal.
  • the high band In most wideband signals (sampled at 16 kHz), the high band (>6 kHz) contains ambient information that is generally similar to that present in the low band.
  • step E403 The tonal components and the ambient signal are then combined adaptively using energy level control factors in step E403 to obtain a so-called combined signal ( U HB 2 ( k )).
  • the extension step E401a can then be implemented if it has not already been performed on the decoded low band signal.
  • the combination of these two types of signals makes it possible to obtain a combined signal with characteristics more suited to certain types of signals such as musical signals and richer in frequency content and in the extended frequency band corresponding to the entire frequency band including the first and the second frequency band.
  • Band extension according to the method improves the quality for this type of signal compared to the extension described in the AMR-WB standard.
  • a synthesis step which corresponds to the analysis at 401b, is carried out at E404b to bring the signal back into the time domain.
  • a step of adjusting the energy level of the high band signal can be performed in E404a, before and/or after the synthesis step, by applying a gain and/or by suitable filtering. This step will be explained in more detail in the embodiment described in figure 5 for blocks 501 to 507.
  • tape expander 500 is now described with reference to figure 5 illustrating both this device but also processing modules suitable for implementation in a decoder of the interoperable type with AMR-WB coding.
  • This device 500 implements the band extension method previously described with reference to the figure 4 .
  • processing block 510 receives a decoded low band signal ( u ( n )).
  • the band extension uses the decoded excitation at 12.8 kHz (exc2 or u ( n ) ) at the output of block 302 of the picture 3 .
  • This signal is decomposed into frequency sub-bands by the sub-band decomposition module 510 (which implements step E401b of the figure 4 ) which generally performs a transform or applies a bank of filters, to obtain a decomposition into sub-bands U(k) of the signal u(n).
  • a windowless transformation (or equivalently with an implicit rectangular window of the frame length) is possible when the processing is done in the excitation domain, not the signal domain. In this case, no artefact (block effects) is audible, which constitutes an important advantage of this embodiment of the invention.
  • the DCT-IV transformation is implemented by FFT according to the so-called “Evolved DCT (EDCT)” algorithm described in the article by DM Zhang, HT Li, A Low Complexity Transform - Evolved DCT, IEEE 14th International Conference on Computational Science and Engineering (CSE), Aug. 2011, p. 144-149 , and implemented in ITU-T G.718 Annex B and G.729.1 Annex E.
  • EDCT Evolved DCT
  • the DCT-IV transformation may be replaced by other short-term time-frequency transformations of the same length and in the excitation domain or in the signal domain, such as an FFT (for " Fast Fourier Transform” ) or a DCT-II ( Discrete Cosine Transform - Type II).
  • the DCT-IV on the frame can be replaced by a transformation with overlap-addition and windowing of length greater than the length of the current frame, for example by using an MDCT (for “ Modified Discrete Cosine Tranform ”).
  • MDCT Modified Discrete Cosine Tranform
  • the decomposition into sub-bands is performed by applying a bank of filters, for example of real or complex PQMF (Pseudo-QMF) type.
  • a bank of filters for example of real or complex PQMF (Pseudo-QMF) type.
  • PQMF Pseudo-QMF
  • the preferred embodiment in the invention can be applied by carrying out for example a transform of each sub-band and by calculating the ambient signal in the domain of absolute values, the tonal components always being obtained by difference between the signal (in absolute value) and the ambient signal.
  • the complex modulus of the samples will replace the absolute value.
  • the invention will be applied in a system using two sub-bands, the low band being analyzed by transform or by bank of filters.
  • Block 511 implements step E401a of the figure 4 , that is to say the extension of the low band decoded signal.
  • the original spectrum is kept, in order to be able to apply a progressive attenuation response of the high-pass filter in this frequency band and also so as not to introduce audible defects during the step of adding the low-frequency synthesis to the high-frequency synthesis.
  • the generation of the oversampled extended spectrum is carried out in a frequency band ranging from 5 to 8 kHz, therefore including a second frequency band (6.4-8 kHz) higher than the first frequency band (0-6.4 kHz).
  • the extension of the decoded low band signal takes place at least on the second frequency band but also on part of the first frequency band.
  • the 6000-8000 Hz band of U HB 1 ( k ) is here defined by copying the 4000-6000 Hz band of U(k) since the value of start_band is preferentially fixed at 160.
  • start_band could be made adaptive around the value of 160, without modifying the nature of the invention.
  • the details of the adaptation of the start_band value are not described here because they exceed the scope of the invention without changing the scope thereof.
  • the high band In most wideband signals (sampled at 16 kHz), the high band (>6 kHz) contains ambient information that is naturally similar to that present in the low band. Ambiance is defined here as the residual signal which is obtained by removing the main (or dominant) harmonics from the existing signal. level of harmonicity in the 6000-8000 Hz band is generally correlated with that of lower frequency bands.
  • This decoded and extended low-band signal is supplied at the input of the extension device 500 and in particular at the input of the module 512.
  • the block 512 for extracting tonal components and an ambient signal implements step E402 of the figure 4 in the frequency domain.
  • L 80 and represents the length of the spectrum and the index i from 0 to L -1 corresponds to the indices j +240 from 240 to 319, ie the spectrum from 6 to 8 kHz.
  • a non-uniform weighting may be applied to the averaged terms, or the median filtering may be replaced, for example, by other nonlinear filters of the “ stack filters ” type.
  • This calculation therefore involves an implicit detection of the tonal components.
  • the tonal parts are therefore implicitly detected using the intermediate term y(i) representing an adaptive threshold.
  • the detection condition being y( i ) >0.
  • this ambient signal can be extracted from a low frequency signal or possibly another frequency band (or several frequency bands).
  • This ambient signal could also be done on the decoded excitation but not extended, that is to say before the spectral extension or translation step, that is to say for example on a portion of the low frequency signal rather than directly on the high frequency signal.
  • a peak (or tonal component) is detected at a line of index i in the amplitude spectrum
  • if the following criterion is verified: U HB 1 I + 240 > U HB 1 I + 240 ⁇ 1 And U HB 1 I + 240 > U HB 1 I + 240 + 1 , for i 0,..., L - 1 .
  • a sinusoidal model is applied in order to estimate the amplitude, frequency and possibly phase parameters of a tonal component associated with this peak.
  • the frequency estimation can typically use a 3-point parabolic interpolation to locate the maximum of the parabola approximating the 3 amplitude points
  • DCT-IV transform domain used here
  • the term y( i ) is then calculated as the sum of predefined prototypes (spectra) of pure sinusoids transformed in the DCT-IV domain (or other if another decomposition into sub-bands is used) according to the estimated sinusoidal parameters. Finally, an absolute value is applied to the terms y( i ) to reduce to the domain of the amplitude spectrum in absolute values.
  • the absolute value of the spectral values will be replaced, for example, the square of the spectral values, without changing the principle of the invention; in this case a square root will be necessary to return to the signal domain, which is more complex to achieve.
  • the combining module 513 performs a combining step by adaptive mixing of the ambient signal and the tonal components.
  • the factor ⁇ is > 1.
  • the tonal components, detected line by line by the condition y ( i ) > 0, are reduced by the factor ⁇ ; the average level is amplified by the factor 1/ ⁇ .
  • an energy level control factor is calculated based on the total energy of the decoded (or decoded and extended) low-band signal and the tonal components.
  • avoids an overestimation of the energy.
  • is calculated so as to keep the same ambient signal level with respect to the energy of the tonal components in the consecutive bands of the signal.
  • E NOT 2 ⁇ 4 ⁇ k ⁇ NOT 80.159
  • E NOT 4 ⁇ 6 ⁇ k ⁇ NOT 160,239 U ′ 2 k
  • E NOT 4 ⁇ 6 ⁇ k ⁇ NOT 240,319 U ′ 2 k
  • N( k 1 , k 2 ) is the set of indices k for which the coefficient of index k is classified as being associated with the tonal components.
  • This set can be for example obtained by detecting the local peaks in U' ( k ) verifying
  • the calculation of ⁇ could be replaced by other methods.
  • the linear regression could for example be estimated in a supervised way by estimating the factor ⁇ by giving the original high band in a learning base. It will be noted that the mode of calculation of ⁇ does not limit the nature of the invention.
  • ⁇ and ⁇ are possible within the framework of the invention.
  • the block 501 At the output of the band extender 500, the block 501, in a particular embodiment, optionally performs a double operation of applying bandpass filter frequency response and de-emphasis filtering (or de-emphasis) in the frequency domain.
  • the de-emphasis filtering could be performed in the time domain, after block 502 or even before block 510; however, in this case, the band-pass filtering performed in block 501 may leave some low frequency components of very low levels which are amplified by de-emphasis, which may change the decoded low band slightly perceptibly. For this reason, it is preferred here to carry out the de-emphasis in the frequency domain.
  • ⁇ k can be adjusted (for example for even frequencies).
  • the HF synthesis is not de-emphasized.
  • the high-frequency signal is on the contrary de-emphasized so as to bring it back into a coherent domain with the low-frequency signal (0-6.4 kHz) which comes out of block 305 of the picture 3 . This is important for estimating and later adjusting the energy of HF synthesis.
  • the de-emphasis could be carried out in an equivalent manner in the time domain after inverse DCT.
  • band-pass filtering is applied with two separate parts: one fixed high-pass, the other adaptive low-pass (depending on the bit rate).
  • This filtering is performed in the frequency domain.
  • G hp ( k ), k 0.55, is given for example in Table 1 below.
  • G hp ( k ) can be modified while keeping a progressive attenuation.
  • the low-pass filtering with variable bandwidth, G lp ( k ) can be adjusted with different values or a frequency support, without changing the principle of this filtering step.
  • the band-pass filtering can be adapted by defining a single filtering step combining high-pass and low-pass filtering.
  • the band-pass filtering could be carried out in an equivalent way in the time domain (as in block 112 of the figure 1 ) with different filter coefficients depending on the bit rate, after an inverse DCT step.
  • it is advantageous to carry out this step directly in the frequency domain since the filtering is carried out in the domain of the LPC excitation and therefore the problems of circular convolution and of edge effects are very limited in this domain.
  • block 502 performs the synthesis corresponding to the analysis performed in block 510.
  • the 16 kHz sampled signal is then optionally scaled by defined gains per 80-sample subframe (block 504).
  • block 503 differs from that of block 101 of the figure 1 , because the energy at the level of the current frame is taken into account in addition to that of the subframe. This makes it possible to have the ratio of the energy of each subframe compared to the energy of the frame. Energy ratios (or relative energies) are therefore compared rather than the absolute energies between low band and high band.
  • this scaling step makes it possible to preserve in the high band the energy ratio between the subframe and the frame in the same way as in the low band.
  • Blocks 505 and 506 are useful for adjusting the level of the LPC synthesis filter (block 507), here according to the tilt of the signal. Other methods of calculating the gain g HB 2 ( m ) are possible without changing the nature of the invention.
  • this filtering could be carried out in the same way as what is described for block 111 of the figure 1 of the AMR-WB decoder, however the order of the filter changes to 20 at the rate of 6.6, which does not significantly change the quality of the synthesized signal.
  • the LPC synthesis filtering can be performed in the frequency domain, after having calculated the frequency response of the filter implemented in block 507.
  • the coding of the low band (0-6.4 kHz) could be replaced by a CELP coder other than that used in AMR-WB, such as for example the CELP coder in G.718 at 8 kbit/s.
  • a CELP coder other than that used in AMR-WB, such as for example the CELP coder in G.718 at 8 kbit/s.
  • other wideband coders or coders operating at frequencies above 16 kHz, in which the low band coder operates at an internal frequency of 12.8 kHz could be used.
  • the invention can obviously be adapted to sampling frequencies other than 12.8 kHz, when a low-frequency coder operates at a sampling frequency lower than that of the original or reconstructed signal.
  • the excitation or the low band signal ( u ( n )) is resampled, for example by linear interpolation or cubic "spline", from 12.8 to 16 kHz before transformation (for example DCT-IV) of length 320.
  • This variant has the defect of being more complex, because the transform (DCT-IV) of the excitation or of the signal is then calculated over a greater length and the resampling is not carried out in the domain of the transform.
  • FIG. 6 shows an exemplary hardware embodiment of a band extender device 600 according to the invention. This may be an integral part of an audio frequency signal decoder or of equipment receiving decoded or undecoded audio frequency signals.
  • This type of device comprises a processor PROC cooperating with a memory block BM comprising a storage and/or working memory MEM.
  • Such a device comprises an input module E capable of receiving an audio signal decoded or extracted in a first frequency band called the low band brought back into the frequency domain ( U ( k )). It comprises an output module S able to transmit the extension signal in a second frequency band ( U HB 2 ( k )) for example to a filter module 501 of the figure 5 .
  • the memory block can advantageously comprise a computer program comprising code instructions for implementing the steps of the band extension method within the meaning of the invention, when these instructions are executed by the processor PROC, and in particular the steps of extracting (E402) tonal components and of an ambient signal from a signal originating from the decoded low-band signal ( U ( k )), of combining (E403) the tonal components (y(k)) and the ambient signal ( U HBA ( k )) by adaptive mixing using energy level control factors to obtain an audio signal, called combined signal ( U HB 2 ( k )), of extension (E401a) over at least a second frequency band higher than the first frequency band of the decoded low band signal before the extraction step or of the combined signal after the combining step.
  • a computer program comprising code instructions for implementing the steps of the band extension method within the meaning of the invention, when these instructions are executed by the processor PROC, and in particular the steps of extracting (E402) tonal components and of an ambient signal from a signal
  • the description of the figure 4 repeats the steps of an algorithm of such a computer program.
  • the computer program can also be stored on a memory medium that can be read by a reader of the device or that can be downloaded into the memory space of the latter.
  • the memory MEM generally records all the data necessary for the implementation of the method.
  • the device thus described may also comprise the low band decoding functions and other processing functions described for example in figure 5 And 3 in addition to the band extension functions according to the invention.

Description

La présente invention se rapporte au domaine du codage/décodage et du traitement de signaux audiofréquences (comme des signaux de parole, de musique ou autres) pour leur transmission ou leur stockage.The present invention relates to the field of the coding/decoding and processing of audio frequency signals (such as speech, music or other signals) for their transmission or their storage.

Plus particulièrement, l'invention concerne un procédé et un dispositif d'extension de bande de fréquence dans un décodeur ou un processeur réalisant une amélioration de signal audiofréquence.More particularly, the invention relates to a method and a device for frequency band extension in a decoder or a processor performing an audio frequency signal enhancement.

De nombreuses techniques existent pour compresser (avec perte) un signal audiofréquence comme la parole ou la musique.Many techniques exist to compress (with loss) an audio frequency signal such as speech or music.

Les méthodes classiques de codage pour les applications conversationnelles sont en général classifiées en codage de forme d'onde (MIC pour "Modulation par Impulsion et codage", MICDA pour "Modulation par Impulsion et Codage Différentiel Adaptatif", codage par transformée...), codage paramétrique (LPC pour "Linear Predictive Coding" en anglais, codage sinusoïdal...) et codage hybride paramétrique avec une quantification des paramètres par "analyse par synthèse" dont le codage CELP (pour "Code Excited Linear Prédiction" en anglais) est l'exemple le plus connu.Conventional coding methods for conversational applications are generally classified as waveform coding (PCM for "Pulse Modulation and Coding", ADPCM for "Pulse Modulation and Adaptive Differential Coding", transform coding, etc.), parametric coding (LPC for "Linear Predictive Coding", sinusoidal coding, etc.) and hybrid parametric coding with quantification of the parameters by "analysis by synthesis", including CELP coding (for "Code Excited Linear Prediction" in English). English) is the best known example.

Pour les applications non conversationnelles, l'état de l'art en codage de signal audio (mono) est constitué par le codage perceptuel par transformée ou en sous-bandes, avec un codage paramétrique des hautes fréquences par réplication de bande (SBR pour Spectral Band Replication en anglais).
Une revue des méthodes classiques de codage de parole et audio se trouve dans les ouvrages W.B. Kleijn and K.K. Paliwal (Eds.), Speech Coding and Synthesis, Elsevier, 1995 ; M. Bosi, R.E. Goldberg, Introduction to Digital Audio Coding and Standards, Springer 2002 ; J. Benesty, M.M. Sondhi, Y. Huang (Eds.), Handbook of Speech Processing, Springer 2008 .
For non-conversational applications, the state of the art in audio signal coding (mono) consists of perceptual coding by transform or in sub-bands, with parametric coding of high frequencies by band replication (SBR for Spectral Band Replication in English).
A review of classical speech and audio coding methods can be found in the books WB Kleijn and KK Paliwal (Eds.), Speech Coding and Synthesis, Elsevier, 1995 ; M. Bosi, RE Goldberg, Introduction to Digital Audio Coding and Standards, Springer 2002 ; J. Benesty, M. M. Sondhi, Y. Huang (Eds.), Handbook of Speech Processing, Springer 2008 .

On s'intéresse ici plus particulièrement au codée (codeur et décodeur) normalisé 3GPP AMR-WB (pour "Adaptive Multi-Rate Wideband" en anglais) qui fonctionne à une fréquence d'entrée/sortie de 16 kHz et dans lequel le signal est divisé en deux sous-bandes, la bande basse (0-6.4 kHz) qui est échantillonnée à 12.8 kHz et codée par modèle CELP et la bande haute (6.4-7 kHz) qui est reconstruite de façon paramétrique par « extension de bande » (ou BWE pour "Bandwidth Extension" en anglais) avec ou sans information supplémentaire selon le mode de la trame courante. On peut noter ici que la limitation de la bande codée du codée AMR-WB à 7kHz est essentiellement liée au fait que la réponse en fréquence en émission des terminaux en bande élargie a été approximée au moment de la normalisation (ETSI/3GPP puis UIT-T) selon le masque fréquentiel défini dans la norme UIT-T P.341 et plus précisément en utilisant un filtre dit « P341 » défini dans la norme UIT-T G.191 qui coupe les fréquences au-dessus de 7 kHz (ce filtre respecte le masque défini dans P.341). Cependant, en théorie, il est bien connu qu'un signal échantillonné à 16 kHz peut avoir une bande audio définie de 0 à 8000 Hz ; le codée AMR-WB introduit donc une limitation de la bande haute en comparaison à la largeur de bande théorique de 8 kHz.We are particularly interested here in the codec (coder and decoder) standardized 3GPP AMR-WB (for "Adaptive Multi-Rate Wideband") which operates at an input/output frequency of 16 kHz and in which the signal is divided into two sub-bands, the low band (0-6.4 kHz) which is sampled at 12.8 kHz and coded by CELP model and the high band (6.4-7 kHz) which is reconstructed para metric by “Bandwidth Extension ” (or BWE) with or without additional information depending on the mode of the current frame. It can be noted here that the limitation of the coded band of the AMR-WB codec to 7 kHz is essentially linked to the fact that the frequency response in transmission of wideband terminals was approximated at the time of standardization (ETSI/3GPP then UIT-T) according to the frequency mask defined in the UIT-T P.341 standard and more precisely by using a so-called "P341" filter defined in the UIT-T G.191 standard. which cuts frequencies above 7 kHz (this filter respects the mask defined in P.341). However, in theory, it is well known that a signal sampled at 16 kHz can have a defined audio band from 0 to 8000 Hz; the AMR-WB codec therefore introduces a limitation of the high band in comparison with the theoretical bandwidth of 8 kHz.

Le codée de parole 3GPP AMR-WB a été normalisé en 2001 principalement pour les applications de téléphonie en mode circuit (CS) sur GSM (2G) et UMTS (3G). Ce même codée a été aussi normalisé en 2003 à l'UIT-T en tant que recommandation G.722.2 "Wideband coding speech at around 16kbit/s using Adaptive Multi-Rate Wideband (AMR-WB)".The 3GPP AMR-WB speech codec was standardized in 2001 primarily for circuit mode (CS) telephony applications on GSM (2G) and UMTS (3G). This same codec was also standardized in 2003 at the ITU-T as recommendation G.722.2 "Wideband coding speech at around 16kbit/s using Adaptive Multi-Rate Wideband (AMR-WB)".

Il comprend neuf débits, appelés modes, de 6.6 à 23.85 kbit/s, et comprend des mécanismes de transmission continue (DTX pour "Discontinuous Transmission") avec détection d'activité vocale (VAD pour "Voice Activity Détection") et génération de bruit de confort (CNG pour "Confort Noise Génération") à partir de trames de description de silence (SID pour "Silence Insertion Descriptor"), ainsi que des mécanismes de correction de trames perdues (FEC pour "Frame Erasure Concealment", parfois appelé PLC pour "Packet Loss Concealment").It includes nine bit rates, called modes, from 6.6 to 23.85 kbit/s, and includes mechanisms for continuous transmission (DTX for "Discontinuous Transmission") with voice activity detection (VAD for "Voice Activity Detection") and generation of comfort noise (CNG for "Comfort Noise Generation") from silence description frames (SID for "Silence Insertion Descriptor"), as well as mechanisms for correction of lost frames (FEC for "Frame Erasure Con cealment", sometimes called PLC for "Packet Loss Concealment").

On ne reprend pas ici les détails de l'algorithme de codage et de décodage AMR-WB, une description détaillée de ce codée se trouve dans les spécifications 3GPP (TS 26.190, 26.191, 26.192, 26.193, 26.194, 26.204) et UIT-T-G.722.2 (et les Annexes et Appendice correspondantes) ainsi que dans l'article de B. Bessette et al. intitulé « The adaptive multirate wideband speech codée (AMR-WB) », IEEE Transactions on Speech and Audio Processing, vol. 10, no. 8, 2002, pp. 620-636 et les codes sources des standards 3GPP et UIT-T associés.The details of the AMR-WB coding and decoding algorithm are not repeated here, a detailed description of this codec can be found in the 3GPP specifications (TS 26.190, 26.191, 26.192, 26.193, 26.194, 26.204) and UIT-TG.722.2 (and the corresponding Annexes and Appendix) as well as in the article of B. Bessette et al. entitled “The adaptive multirate wideband coded speech (AMR-WB)”, IEEE Transactions on Speech and Audio Processing, vol. 10, no. 8, 2002, p. 620-636 and the source codes of the associated 3GPP and ITU-T standards.

Le principe de l'extension de bande dans le codée AMR-WB est assez rudimentaire. En effet, la bande haute (6.4-7 kHz) est générée en mettant en forme un bruit blanc par le biais d'une enveloppe temporelle (appliquée sous la forme de gains par sous-trame) et fréquentielle (par l'application d'un filtre de synthèse de prédiction linéaire ou LPC pour "Linear Predictive Coding"). Cette technique d'extension de bande est illustrée à la figure 1 . The principle of band extension in the AMR-WB codec is quite rudimentary. Indeed, the high band (6.4-7 kHz) is generated by shaping a white noise by means of a temporal envelope (applied in the form of gains per subframe) and frequency (by the application of a linear prediction synthesis filter or LPC for "Linear Predictive Coding"). This band extension technique is illustrated in figure 1 .

Un bruit blanc, u HB1(n), n = 0,···,79, est généré à 16 kHz par sous-trame de 5 ms par générateur congruentiel linéaire (bloc 100). Ce bruit u HB1(n) est mis en forme dans le temps par application de gains par sous-trame ; cette opération est décomposée en deux étapes de traitement (blocs 102, 106 ou 109) :

  • Un premier facteur est calculé (bloc 101) pour mettre le bruit blanc u HB1(n) (bloc 102) à un niveau semblable à celui de l'excitation, u(n), n = 0,...,63, décodée à 12.8 kHz dans la bande basse : u HB 2 n = u HB 1 n l = 0 63 u l 2 l = 0 79 u HB 1 l 2
    Figure imgb0001
A white noise, u HB 1 ( n ), n = 0.79, is generated at 16 kHz per 5 ms subframe by a linear congruent generator (block 100). This noise u HB 1 ( n ) is shaped over time by applying gains per subframe; this operation is broken down into two processing steps (blocks 102, 106 or 109):
  • A first factor is calculated (block 101) to put the white noise u HB 1 ( n ) (block 102) at a level similar to that of the excitation, u ( n ), n = 0,...,63, decoded at 12.8 kHz in the low band: a HB 2 not = a HB 1 not I = 0 63 a I 2 I = 0 79 a HB 1 I 2
    Figure imgb0001

On peut noter ici que la normalisation des énergies se fait en comparant des blocs de taille différente (64 pour u(n) et 80 pour u HB1(n)), sans compensation des différences de fréquences d'échantillonnage (12.8 ou 16 kHz).

  • L'excitation dans la bande haute est ensuite obtenue (bloc 106 ou 109) sous la forme : u HB n = g ^ HB u HB 2 n
    Figure imgb0002
    où le gain HB est obtenu différemment selon le débit. Si le débit de la trame actuelle est <23.85 kbit/s, le gain HB est estimé « en aveugle » (c'est-à-dire sans information supplémentaire); dans ce cas, le bloc 103 filtre le signal décodé en bande basse par un filtre passe-haut ayant une fréquence de coupure à 400 Hz pour obtenir un signal hp (n), n = 0,···,63 - ce filtre passe-haut élimine l'influence des très basses fréquences qui peuvent biaiser l'estimation faite dans le bloc 104 - puis on calcule le « tilt » (indicateur de pente spectrale) noté etilt du signal hp (n) par autocorrélation normalisée (bloc 104): e tilt = n = 1 63 s ^ hp n s ^ hp n 1 n = 0 63 s ^ hp n 2
    Figure imgb0003
    et enfin on calcule HB sous la forme : g ^ HB = w SP g SP + 1 w SP g BG
    Figure imgb0004
    gSP =1-etilt est le gain appliqué dans les trames actives de parole (SP pour speech), gBG =1.25gSP est le gain appliqué dans les trames inactives de parole associées à un bruit de fond (BG pour Background) et wSP est une fonction de pondération qui dépend de la détection d'activité vocale (VAD). On comprend que l'estimation du tilt ( etilt ) permet d'adapter le niveau de la bande haute en fonction de la nature spectrale du signal ; cette estimation est particulièrement importante quand la pente spectrale du signal décodé CELP est telle que l'énergie moyenne décroît quand la fréquence augmente (cas d'un signal voisé où etilt est proche de 1, donc gSP =1-etilt est ainsi réduit). A noter aussi que le facteur HB dans le décodage AMR-WB est borné pour prendre des valeurs dans l'intervalle [0.1, 1.0]. En fait, pour les signaux dont le spectre a plus d'énergie en hautes fréquences (etilt proche de -1, gSP proche de 2), le gain HB est d'habitude sous-estimé.
It can be noted here that the normalization of the energies is done by comparing blocks of different sizes (64 for u ( n ) and 80 for u HB 1 ( n )), without compensation for the differences in sampling frequencies (12.8 or 16 kHz).
  • The excitation in the high band is then obtained (block 106 or 109) in the form: a HB not = g ^ HB a HB 2 not
    Figure imgb0002
    where the gain ĝ HB is obtained differently according to the flow. If the bit rate of the current frame is <23.85 kbit/s, the gain ĝ HB is estimated “blind” (ie without additional information); in this case, block 103 filters the low-band decoded signal by a high-pass filter having a cut-off frequency of 400 Hz to obtain a signal ŝ hp ( n ), n = 0.63 - this high-pass filter eliminates the influence of very low frequencies which can bias the estimate made in block 104 - then the "tilt" (indicator of spectral slope) denoted e tilt of the signal ŝ hp ( n ) by autocor is calculated normalized relationship (block 104): e tilt = not = 1 63 s ^ hp not s ^ hp not 1 not = 0 63 s ^ hp not 2
    Figure imgb0003
    and finally we calculate ĝ HB in the form: g ^ HB = w MS g MS + 1 w MS g BG
    Figure imgb0004
    where g SP =1- e tilt is the gain applied in active speech frames (SP for speech), g BG =1.25 g SP is the gain applied in inactive speech frames associated with background noise (BG for Background) and w SP is a weighting function that depends on voice activity detection (VAD). It is understood that the estimation of the tilt ( e tilt ) makes it possible to adapt the level of the high band according to the spectral nature of the signal; this estimate is particularly important when the spectral slope of the decoded signal CELP is such that the average energy decreases when the frequency increases (case of a voiced signal where e tilt is close to 1, therefore g SP = 1- e tilt is thus reduced). Note also that the factor ĝ HB in the AMR-WB decoding is bounded to take values in the interval [0.1, 1.0]. In fact, for signals whose spectrum has more energy at high frequencies ( e tilt close to -1, g SP close to 2), the gain ĝ HB is usually underestimated.

A 23.85 kbit/s, une information de correction est transmise par le codeur AMR-WB et décodée (blocs 107, 108) afin d'affiner le gain estimé par sous-trame (4 bits toutes les 5ms, soit 0.8 kbit/s).At 23.85 kbit/s, correction information is transmitted by the AMR-WB coder and decoded (blocks 107, 108) in order to refine the estimated gain per subframe (4 bits every 5 ms, ie 0.8 kbit/s).

L'excitation artificielle uHB (n) est ensuite filtrée (bloc 111) par un filtre de synthèse LPC de fonction de transfert 1/ AHB (z) et fonctionnant à la fréquence d'échantillonnage de 16 kHz. La réalisation de ce filtre dépend du débit de la trame courante:

  • A 6.6 kbit/s, le filtre 1/ AHB (z) est obtenu en pondérant par un facteur γ=0.9 un filtre LPC d'ordre 20, 1 Âext (z) qui « extrapole » le filtre LPC d'ordre 16, 1/ Â(z), décodé dans la bande basse (à 12.8 kHz) - les détails de l'extrapolation dans le domaine des paramètres ISF (pour "Imittance Spectral Frequency" en anglais) sont décrits dans la norme G.722.2 à la section 6.3.2.1; dans ce cas, 1 / A HB z = 1 / A ^ ext z / γ
    Figure imgb0005
  • Aux débits > 6.6 kbit/s, le filtre 1/ AHB(z) est d'ordre 16 et correspond simplement à : 1 / A HB z = 1 / A ^ z / γ
    Figure imgb0006
    γ=0.6. A noter que dans ce cas le filtre 1/ Â(z / γ) est utilisé à 16 kHz, ce qui résulte en un étalement (par homothétie) de la réponse en fréquence de ce filtre de [0, 6.4 kHz] à [0, 8 kHz].
The artificial excitation u HB ( n ) is then filtered (block 111) by an LPC synthesis filter with transfer function 1/ A HB (z) and operating at the sampling frequency of 16 kHz. The realization of this filter depends on the rate of the current frame:
  • At 6.6 kbit/s, the 1/ A HB ( z ) filter is obtained by weighting by a factor γ = 0.9 an LPC filter of order 20, 1 Â ext (z) which "extrapolates" the LPC filter of order 16, 1/ Â ( z ), decoded in the low band (at 12.8 kHz) - the details of the extrapolation in the domain of the ISF parameters (for "Imittance Spectral Frequency" in English) are described in the G.722.2 standard in section 6.3.2.1; in this case, 1 / AT HB z = 1 / AT ^ outside z / γ
    Figure imgb0005
  • At bit rates > 6.6 kbit/s, the 1/ A HB (z) filter is of order 16 and simply corresponds to: 1 / AT HB z = 1 / AT ^ z / γ
    Figure imgb0006
    where γ =0.6. Note that in this case the 1/ Â ( z / γ ) filter is used at 16 kHz, which results in a spreading (by homothety) of the frequency response of this filter from [0.6.4 kHz] to [0.8 kHz].

Le résultat, sHB (n), est enfin traité par un filtre passe-bande (bloc 112) de type FIR ("Finite Impulse Response"), pour ne garder que la bande 6 - 7 kHz ; à 23.85 kbit/s, un filtre passe-bas également de type FIR (bloc 113) se rajoute au traitement pour atténuer encore plus les fréquences supérieures à 7 kHz. La synthèse en hautes fréquences (HF) est finalement additionnée (bloc 130) à la synthèse en basses fréquences (BF) obtenue avec les blocs 120 à 123 et ré-échantillonnée à 16 kHz (bloc 123). Ainsi même si la bande haute s'étend en théorie de 6.4 à 7 kHz dans le codée AMR-WB, la synthèse HF est plutôt comprise dans la bande 6-7 kHz avant addition avec la synthèse BF.The result, s HB ( n ) , is finally processed by a band-pass filter (block 112) of the FIR ("Finite Impulse Response") type, to keep only the 6-7 kHz band; at 23.85 kbit/s, a low-pass filter also of the FIR type (block 113) is added to the processing to further attenuate the frequencies above 7 kHz. The high frequency (HF) synthesis is finally added (block 130) to the low frequency (LF) synthesis obtained with blocks 120 to 123 and resampled at 16 kHz (block 123). Thus even if the high band extends in theory from 6.4 to 7 kHz in the AMR-WB codec, the HF synthesis is rather included in the 6-7 kHz band before addition with the LF synthesis.

On peut identifier plusieurs inconvénients à la technique d'extension de bande du codée AMR-WB :

  • Le signal dans la bande haute est un bruit blanc mis en forme (par gains temporels par sous-trame, par filtrage par 1/ AHB (z) et filtrage passe-bande), ce qui n'est pas un bon modèle général du signal dans la bande 6.4-7 kHz. Il existe par exemple des signaux de musique très harmoniques pour lesquels la bande 6.4-7 kHz contient des composantes sinusoïdales (ou tones) et aucun bruit (ou peu de bruit), pour ces signaux l'extension de bande du codée AMR-WB dégrade fortement la qualité.
  • Le filtre passe-bas à 7 kHz (bloc 113) introduit un décalage de près de 1 ms entre les bandes basses et hautes, ce qui peut potentiellement dégrader la qualité de certains signaux en désynchronisant légèrement les deux bandes à 23.85 kbit/s - cette désynchronisation peut également poser problème lors d'une commutation de débit de 23.85 kbit/s à d'autres modes.
  • L'estimation de gains par sous-trame (bloc 101, 103 à 105) n'est pas optimale. Pour partie, elle se base sur une égalisation de l'énergie « absolue » par sous-trame (bloc 101) entre des signaux à des fréquences différentes : l'excitation artificielle à 16 kHz (bruit blanc) et un signal à 12.8 kHz (excitation ACELP décodée). On peut noter en particulier que cette approche induit implicitement une atténuation de l'excitation bande haute (par un ratio 12.8/16=0.8) ; en fait, on notera également qu'aucune désaccentuation (ou déemphase) n'est effectuée sur la bande haute dans le codée AMR-WB, ce qui induit implicitement une amplification relative proche de 0.6 (qui correspond à la valeur de la réponse en fréquence de 1 / (1-0.68z-1) à 6400 Hz). En fait, les facteurs de 1/0.8 et de 0.6 se compensent approximativement.
  • Sur la parole, les tests de caractérisation du codée 3GPP AMR-WB documentés dans le rapport 3GPP TR 26.976 ont montré que le mode à 23.85 kbit/s a une qualité moins bonne qu'à 23.05 kbit/s, sa qualité est en fait similaire à celle du mode à 15.85 kbit/s. Ceci montre en particulier que le niveau du signal HF artificiel doit être contrôlé de façon très prudente, car la qualité est dégradée à 23.85 kbit/s alors que les 4 bits par trame sont sensés permettre de mieux approcher l'énergie des hautes fréquences originales.
  • La limitation de la bande codée à 7 kHz résulte de l'application d'un modèle strict de la réponse en émission des terminaux acoustiques (filtre P.341 dans la norme UIT-T G.191). Or, pour une fréquence d'échantillonnage de 16 kHz, les fréquences dans la bande 7-8 kHz restent importantes, en particulier pour les signaux de musique, pour assurer un bon niveau de qualité.
We can identify several drawbacks to the band extension technique of the AMR-WB codec:
  • The signal in the high band is shaped white noise (by temporal gains per subframe, by filtering by 1 / A HB ( z ) and band-pass filtering), which is not a good general model of the signal in the 6.4-7 kHz band. There are for example very harmonic music signals for which the 6.4-7 kHz band contains sinusoidal components (or tones) and no noise (or little noise), for these signals the band extension of the AMR-WB codec strongly degrades the quality.
  • The low pass filter at 7 kHz (block 113) introduces an almost 1 ms lag between the low and high bands, which can potentially degrade the quality of some signals by slightly desynchronizing the two bands at 23.85 kbit/s - this desynchronization can also cause problems when switching from 23.85 kbit/s bitrate to other modes.
  • The estimation of gains per subframe (block 101, 103 to 105) is not optimal. In part, it is based on an “absolute” energy equalization per subframe (block 101) between signals at different frequencies: the artificial excitation at 16 kHz (white noise) and a signal at 12.8 kHz (decoded ACELP excitation). It can be noted in particular that this approach implicitly induces an attenuation of the high band excitation (by a ratio 12.8/16=0.8); in fact, it should also be noted that no de-emphasis (or de-emphasis) is performed on the high band in the AMR-WB codec, which implicitly induces a relative amplification close to 0.6 (which corresponds to the value of the frequency response of 1 / (1-0.68z -1 ) at 6400 Hz). In fact, the factors of 1/0.8 and 0.6 approximately compensate each other.
  • On speech, the characterization tests of the 3GPP AMR-WB codec documented in the 3GPP report TR 26.976 showed that the 23.85 kbit/s mode has a lower quality than at 23.05 kbit/s, its quality is in fact similar to that of the 15.85 kbit/s mode. This shows in particular that the level of the artificial HF signal must be controlled in a very careful way, because the quality is degraded at 23.85 kbit/s whereas the 4 bits per frame are supposed to make it possible to better approach the energy of the original high frequencies.
  • The limitation of the coded band to 7 kHz results from the application of a strict model of the transmission response of acoustic terminals (P.341 filter in the ITU-T G.191 standard). However, for a sampling frequency of 16 kHz, the frequencies in the 7-8 kHz band remain important, in particular for music signals, to ensure a good level of quality.

L'algorithme de décodage AMR-WB a été amélioré en partie avec le développement du codée scalable UIT-T G.718 qui a été normalisé en 2008.The AMR-WB decoding algorithm was improved in part with the development of the ITU-T G.718 scalable codec which was standardized in 2008.

La norme UIT-T G.718 comprend un mode dit interopérable, pour lequel le codage coeur est compatible avec le codage G.722.2 (AMR-WB) à 12.65 kbit/s ; de plus, le décodeur G.718 a la particularité de pouvoir décoder un train binaire AMR-WB/G.722.2 à tous les débits possibles du codée AMR-WB (de 6.6 à 23.85 kbit/s).The ITU-T G.718 standard includes a so-called interoperable mode, for which the core coding is compatible with the G.722.2 (AMR-WB) coding at 12.65 kbit/s; moreover, the G.718 decoder has the particularity of being able to decode an AMR-WB/G.722.2 binary train at all possible rates of the AMR-WB codec (from 6.6 to 23.85 kbit/s).

Le décodeur interopérable G.718 en mode bas délai (« low delay » en anglais) (G.718-LD) est illustré à la figure 2 . On liste ci-dessous les améliorations apportées à la fonctionnalité de décodage de train binaire AMR-WB dans le décodeur G.718, avec des références à la figure 1 lorsque nécessaire :
L'extension de bande (décrite par exemple dans la clause 7.13.1 de la recommendation G.718, bloc 206) est identique à celle du décodeur AMR-WB, sauf que le filtre passe-bande 6-7 kHz et le filtre de synthèse 1/AHB(z) (blocs 111 et 112) sont en ordre inversé. De plus, à 23.85 kbit/s les 4 bits transmis par sous-trames par le codeur AMR-WB ne sont pas utilisés dans le décodeur G.718 interopérable ; la synthèse des hautes fréquences (HF) à 23.85 kbit/s est donc identique à 23.05 kbit/s ce qui évite le problème connu de qualité du décodage AMR-WB à 23.85 kbit/s. A fortiori, le filtre passe-bas à 7 kHz (bloc 113) n'est pas utilisé, et le décodage spécifique du mode à 23.85 kbit/s est omis (blocs 107 à 109).
The interoperable G.718 decoder in low-delay mode (G.718-LD) is shown in Fig. figure 2 . Listed below are enhancements to the AMR-WB bitstream decoding functionality in the G.718 decoder, with references to the figure 1 when necessary:
The band expansion (described for example in clause 7.13.1 of recommendation G.718, block 206) is identical to that of the AMR-WB decoder, except that the 6-7 kHz bandpass filter and the 1/A HB (z) synthesis filter (blocks 111 and 112) are in reverse order. Moreover, at 23.85 kbit/s the 4 bits transmitted by subframes by the AMR-WB coder are not used in the interoperable G.718 decoder; the synthesis of high frequencies (HF) at 23.85 kbit/s is therefore identical to 23.05 kbit/s, which avoids the known quality problem of AMR-WB decoding at 23.85 kbit/s. A fortiori, the low-pass filter at 7 kHz (block 113) is not used, and the specific decoding of the mode at 23.85 kbit/s is omitted (blocks 107 to 109).

Un post-traitement de la synthèse à 16 kHz (voir clause 7.14 de G.718) est mis en oeuvre dans G.718 par "noise gâte" dans le bloc 208 (pour « améliorer » la qualité des silences par réduction du niveau), filtrage passe-haut (bloc 209), post-filtre de basses fréquences (dit « bass posfilier ») dans le bloc 210 atténuant le bruit inter-harmonique en basses fréquences et une conversion en entiers 16 bits avec contrôle de saturation (avec contrôle de gain ou AGC) dans le bloc 211.A post-processing of the synthesis at 16 kHz (see clause 7.14 of G.718) is implemented in G.718 by " noise gate " in block 208 (to "improve" the quality of silences by level reduction), high-pass filtering (block 209), low-frequency post-filter (called " bass posfilier ") in block 210 attenuating inter-harmonic noise at low frequencies and a conversion to 16-bit integers with saturation control (with gain control or AGC) in block 211.

Cependant l'extension de bande dans les codées AMR-WB et/ou G.718 (mode interopérable) reste encore limitée sur plusieurs aspects.However, the band extension in the AMR-WB and/or G.718 codecs (interoperable mode) still remains limited in several aspects.

En particulier, la synthèse de hautes fréquences par bruit blanc mis en forme (par une approche temporelle de type source-filtre LPC) est un modèle très limité du signal dans la bande des fréquences supérieures à 6.4 kHz.In particular, the synthesis of high frequencies by shaped white noise (by a temporal approach of the LPC source-filter type) is a very limited model of the signal in the band of frequencies above 6.4 kHz.

Seule la bande 6.4-7 kHz est re-synthétisée de façon artificielle, alors qu'en pratique une bande plus large (jusqu'à 8 kHz) est en théorie possible à la fréquence d'échantillonnage de 16 kHz, ce qui peut potentiellement améliorer la qualité des signaux, s'ils ne sont pas prétraités par un filtre de type P.341 (50-7000 Hz) tel que définie dans la Software Tool Library (norme G.191) de l'UIT-T.Only the 6.4-7 kHz band is re-synthesized artificially, while in practice a wider band (up to 8 kHz) is theoretically possible at the 16 kHz sampling frequency, which can potentially improve the quality of the signals, if they are not preprocessed by a P.341 type filter (50-7000 Hz) as defined in the Software Tool Library (G.191 standard) of the ITU-T.

L'article " New Enhancements to the Audio Bandwidth Extension Toolkit (ABET)"by Anndana et al. décrit une série d'améliorations des outils d'extension de bande de fréquences (ASR, FSSM et MBTAC).The article " New Enhancements to the Audio Bandwidth Extension Toolkit (ABET)"by Anndana et al. describes a series of improvements to the frequency band extension tools (ASR, FSSM and MBTAC).

Il existe donc un besoin pour améliorer l'extension de bande dans un codée de type AMR-WB ou une version interopérable de ce codée ou plus généralement pour améliorer l'extension de bande d'un signal audio, notamment pour améliorer le contenu fréquentiel de l'extension de bande.There is therefore a need to improve the band extension in an AMR-WB type codec or an interoperable version of this codec or more generally to improve the band extension of an audio signal, in particular to improve the frequency content of the band extension.

La présente invention vient améliorer la situation.The present invention improves the situation.

L'invention propose à cet effet, un procédé d'extension de bande de fréquence d'un signal audiofréquence lors d'un processus de décodage ou d'amélioration comportant une étape d'obtention du signal décodé dans une première bande de fréquence dite bande basse.The invention proposes for this purpose a method for extending the frequency band of an audio frequency signal during a decoding or improvement process comprising a step of obtaining the decoded signal in a first so-called low band frequency band.

Le procédé est tel qu'il comporte les étapes de la revendication 1.The method is such that it includes the steps of claim 1.

On notera que par la suite l' « extension de bande » sera prise au sens large et inclura non seulement le cas de l'extension d'une sous-bande en hautes fréquences mais également le cas d'un remplacement de sous-bandes mises à zéro (de type « noise filling » en codage par transformée).It will be noted that subsequently the "band extension" will be taken in the broad sense and will include not only the case of the extension of a sub-band at high frequencies but also the case of a replacement of sub-bands set to zero (of the "noise filling" type in transform coding).

Ainsi, à la fois la prise en compte de composantes tonales et d'un signal d'ambiance extrait du signal issu du décodage de la bande basse permet d'effectuer l'extension de bande avec un modèle de signal adapté à la vraie nature du signal contrairement à l'utilisation d'un bruit artificiel. La qualité de l'extension de bande est ainsi améliorée et notamment pour certains types de signaux comme les signaux de musique.Thus, taking into account both tonal components and an ambient signal extracted from the signal resulting from the decoding of the low band makes it possible to carry out the band extension with a signal model adapted to the true nature of the signal unlike the use of artificial noise. The quality of the band extension is thus improved and in particular for certain types of signals such as music signals.

En effet, le signal décodé dans la bande basse comporte une partie correspondant à l'ambiance sonore qui peut être transposée en haute fréquence de telle sorte qu'un mixage des composantes harmoniques et de l'ambiance existante permet d'assurer une bande haute reconstruite cohérente.Indeed, the signal decoded in the low band comprises a part corresponding to the sound environment which can be transposed at high frequency in such a way that a mixing of the harmonic components and of the existing atmosphere makes it possible to ensure a coherent reconstructed high band.

On remarquera que même si l'invention est motivée par l'amélioration de la qualité de l'extension de bande dans le contexte du codage AMR-WB interopérable, les différents modes de réalisation s'appliquent au cas plus général de l'extension de bande d'un signal audio, en particulier dans un dispositif d'amélioration effectuant une analyse du signal audio pour extraire les paramètres nécessaires à l'extension de bande.It will be noted that even if the invention is motivated by the improvement of the quality of the band extension in the context of the interoperable AMR-WB coding, the various embodiments apply to the more general case of the band extension of an audio signal, in particular in an improvement device performing an analysis of the audio signal to extract the parameters necessary for the band extension.

Les différents modes particuliers de réalisation mentionnés ci-après peuvent être ajoutés indépendamment ou en combinaison les uns avec les autres, aux étapes du procédé d'extension défini ci-dessus.The different particular embodiments mentioned below can be added independently or in combination with each other, to the steps of the extension method defined above.

Dans un mode de réalisation, l'extension de bande est effectuée dans le domaine de l'excitation et le signal bande basse décodé est un signal d'excitation bande basse décodé.In one embodiment, the band expansion is performed in the excitation domain and the decoded low band signal is a decoded low band excitation signal.

L'avantage de ce mode de réalisation est qu'une transformation sans fenêtrage (ou de façon équivalente avec une fenêtre rectangulaire implicite de la longueur de la trame) est possible dans le domaine de l'excitation. Dans ce cas aucun artefact (effets de bloc) n'est alors audible.The advantage of this embodiment is that a transformation without windowing (or equivalently with an implicit rectangular window of the frame length) is possible in the excitation domain. In this case no artefact (block effects) is then audible.

Dans un premier mode de réalisation non couvert par le texte des revendications, l'extraction des composantes tonales et du signal d'ambiance s'effectue selon les étapes suivantes :

  • détection des composantes tonales dominantes du signal bande basse décodé ou décodé et étendu, dans le domaine fréquentiel ;
  • calcul d'un signal résiduel par extraction des composantes tonales dominantes pour obtenir le signal d'ambiance.
In a first embodiment not covered by the text of the claims, the extraction of the tonal components and of the ambient signal is carried out according to the following steps:
  • detection of the dominant tonal components of the decoded or decoded and extended low-band signal, in the frequency domain;
  • calculating a residual signal by extracting the dominant tonal components to obtain the ambient signal.

Ce mode de réalisation permet une détection précise des composantes tonales.This embodiment allows precise detection of the tonal components.

Dans un deuxième mode de réalisation, de faible complexité, l'extraction des composantes tonales et du signal d'ambiance s'effectue selon les étapes suivantes :

  • obtention du signal d'ambiance par calcul d'une valeur moyenne du spectre du signal bande basse décodé ou décodé et étendu ;
  • obtention des composantes tonales par soustraction du signal d'ambiance calculé au signal bande basse décodé ou décodé et étendu.
In a second embodiment, of low complexity, the extraction of the tonal components and of the ambient signal is carried out according to the following steps:
  • obtaining the ambient signal by calculating an average value of the spectrum of the decoded or decoded and extended low-band signal;
  • obtaining the tonal components by subtracting the calculated ambient signal from the decoded or decoded and extended low-band signal.

Dans un mode de réalisation de l'étape de combinaison, un facteur de contrôle du niveau d'énergie utilisé pour le mixage adaptatif, est calculé en fonction de l'énergie totale du signal bande basse décodé ou décodé et étendu et des composantes tonales.In one embodiment of the combining step, an energy level control factor used for the adaptive mixing is calculated based on the total energy of the decoded or decoded and extended low-band signal and the tonal components.

L'application de ce facteur de contrôle permet à l'étape de combinaison de s'adapter aux caractéristiques du signal pour optimiser la proportion relative de signal d'ambiance dans le mélange. Le niveau d'énergie est ainsi contrôlé de façon à éviter les artefacts audibles.Applying this control factor allows the combining stage to adapt to signal characteristics to optimize the relative proportion of ambient signal in the mix. The energy level is thus controlled so as to avoid audible artifacts.

Dans un mode de réalisation préféré, le signal bande basse décodé subit une étape de décomposition en sous-bandes par transformée ou par banc de filtres, les étapes d'extraction et de combinaison s'effectuant alors dans le domaine fréquentiel ou en sous-bandes.In a preferred embodiment, the decoded low-band signal undergoes a step of decomposition into sub-bands by transform or by filter bank, the extraction and combination steps then being performed in the frequency domain or in sub-bands.

La mise en oeuvre de l'extension de bande dans le domaine fréquentiel permet d'obtenir une finesse d'analyse en fréquence dont on ne dispose pas avec une approche temporelle, et permet aussi d'avoir une résolution fréquentielle suffisante pour détecter les composantes tonales.The implementation of the band extension in the frequency domain makes it possible to obtain a precision of frequency analysis which is not available with a temporal approach, and also makes it possible to have a frequency resolution sufficient to detect the tonal components.

Dans un mode de réalisation détaillé, le signal bande basse décodé et étendu est obtenu selon l'équation suivante: U HB 1 k = { 0 k = 0 , , 199 U k k = 200 , , 239 U k + start _ band 240 k = 240 , , 319

Figure imgb0007
avec k l'indice de l'échantillon, U(k) le spectre du signal obtenu après une étape de transformée U HB1(k) le spectre du signal étendu, et start_band une variable prédéfinie. Ainsi, cette fonction comprend un ré-échantillonnage du signal en ajoutant des échantillons au spectre de ce signal. D'autres façons d'étendre le signal sont cependant possibles, par exemple par translation dans un traitement sous-bandes.In a detailed embodiment, the decoded and extended low band signal is obtained according to the following equation: U HB 1 k = { 0 k = 0 , , 199 U k k = 200 , , 239 U k + start _ band 240 k = 240 , , 319
Figure imgb0007
with k the index of the sample, U(k) the spectrum of the signal obtained after a U HB 1 transform step ( k ) the spectrum of the extended signal, and start_band a predefined variable. Thus, this function includes a resampling of the signal by adding samples to the spectrum of this signal. Other ways of extending the signal are however possible, for example by translation in sub-band processing.

La présente invention vise également un dispositif d'extension de bande de fréquence d'un signal audiofréquence, le signal ayant été décodé dans une première bande de fréquence dite bande basse. Le dispositif est tel qu'il comporte:

  • un module d'extraction de composantes tonales et d'un signal d'ambiance à partir d'un signal issu du signal bande basse décodé;
  • un module de combinaison des composantes tonales et du signal d'ambiance par mixage adaptatif utilisant des facteurs de contrôle de niveau d'énergie pour obtenir un signal audio, dit signal combiné;
  • un module d'extension sur au moins une deuxième bande de fréquence supérieure à la première bande de fréquence mis en oeuvre sur le signal décodé bande basse avant le module d'extraction.
The present invention also relates to a device for extending the frequency band of an audio frequency signal, the signal having been decoded in a first frequency band called the low band. The device is such that it comprises:
  • a module for extracting tonal components and an ambient signal from a signal coming from the decoded low-band signal;
  • a module for combining the tonal components and the ambient signal by adaptive mixing using energy level control factors to obtain an audio signal, called the combined signal;
  • an extension module on at least a second frequency band higher than the first frequency band implemented on the low band decoded signal before the extraction module.

Ce dispositif présente les mêmes avantages que le procédé décrit précédemment, qu'il met en oeuvre.This device has the same advantages as the method described previously, which it implements.

L'invention vise un décodeur comportant un dispositif tel que décrit.The invention relates to a decoder comprising a device as described.

Elle vise un programme informatique comportant des instructions de code pour la mise en oeuvre des étapes du procédé d'extension de bande tel que décrit, lorsque ces instructions sont exécutées par un processeur.It relates to a computer program comprising code instructions for implementing the steps of the band extension method as described, when these instructions are executed by a processor.

Enfin l'invention se rapporte à un support de stockage, lisible par un processeur, intégré ou non au dispositif d'extension de bande, éventuellement amovible, mémorisant un programme informatique mettant en oeuvre un procédé d'extension de bande tel que décrit précédemment.Finally, the invention relates to a storage medium, readable by a processor, integrated or not in the tape extension device, optionally removable, storing a computer program implementing a tape extension method as described previously.

D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante, donnée uniquement à titre d'exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels :

  • la figure 1 illustre une partie d'un décodeur de type AMR-WB mettant en oeuvre des étapes d'extension de bande de fréquence de l'état de l'art et tel que décrit précédemment;
  • la figure 2 illustre un décodeur de type interopérable G.718-LD à 16kHz selon l'état de l'art et tel que décrit précédemment;
  • la figure 3 illustre un décodeur interopérable avec le codage AMR-WB et intégrant un dispositif d'extension de bande selon un mode de réalisation de l'invention;
  • la figure 4 illustre sous forme d'organigramme, les étapes principales d'un procédé d'extension de bande selon un mode de réalisation de l'invention;
  • la figure 5 illustre un mode de réalisation dans le domaine fréquentiel d'un dispositif d'extension de bande selon l'invention intégré dans un décodeur; et
  • la figure 6 illustre une réalisation matérielle d'un dispositif d'extension de bande selon l'invention.
Other characteristics and advantages of the invention will appear more clearly on reading the following description, given solely by way of non-limiting example, and made with reference to the appended drawings, in which:
  • there figure 1 illustrates part of an AMR-WB type decoder implementing state-of-the-art frequency band extension steps and as described previously;
  • there figure 2 illustrates a decoder of the interoperable G.718-LD type at 16 kHz according to the state of the art and as previously described;
  • there picture 3 illustrates a decoder interoperable with AMR-WB coding and integrating a band extension device according to one embodiment of the invention;
  • there figure 4 illustrates in the form of a flowchart, the main steps of a band extension method according to an embodiment of the invention;
  • there figure 5 illustrates an embodiment in the frequency domain of a band extender device according to the invention integrated in a decoder; And
  • there figure 6 illustrates a hardware realization of a tape extender according to the invention.

La figure 3 illustre un exemple de décodeur, compatible avec la norme AMR-WB/G.722.2 dans lequel on retrouve un post-traitement similaire à celui introduit dans G.718 et décrit en référence à la figure 2 et une extension de bande améliorée selon le procédé d'extension de l'invention, mis en oeuvre par le dispositif d'extension de bande illustré par le bloc 309.There picture 3 illustrates an example of a decoder, compatible with the AMR-WB/G.722.2 standard in which there is a post-processing similar to that introduced in G.718 and described with reference to figure 2 and an improved tape extension according to the extension method of the invention, implemented by the tape extension device illustrated by block 309.

Contrairement au décodage AMR-WB qui fonctionne avec une fréquence d'échantillonnage de sortie de 16 kHz et au décodage G.718 qui fonctionne à 8 ou 16 kHz, on considère ici un décodeur qui peut fonctionner avec un signal de sortie (synthèse) à la fréquence fs = 8, 16, 32 ou 48 kHz. A noter qu'on suppose ici que le codage a été effectué selon l'algorithme AMR-WB avec une fréquence interne de 12.8 kHz pour le codage CELP en bande basse et à 23.85 kbit/s un codage de gain par sous-trame à la fréquence de 16 kHz, mais des variantes interopérables du codeur AMR-WB sont également possibles ; même si l'invention est décrite ici au niveau du décodage, on suppose ici que le codage peut aussi fonctionner avec un signal d'entrée à la fréquence fs = 8, 16, 32 ou 48 kHz et des opérations de ré-échantillonnage adéquates, dépassant le cadre de l'invention, sont mises en oeuvre au codage en fonction de la valeur de fs. On peut noter que quand fs=8 kHz au décodeur, dans le cas d'un décodage compatible avec AMR-WB, il n'est pas nécessaire d'étendre la bande basse 0-6.4 kHz, car la bande audio reconstruite à la fréquence fs est limitée à 0-4000 Hz.Unlike AMR-WB decoding which works with an output sampling frequency of 16 kHz and G.718 decoding which works at 8 or 16 kHz, we consider here a decoder which can work with an output signal (synthesis) at the frequency fs = 8, 16, 32 or 48 kHz. Note that it is assumed here that the coding was carried out according to the AMR-WB algorithm with an internal frequency of 12.8 kHz for the CELP coding in the low band and at 23.85 kbit/s a gain coding per subframe at the frequency of 16 kHz, but interoperable variants of the AMR-WB coder are also possible; even if the invention is described here at the decoding level, it is assumed here that the coding can also operate with an input signal at the frequency fs = 8, 16, 32 or 48 kHz and appropriate resampling operations, going beyond the scope of the invention, are implemented at the coding according to the value of fs. It can be noted that when fs=8 kHz at the decoder, in the case of a decoding compatible with AMR-WB, it is not necessary to extend the low band 0-6.4 kHz, because the audio band reconstructed at the frequency fs is limited to 0-4000 Hz.

A la figure 3, le décodage CELP (BF pour basses fréquences) fonctionne toujours à la fréquence interne de 12.8 kHz, comme dans AMR-WB et G.718, et l'extension de bande (HF pour hautes fréquences) faisant l'objet de l'invention fonctionne à la fréquence de 16 kHz, les synthèses BF et HF sont combinées (bloc 312) à la fréquence fs après ré-échantillonnage adéquat (blocs 307 et 311). Dans des variantes de l'invention, la combinaison des bandes basse et haute pourra se faire à 16 kHz, après avoir ré-échantillonnée la bande basse de 12.8 à 16 kHz, avant de ré-échantillonner le signal combiné à la fréquence fs. To the picture 3 , the CELP decoding (LF for low frequencies) always operates at the internal frequency of 12.8 kHz, as in AMR-WB and G.718, and the band extension (HF for high frequencies) which is the subject of the invention operates at the frequency of 16 kHz, the LF and HF synthesis are combined (block 312) at the frequency fs after adequate resampling (blocks 307 and 311). In variants of the invention, the combination of the low and high bands could be done at 16 kHz, after having resampled the low band from 12.8 to 16 kHz, before resampling the combined signal at the frequency fs.

Le décodage selon la figure 3 dépend du mode (ou débit) AMR-WB associé à la trame courante reçue. A titre indicatif et sans que cela impacte le bloc 309, le décodage de la partie CELP en bande basse comporte les étapes suivantes:

  • Démultiplexage des paramètres codés (bloc 300) en cas de trame correctement reçue (bfi=0 où bfi est le « bad trame indicator» valant 0 pour une trame reçue et 1 pour une trame perdue).
  • Décodage des paramètres ISF avec interpolation et conversion en coefficients LPC (bloc 301) comme décrit dans la clause 6.1 de la norme G.722.2.
  • Décodage de l'excitation CELP (bloc 302), avec une partie adaptative et fixe pour reconstruire l'excitation (exc ou u '(n)) dans chaque sous-trame de longueur 64 à 12.8 kHz: u n = g ^ p ν n + g ^ c c n , n = 0 , , 63
    Figure imgb0008
    en suivant les notations de la clause 7.1.2.1 de G.718 concernant le décodage CELP, où v(n) et c(n) sont respectivement les mots de code des dictionnaires adaptatif et fixe, et p et c sont les gains décodés associés. Cette excitation u'(n) est utilisée dans le dictionnaire adaptatif de la sous-trame suivante ; elle est ensuite post-traitée et on distingue comme dans G.718 l'excitation u'(n) (aussi notée exc) de sa version post-traitée modifiée u(n) (aussi notée exc2) qui sert d'entrée au filtre de synthèse, 1/ Â(z), dans le bloc 303. Dans des variantes qui peuvent être mises en oeuvre pour l'invention, les post-traitements appliqués à l'excitation peuvent être modifiés (par exemple, la dispersion de phase peut être améliorée) ou ces post-traitements peuvent être étendus (par exemple, une réduction du bruit inter-harmonique peut être mise en oeuvre), sans affecter la nature du procédé d'extension de bande selon l'invention.
  • Filtrage de synthèse par 1/ Â(z) (bloc 303) où le filtre LPC décodé A(z) est d'ordre 16
  • Post-traitement bande étroite (bloc 304) selon la clause 7.3 de G.718 si fs=8 kHz.
  • Désaccentuation (bloc 305) par le filtre 1/ (1 - 0.68z -1)
  • Post-traitement des basses fréquences (bloc 306) tel que décrit à la clause 7.14.1.1 de G.718. Ce traitement introduit un retard qui est pris en compte dans le décodage de la bande haute (>6.4 kHz).
  • Ré-échantillonnage de la fréquence interne de 12.8 kHz à la fréquence de sortie fs (bloc 307). Plusieurs réalisations sont possibles. Sans perte de généralité, on considère ici à titre d'exemple que si fs=8 ou 16 kHz, le ré-échantillonnage décrit dans la clause 7.6 de G.718 est repris ici, et si fs=32 ou 48 kHz, des filtres à réponse impulsionnelle finie (FIR) supplémentaires sont utilisés.
  • Calcul des paramètres du "noise gate" (bloc 308) qui est réalisé de façon préférentielle comme décrit dans la clause 7.14.3 de G.718.
Decoding according to picture 3 depends on the AMR-WB mode (or rate) associated with the current frame received. As an indication and without this impacting the block 309, the decoding of the CELP part in low band comprises the following steps:
  • Demultiplexing of the coded parameters (block 300) in the event of a correctly received frame ( bfi =0 where bfi is the “ bad frame indicator ” equal to 0 for a received frame and 1 for a lost frame).
  • Decoding the ISF parameters with interpolation and conversion to LPC coefficients (block 301) as described in clause 6.1 of the G.722.2 standard.
  • Decoding the CELP excitation (block 302), with an adaptive and fixed part to reconstruct the excitation (exc or u' ( n )) in each subframe of length 64 at 12.8 kHz: a not = g ^ p ν not + g ^ vs vs not , not = 0 , , 63
    Figure imgb0008
    following the notations of clause 7.1.2.1 of G.718 regarding CELP decoding, where v(n) and c ( n ) are the codewords of the adaptive and fixed dictionaries respectively, and ĝ p and ĝ c are the associated decoded gains. This excitation u' ( n ) is used in the adaptive dictionary of the next subframe; it is then post-processed and we distinguish, as in G.718, the excitation u'(n) (also denoted exc) from its modified post-processed version u(n) (also denoted exc2) which serves as input to the synthesis filter, 1/ Â(z), in block 303. In variants which can be implemented for the invention, the post-processings applied to the excitation can be modified (for example, the phase dispersion can be post-processings can be extended (for example, a reduction of the inter-harmonic noise can be implemented), without affecting the nature of the band extension method according to the invention.
  • Synthesis filtering by 1/ Â (z) (block 303) where the decoded LPC filter A(z) is of order 16
  • Narrowband post-processing (block 304) according to clause 7.3 of G.718 if fs=8 kHz.
  • De-emphasis (block 305) by filter 1/ (1 - 0.68 z -1 )
  • Low frequency post-processing (block 306) as described in clause 7.14.1.1 of G.718. This processing introduces a delay which is taken into account in the decoding of the high band (>6.4 kHz).
  • Resampling the internal frequency of 12.8 kHz to the output frequency fs (block 307). Several realizations are possible. Without loss of generality, it is considered here as an example that if fs=8 or 16 kHz, the resampling described in clause 7.6 of G.718 is repeated here, and if fs =32 or 48 kHz, additional finite impulse response (FIR) filters are used.
  • Calculation of the parameters of the " noise gate " (block 308) which is carried out preferentially as described in clause 7.14.3 of G.718.

Dans des variantes qui peuvent être mises en oeuvre pour l'invention, les post-traitements appliqués à l'excitation peuvent être modifiés (par exemple, la dispersion de phase peut être améliorée) ou ces post-traitements peuvent être étendus (par exemple, une réduction du bruit inter-harmonique peut être mise en oeuvre), sans affecter la nature de l'extension de bande. On ne décrit pas ici le cas du décodage de la bande basse lorsque la trame courante est perdue (bfi=1) qui est informatif dans la norme 3GPP AMR-WB ; en général, qu'il s'agisse du décodeur AMR-WB ou d'un décodeur général s'appuyant sur le modèle source-filtre, il s'agit typiquement d'estimer au mieux l'excitation LPC et les coefficients du filtre LPC de synthèse afin de reconstituer le signal perdu en gardant le modèle source-filtre. Lorsque bfi=1 on considère ici que l'extension de bande (bloc 309) peut fonctionner comme dans le cas bfi=0 et un débit <23.85 kbit/s ; ainsi, la description de l'invention supposera par la suite et sans perte de généralité que bfi=0. In variants which can be implemented for the invention, the post-processings applied to the excitation can be modified (for example, the phase dispersion can be improved) or these post-processings can be extended (for example, a reduction of the inter-harmonic noise can be implemented), without affecting the nature of the band extension. The case of the decoding of the low band when the current frame is lost (bfi=1) which is informative in the 3GPP AMR-WB standard is not described here; in general, whether it is the AMR-WB decoder or a general decoder based on the source-filter model, it is typically a question of best estimating the LPC excitation and the coefficients of the synthesis LPC filter in order to reconstitute the lost signal while keeping the source-filter model. When bfi=1 it is considered here that the band extension (block 309) can operate as in the case bfi =0 and bit rate <23.85 kbit/s; thus, the description of the invention will hereafter assume and without loss of generality that bfi =0 .

On peut noter que l'utilisation des blocs 306, 308, 314 est optionnelle.It may be noted that the use of blocks 306, 308, 314 is optional.

On notera également que le décodage de la bande basse décrit ci-dessus suppose une trame courante dite « active » avec un débit entre 6.6 et 23.85 kbit/s. En fait, quand le mode DTX (transmission continue en français) est activé, certaines trames peuvent être codées comme « inactives » et dans ce cas on peut soit transmettre un descripteur de silence (sur 35 bits) soit ne rien transmettre. En particulier, on rappelle que la trame SID du codeur AMR-WB décrit plusieurs paramètres : paramètres ISF moyennés sur 8 trames, énergie moyenne sur 8 trames, "flag de dithering" pour la reconstruction de bruit non stationnaire. Dans tous les cas, au décodeur, on retrouve le même modèle de décodage que pour une trame active, avec une reconstruction de l'excitation et d'un filtre LPC pour la trame courante, ce qui permet d'appliquer l'invention même sur des trames inactives. Le même constat s'applique pour le décodage de « trames perdues » (ou FEC, PLC) dans lequel le modèle LPC est appliqué.It will also be noted that the decoding of the low band described above assumes a current so-called “active” frame with a bit rate between 6.6 and 23.85 kbit/s. In fact, when the DTX mode (continuous transmission in French) is activated, some frames can be coded as "inactive" and in this case you can either transmit a silence descriptor (on 35 bits) or transmit nothing. In particular, it is recalled that the SID frame of the AMR-WB coder describes several parameters: ISF parameters averaged over 8 frames, average energy over 8 frames, "dithering flag" for the reconstruction of non-stationary noise. In all cases, at the decoder, the same decoding model is found as for an active frame, with reconstruction of the excitation and of an LPC filter for the current frame, which makes it possible to apply the invention even to inactive frames. The same observation applies for the decoding of “lost frames” (or FEC, PLC) in which the LPC model is applied.

Cet exemple de décodeur fonctionne dans le domaine de l'excitation et comporte donc une étape de décodage du signal d'excitation bande basse. Le dispositif d'extension de bande et le procédé d'extension de bande au sens de l'invention fonctionne également dans un domaine différent du domaine de l'excitation et notamment avec un signal direct décodé en bande basse ou un signal pondéré par un filtre perceptuel.This exemplary decoder operates in the excitation domain and therefore includes a step for decoding the low-band excitation signal. The band extension device and the band extension method within the meaning of the invention also operate in a domain different from the domain of excitation and in particular with a direct signal decoded in low band or a signal weighted by a perceptual filter.

Contrairement au décodage AMR-WB ou G.718, le décodeur décrit permet d'étendre la bande basse décodée (50-6400 Hz en tenant en compte du filtrage passe-haut à 50 Hz au décodeur, 0-6400 Hz dans le cas général) à une bande étendue dont la largeur varie, allant approximativement de 50-6900 Hz à 50-7700 Hz en fonction du mode mis en oeuvre dans la trame courante. On peut ainsi parler d'une première bande de fréquence de 0 à 6400Hz et d'une deuxième bande de fréquence de 6400 à 8000Hz. En réalité, dans le mode de réalisation privilégié, l'excitation pour les hautes fréquences et généré dans le domaine fréquentiel dans une bande de 5000 à 8000 Hz, pour permettre un filtrage passe-bande de largeur 6000 à 6900 ou 7700 Hz dont la pente n'est pas trop raide dans la bande supérieure rejetée.Unlike AMR-WB or G.718 decoding, the decoder described makes it possible to extend the decoded low band (50-6400 Hz taking into account the high-pass filtering at 50 Hz at the decoder, 0-6400 Hz in the general case) to an extended band whose width varies, ranging approximately from 50-6900 Hz to 50-7700 Hz depending on the mode implemented in the current frame. We can thus speak of a first frequency band from 0 to 6400Hz and of a second frequency band from 6400 to 8000Hz. In reality, in the preferred embodiment, the excitation for high frequencies is generated in the frequency domain in a band from 5000 to 8000 Hz, to allow a bandpass filtering of width 6000 to 6900 or 7700 Hz whose slope is not too steep in the upper rejected band.

La partie synthèse bande haute est réalisée dans le bloc 309 représentant le dispositif d'extension de bande selon l'invention et qui est détaillé à la figure 5 dans un mode de réalisation.The high band synthesis part is carried out in the block 309 representing the band extension device according to the invention and which is detailed in figure 5 in one embodiment.

Afin d'aligner les bandes basses et hautes décodées, un retard (bloc 310) est introduit pour synchroniser les sorties des blocs 306 et 309 et la bande haute synthétisée à 16 kHz est ré-échantillonnée de 16 kHz à la fréquence fs (sortie de bloc 311). La valeur du retard T devra être adaptée pour les autres cas (fs=32, 48 kHz) en fonction des traitements mis en oeuvre. On rappelle que quand fs=8 kHz, il n'est pas nécessaire d'appliquer les blocs 309 à 311 car la bande du signal en sortie du décodeur est limité à 0-4000 Hz.In order to align the decoded low and high bands, a delay (block 310) is introduced to synchronize the outputs of blocks 306 and 309 and the synthesized 16 kHz high band is resampled by 16 kHz at frequency fs (output of block 311). The value of the delay T will have to be adapted for the other cases ( fs =32.48 kHz) according to the processing implemented. Remember that when fs =8 kHz, it is not necessary to apply blocks 309 to 311 because the band of the signal at the output of the decoder is limited to 0-4000 Hz.

A noter que le procédé d'extension de l'invention mis en oeuvre dans le bloc 309 selon le premier mode de réalisation n'introduit de façon préférentielle aucun retard supplémentaire par rapport à la bande basse reconstruite à 12.8 kHz ; cependant, dans des variantes de l'invention (par exemple en utilisant une transformation temps/fréquence avec recouvrement), un retard pourra être introduit. Ainsi, de façon générale la valeur de T dans le bloc 310 devra être ajustée en fonction de la mise en oeuvre spécifique. Par exemple dans le cas où le post-traitement des basses fréquences (bloc 306) n'est pas utilisé, le retard à introduire pour fs=16 kHz pourra être fixé à T=15.It should be noted that the extension method of the invention implemented in block 309 according to the first embodiment preferentially does not introduce any additional delay with respect to the reconstructed low band at 12.8 kHz; however, in variants of the invention (for example using a time/frequency transformation with overlap), a delay may be introduced. Thus, generally the value of T in block 310 will need to be adjusted depending on the specific implementation. For example, in the case where the post-processing of low frequencies (block 306) is not used, the delay to be introduced for fs =16 kHz could be fixed at T =15.

Les bandes basse et haute sont ensuite combinées (ajoutées) dans le bloc 312 et la synthèse obtenue est post-traitée par filtrage passe-haut à 50 Hz (de type IIR) d'ordre 2 dont les coefficients dépendent de la fréquence fs (bloc 313) et post-traitement de sortie avec application optionnelle du "noise gate" de façon similaire à G.718 (bloc 314).The low and high bands are then combined (added) in block 312 and the synthesis obtained is post-processed by high-pass filtering at 50 Hz (of IIR type) of order 2 whose coefficients depend on the frequency fs (block 313) and output post-processing with optional application of the " noise gate " in a manner similar to G.718 (block 314).

Le dispositif d'extension de bande selon l'invention, illustré par le bloc 309 selon le mode de réalisation du décodeur de la figure 5, met en oeuvre un procédé d'extension de bande (au sens large) décrit maintenant en référence à la figure 4 . The band extender according to the invention, illustrated by block 309 according to the decoder embodiment of the figure 5 , implements a band extension method (in the broad sense) described now with reference to the figure 4 .

Ce dispositif d'extension peut également être indépendant du décodeur et peut mettre en oeuvre le procédé décrit à la figure 4 pour effectuer une extension de bande d'un signal audio existant stocké ou transmis au dispositif, avec une analyse du signal audio pour en extraire par exemple une excitation et un filtre LPC.This extension device can also be independent of the decoder and can implement the method described in figure 4 to carry out a band extension of an existing audio signal stored or transmitted to the device, with an analysis of the audio signal to extract therefrom for example an excitation and an LPC filter.

Ce dispositif reçoit en entrée un signal décodé dans une première bande de fréquence dite bande basse u(n) qui peut être dans le domaine de l'excitation ou dans celui du signal. Dans le mode de réalisation décrit ici, une étape de décomposition en sous-bandes (E401b) par transformée temps fréquence ou banc de filtres est appliquée au signal décodé bande basse pour obtenir le spectre du signal décodé bande basse U(k) pour une mise en oeuvre dans le domaine fréquentiel.This device receives as input a decoded signal in a first frequency band called the low band u ( n ) which can be in the field of excitation or in that of the signal. In the embodiment described here, a step of decomposition into sub-bands (E401b) by time-frequency transform or bank of filters is applied to the decoded low-band signal to obtain the spectrum of the decoded low-band signal U ( k ) for implementation in the frequency domain.

Une étape E401a d'extension du signal décodé bande basse dans une deuxième bande de fréquence supérieure à la première bande de fréquence, pour obtenir un signal décodé bande basse étendu U HB1(k) , peut être effectuée sur ce signal décodé bande basse avant ou après l'étape d'analyse (décomposition en sous-bandes). Cette étape d'extension peut comporter à la fois une étape de ré-échantillonnage et une étape d'extension ou simplement une étape de translation ou transposition fréquentielle en fonction du signal obtenu en entrée. On notera que dans des variantes, l'étape E401a pourra être effectuée à la fin du traitement décrit à la figure 4,, c'est-à-dire sur le signal combiné, ce traitement étant alors principalement réalisé sur le signal bande basse avant extension, le résultat étant équivalent.A step E401a of extending the low band decoded signal into a second frequency band higher than the first frequency band, to obtain an extended low band decoded signal U HB 1 ( k ), can be performed on this low band decoded signal before or after the analysis step (decomposition into sub-bands). This extension step can comprise both a resampling step and an extension step or simply a frequency translation or transposition step as a function of the signal obtained as input. Note that in variants, step E401a may be performed at the end of the processing described in figure 4 ,, that is to say on the combined signal, this processing then being mainly carried out on the low band signal before extension, the result being equivalent.

Cette étape est détaillée ultérieurement dans le mode de réalisation décrit en référence à la figure 5.This step is detailed later in the embodiment described with reference to the figure 5 .

Une étape E402 d'extraction d'un signal d'ambiance (UHBA (k)) et de composantes tonales (y(k)) est effectuée à partir du signal bande basse décodé (U(k)) ou décodé et étendu (U HB1(k)). On définit ici l'ambiance comme le signal résiduel qui est obtenu en supprimant dans le signal existant les harmoniques (ou composantes tonales) principales (ou dominantes).A step E402 of extracting an ambient signal ( U HBA ( k )) and tonal components (y(k)) is performed from the decoded low band signal ( U ( k )) or decoded and extended ( U HB 1 ( k )) . Ambiance is defined here as the residual signal which is obtained by removing the main (or dominant) harmonics (or tonal components) from the existing signal.

Dans la plupart des signaux en bande élargie (échantillonnés à 16 kHz), la bande haute (>6 kHz) contient une information d'ambiance qui est en général similaire à celle présente dans la bande basse.In most wideband signals (sampled at 16 kHz), the high band (>6 kHz) contains ambient information that is generally similar to that present in the low band.

L'étape d'extraction des composantes tonales et du signal d'ambiance comprend par exemple les étapes suivantes:

  • détection des composantes tonales dominantes du signal bande basse décodé (ou décodé et étendu), dans le domaine fréquentiel; et
  • calcul d'un signal résiduel par extraction des composantes tonales dominantes pour obtenir le signal d'ambiance.
The step of extracting the tonal components and the ambient signal comprises for example the following steps:
  • detection of the dominant tonal components of the decoded (or decoded and extended) low-band signal, in the frequency domain; And
  • calculating a residual signal by extracting the dominant tonal components to obtain the ambient signal.

Cette étape peut également être obtenue par:

  • obtention du signal d'ambiance par calcul d'une moyenne du signal bande basse décodé (ou décodé et étendu); et
  • obtention des composantes tonales par soustraction du signal d'ambiance calculé au signal bande basse décodé (ou décodé et étendu).
This step can also be achieved by:
  • obtaining the ambient signal by calculating an average of the decoded (or decoded and extended) low-band signal; And
  • obtaining the tonal components by subtracting the calculated ambient signal from the decoded (or decoded and extended) low-band signal.

Les composantes tonales et le signal d'ambiance sont ensuite combinés de façon adaptative à l'aide de facteurs de contrôle de niveau d'énergie à l'étape E403 pour obtenir un signal dit combiné (U HB2(k)). L'étape d'extension E401a peut alors être mise en oeuvre si elle n'a pas été déjà effectuée sur le signal bande basse décodé.The tonal components and the ambient signal are then combined adaptively using energy level control factors in step E403 to obtain a so-called combined signal ( U HB 2 ( k )). The extension step E401a can then be implemented if it has not already been performed on the decoded low band signal.

Ainsi, la combinaison de ces deux types de signaux permet d'obtenir un signal combiné avec des caractéristiques plus adaptées à certains types de signaux comme des signaux musicaux et plus riche en contenu fréquentiel et dans la bande de fréquence étendue correspondant à toute la bande de fréquence incluant la première et la deuxième bande de fréquence.Thus, the combination of these two types of signals makes it possible to obtain a combined signal with characteristics more suited to certain types of signals such as musical signals and richer in frequency content and in the extended frequency band corresponding to the entire frequency band including the first and the second frequency band.

L'extension de bande selon le procédé améliore la qualité pour ce type de signaux par rapport à l'extension décrite dans la norme AMR-WB.Band extension according to the method improves the quality for this type of signal compared to the extension described in the AMR-WB standard.

Le fait d'utiliser une combinaison de signal d'ambiance et de composantes tonales permet d'enrichir ce signal d'extension pour le rendre plus proche des caractéristiques du vrai signal et non pas d'un signal artificiel.The fact of using a combination of ambient signal and tonal components makes it possible to enrich this extension signal to make it closer to the characteristics of the real signal and not to an artificial signal.

Cette étape de combinaison sera détaillée ultérieurement en référence à la figure 5.This combination step will be detailed later with reference to the figure 5 .

Une étape de synthèse, qui correspond à l'analyse en 401b, est effectuée en E404b pour ramener le signal dans le domaine temporel.A synthesis step, which corresponds to the analysis at 401b, is carried out at E404b to bring the signal back into the time domain.

De façon optionnelle, une étape d'ajustement de niveau d'énergie du signal bande haute peut être effectuée en E404a, avant et/ou après l'étape de synthèse, par application d'un gain et/ou par filtrage adéquat. Cette étape sera expliquée plus en détails dans le mode de réalisation décrit à la figure 5 pour les blocs 501 à 507.Optionally, a step of adjusting the energy level of the high band signal can be performed in E404a, before and/or after the synthesis step, by applying a gain and/or by suitable filtering. This step will be explained in more detail in the embodiment described in figure 5 for blocks 501 to 507.

Dans un exemple de réalisation, le dispositif d'extension de bande 500 est décrit maintenant en référence à la figure 5 illustrant à la fois ce dispositif mais aussi des modules de traitement adaptés à la mise en oeuvre dans un décodeur de type interopérable avec un codage AMR-WB. Ce dispositif 500 met en oeuvre le procédé d'extension de bande décrit précédemment en référence à la figure 4.In an exemplary embodiment, tape expander 500 is now described with reference to figure 5 illustrating both this device but also processing modules suitable for implementation in a decoder of the interoperable type with AMR-WB coding. This device 500 implements the band extension method previously described with reference to the figure 4 .

Ainsi, le bloc de traitement 510 reçoit un signal bande basse décodé (u(n)). Dans un mode de réalisation particulier, l'extension de bande utilise l'excitation décodée à 12.8 kHz (exc2 ou u(n) ) en sortie du bloc 302 de la figure 3.Thus, processing block 510 receives a decoded low band signal ( u ( n )). In a particular embodiment, the band extension uses the decoded excitation at 12.8 kHz (exc2 or u ( n ) ) at the output of block 302 of the picture 3 .

Ce signal est décomposé en sous-bandes de fréquence par le module de décomposition en sous-bandes 510 (qui met en oeuvre l'étape E401b de la figure 4) qui réalise en général une transformée ou applique un banc de filtres, pour obtenir une décomposition en sous-bandes U(k) du signal u(n) . This signal is decomposed into frequency sub-bands by the sub-band decomposition module 510 (which implements step E401b of the figure 4 ) which generally performs a transform or applies a bank of filters, to obtain a decomposition into sub-bands U(k) of the signal u(n).

Dans un mode de réalisation particulier, une transformée de type DCT-IV (pour "Discrete Cosine Transform" - Type IV en anglais) (bloc 510) est appliquée sur la trame courante de 20 ms (256 échantillons), sans fenêtrage, ce qui revient à transformer directement u(n) avec n = 0,···,255 selon la formule suivante : U k = n = 0 N 1 u n cos π N n + 1 2 k + 1 2

Figure imgb0009
N = 256 et k = 0,···,255. In a particular embodiment, a DCT-IV type transform (for " Discrete Cosine Transform " - Type IV in English) (block 510) is applied to the current frame of 20 ms (256 samples), without windowing, which amounts to directly transforming u(n) with n = 0.255 according to the following formula: U k = not = 0 NOT 1 a not cos π NOT not + 1 2 k + 1 2
Figure imgb0009
where N = 256 and k = 0.255 .

Une transformation sans fenêtrage (ou de façon équivalente avec une fenêtre rectangulaire implicite de la longueur de la trame) est possible lorsque le traitement est effectué dans le domaine de l'excitation, et non le domaine du signal. Dans ce cas aucun artefact (effets de bloc) n'est audible, ce qui constitue un avantage important de ce mode de réalisation de l'invention.A windowless transformation (or equivalently with an implicit rectangular window of the frame length) is possible when the processing is done in the excitation domain, not the signal domain. In this case, no artefact (block effects) is audible, which constitutes an important advantage of this embodiment of the invention.

Dans ce mode de réalisation, la transformation DCT-IV est mise en oeuvre par FFT suivant l'algorithme dit « Evolved DCT(EDCT) » décrit dans l'article de D.M. Zhang, H.T. Li, A Low Complexity Transform - Evolved DCT, IEEE 14th International Conférence on Computational Science and Engineering (CSE), Aug. 2011, pp. 144-149 , et mis en oeuvre dans les normes UIT-T G.718 Annex B et G.729.1 Annex E.In this embodiment, the DCT-IV transformation is implemented by FFT according to the so-called “ Evolved DCT (EDCT)” algorithm described in the article by DM Zhang, HT Li, A Low Complexity Transform - Evolved DCT, IEEE 14th International Conference on Computational Science and Engineering (CSE), Aug. 2011, p. 144-149 , and implemented in ITU-T G.718 Annex B and G.729.1 Annex E.

Dans des variantes de l'invention et sans perte de généralité, la transformation DCT-IV pourra être remplacée par d'autres transformations temps-fréquences court-terme de même longueur et dans le domaine de l'excitation ou dans le domaine du signal, comme une FFT (pour "Fast Fourier Transform" en anglais) ou une DCT-II (Discrete Cosine Transform - Type II). De façon alternative, on pourra remplacer la DCT-IV sur la trame par une transformation avec recouvrement-addition et fenêtrage de longueur supérieure à la longueur de la trame courante, par exemple en utilisant une MDCT (pour "Modified Discrète Cosine Tranform" en anglais). Dans ce cas le retard T dans le bloc 310 de la figure 3, devra être ajusté (réduit) de façon adéquate en fonction du retard additionnel dû à l'analyse/synthèse par cette transformée.In variants of the invention and without loss of generality, the DCT-IV transformation may be replaced by other short-term time-frequency transformations of the same length and in the excitation domain or in the signal domain, such as an FFT (for " Fast Fourier Transform" ) or a DCT-II ( Discrete Cosine Transform - Type II). Alternatively, the DCT-IV on the frame can be replaced by a transformation with overlap-addition and windowing of length greater than the length of the current frame, for example by using an MDCT (for “ Modified Discrete Cosine Tranform ”). In this case the delay T in block 310 of the picture 3 , will have to be adjusted (reduced) in an adequate way according to the additional delay due to the analysis/synthesis by this transform.

Dans un autre mode de réalisation, la décomposition en sous-bandes est effectuée par l'application d'un banc de filtres, par exemple de type PQMF (Pseudo-QMF) réels ou complexes. Pour certains bancs de filtres, on obtient, pour chaque sous-bande dans une trame donnée, non pas une valeur spectrale mais une série de valeurs temporelles associée à la sous-bande ; dans ce cas, le mode de réalisation privilégié dans l'invention peut être appliqué en réalisant par exemple une transformée de chaque sous-bande et en calculant le signal d'ambiance dans le domaine des valeurs absolues, les composantes tonales étant toujours obtenues par différence entre le signal (en valeur absolue) et le signal d'ambiance. Dans le cas d'un banc de filtre complexe, le module complexe des échantillons remplacera la valeur absolue.In another embodiment, the decomposition into sub-bands is performed by applying a bank of filters, for example of real or complex PQMF (Pseudo-QMF) type. For certain banks of filters, one obtains, for each sub-band in a given frame, not a spectral value but a series of temporal values associated with the sub-band; in this case, the preferred embodiment in the invention can be applied by carrying out for example a transform of each sub-band and by calculating the ambient signal in the domain of absolute values, the tonal components always being obtained by difference between the signal (in absolute value) and the ambient signal. In the case of a complex filter bank, the complex modulus of the samples will replace the absolute value.

Dans d'autres modes de réalisation, l'invention sera appliquée dans un système utilisant deux sous-bandes, la bande basse étant analysée par transformée ou par banc de filtres.In other embodiments, the invention will be applied in a system using two sub-bands, the low band being analyzed by transform or by bank of filters.

Dans le cas d'une DCT, le spectre DCT, U(k), de 256 échantillons couvrant la bande 0-6400 Hz (à 12.8 kHz), est ensuite étendu (bloc 511) en un spectre de 320 échantillons couvrant la bande 0-8000 Hz (à 16 kHz) sous la forme suivante : U HB 1 k = { 0 k = 0 , , 199 U k k = 200 , , 239 U k + start _ band 240 k = 240 , , 319

Figure imgb0010
où on prend de façon préférentielle start_band = 160.In the case of a DCT, the DCT spectrum, U(k), of 256 samples covering the band 0-6400 Hz (at 12.8 kHz), is then extended (block 511) into a spectrum of 320 samples covering the band 0-8000 Hz (at 16 kHz) in the following form: U HB 1 k = { 0 k = 0 , , 199 U k k = 200 , , 239 U k + start _ band 240 k = 240 , , 319
Figure imgb0010
where we preferentially take start_band = 160.

Le bloc 511 met en oeuvre l'étape E401a de la figure 4, c'est-à-dire l'extension du signal décodé bande basse. Cette étape peut également comporter un ré-échantillonnage de 12.8 à 16 kHz dans le domaine fréquentiel, en rajoutant ¼ d'échantillons (k = 240,···,319) au spectre, le ratio entre 16 et 12.8 étant de 5/4.Block 511 implements step E401a of the figure 4 , that is to say the extension of the low band decoded signal. This step can also include resampling from 12.8 to 16 kHz in the frequency domain, by adding ¼ samples (k = 240,···,319) to the spectrum, the ratio between 16 and 12.8 being 5/4.

Dans la bande de fréquence correspondant aux échantillons allant des indices 200 à 239, le spectre original est conservé, pour pouvoir y appliquer une réponse d'atténuation progressive du filtre passe-haut dans cette bande de fréquence et aussi pour ne pas introduire de défauts audibles lors de l'étape d'addition de la synthèse basse fréquence à la synthèse haute fréquence.In the frequency band corresponding to the samples ranging from the indices 200 to 239, the original spectrum is kept, in order to be able to apply a progressive attenuation response of the high-pass filter in this frequency band and also so as not to introduce audible defects during the step of adding the low-frequency synthesis to the high-frequency synthesis.

On notera que dans ce mode de réalisation, la génération du spectre étendu sur-échantillonné s'effectue dans une bande de fréquence allant de 5 à 8 kHz incluant donc une deuxième bande de fréquence (6.4-8kHz) supérieure à la première bande de fréquence (0-6.4 kHz).It will be noted that in this embodiment, the generation of the oversampled extended spectrum is carried out in a frequency band ranging from 5 to 8 kHz, therefore including a second frequency band (6.4-8 kHz) higher than the first frequency band (0-6.4 kHz).

Ainsi, l'extension du signal bande basse décodé s'effectue au moins sur la deuxième bande de fréquence mais aussi sur une partie de la première bande de fréquence.Thus, the extension of the decoded low band signal takes place at least on the second frequency band but also on part of the first frequency band.

Bien évidemment, les valeurs définissant ces bandes de fréquences peuvent être différentes selon le décodeur ou le dispositif de traitement dans lequel l'invention s'applique.Obviously, the values defining these frequency bands can be different depending on the decoder or the processing device in which the invention applies.

De plus, le bloc 511 réalise un filtrage passe-haut implicite dans la bande 0-5000 Hz puisque les 200 premiers échantillons de U HB1(k) sont mis à zéro ; comme expliqué plus tard, ce filtrage passe-haut peut également être complété par une partie d'atténuation progressive des valeurs spectrales d'indices k =200,···,255 dans la bande 5000-6400 Hz, cette atténuation progressive est mise en oeuvre dans le bloc 501 mais pourrait être réalisée séparément en dehors du bloc 501. De façon équivalente et dans des variantes de l'invention, la mise en oeuvre du filtrage passe-haut séparée en blocs de coefficients d'indice k = 0,···,199 mis à zéro, de coefficients k = 200,···,255 atténués, dans le domaine transformé, pourra donc être effectué en une seule étape.In addition, block 511 performs implicit high-pass filtering in the 0-5000 Hz band since the first 200 samples of U HB 1 ( k ) are set to zero; as explained later, this high-pass filtering can also be supplemented by a part of progressive attenuation of the spectral values of indices k =200,····,255 in the 5000-6400 Hz band, this progressive attenuation is implemented in block 501 but could be carried out separately outside of block 501. Equivalently and in variants of the invention, the implementation of the high-pass filtering separated into blocks of coefficients of index k=0, ···,199 set to zero, with coefficients k =200,····,255 attenuated, in the transformed domain, can therefore be carried out in a single step.

Dans cet exemple de réalisation et selon la définition de U HB1(k), on remarque que la bande 5000-6000 Hz de U HB1(k) (qui correspond aux indices k = 200,···,239) est copiée à partir de la bande 5000-6000 Hz de U(k) . Cette approche permet de conserver le spectre original dans cette bande et elle évite d'introduire des distorsions dans la bande 5000-6000 Hz lors de l'addition de la synthèse HF avec la synthèse BF - en particulier la phase du signal (implicitement représentée dans le domaine DCT-IV) dans cette bande est préservée.In this embodiment and according to the definition of U HB 1 ( k ), we note that the 5000-6000 Hz band of U HB 1 ( k ) (which corresponds to the indices k = 200, 239) is copied from the 5000-6000 Hz band of U(k). This approach preserves the original spectrum in this band and it avoids introducing distortions in the 5000-6000 Hz band when adding HF synthesis with LF synthesis - in particular the signal phase (implicitly represented in the DCT-IV domain) in this band is preserved.

La bande 6000-8000 Hz de U HB1(k) est ici définie en copiant la bande 4000-6000 Hz de U(k) puisque la valeur de start_band est fixée préférentiellement à 160.The 6000-8000 Hz band of U HB 1 ( k ) is here defined by copying the 4000-6000 Hz band of U(k) since the value of start_band is preferentially fixed at 160.

Dans une variante du mode de réalisation, la valeur de start_band pourra être rendue adaptative autour de la valeur de 160, sans modifier la nature de l'invention. Les détails de l'adaptation de la valeur start_band ne sont pas décrits ici car ils dépassent le cadre de l'invention sans en changer la portée.In a variant of the embodiment, the value of start_band could be made adaptive around the value of 160, without modifying the nature of the invention. The details of the adaptation of the start_band value are not described here because they exceed the scope of the invention without changing the scope thereof.

Dans la plupart des signaux en bande élargie (échantillonnés à 16 kHz), la bande haute (>6 kHz) contient une information d'ambiance qui est naturellement similaire à celle présente dans la bande basse. On définit ici l'ambiance comme le signal résiduel qui est obtenu en supprimant dans le signal existant les harmoniques principales (ou dominantes).Le niveau d'harmonicité dans la bande 6000-8000 Hz est généralement corrélé à celui des bandes de fréquences inférieures.In most wideband signals (sampled at 16 kHz), the high band (>6 kHz) contains ambient information that is naturally similar to that present in the low band. Ambiance is defined here as the residual signal which is obtained by removing the main (or dominant) harmonics from the existing signal. level of harmonicity in the 6000-8000 Hz band is generally correlated with that of lower frequency bands.

Ce signal bande basse décodé et étendu est fourni en entrée du dispositif d'extension 500 et notamment en entrée du module 512. Ainsi le bloc 512 d'extraction de composantes tonales et d'un signal d'ambiance, met en oeuvre l'étape E402 de la figure 4 dans le domaine fréquentiel. Le signal d'ambiance, U HBA(k) pour k =240,···,319 (80 échantillons) est ainsi obtenu pour une deuxième bande de fréquence dite haute fréquence afin de le combiner ensuite de façon adaptative aux composantes tonales extraites y(k), dans le bloc de combinaison 513.This decoded and extended low-band signal is supplied at the input of the extension device 500 and in particular at the input of the module 512. Thus the block 512 for extracting tonal components and an ambient signal implements step E402 of the figure 4 in the frequency domain. The ambient signal, U HBA ( k ) for k =240.319 (80 samples) is thus obtained for a second so-called high frequency frequency band in order to then combine it adaptively with the extracted tonal components y(k), in the combination block 513.

Dans un mode de réalisation particulier, l'extraction des composantes tonales et du signal d'ambiance (dans la bande 6000-8000 Hz) est effectuée selon opérations suivantes:

  • Calcul de l'énergie totale du signal bande basse décodé étendu enerHB : ener HB = k = 240 319 U HB 1 k 2 + ε
    Figure imgb0011
    où ε=0.1 (cette valeur peut être différente, elle est fixée ici à titre d'exemple).
  • Calcul de l'ambiance (en valeur absolue) qui correspond ici au niveau moyen du spectre lev(i) (raie par raie) et calcul de l'énergie enertonal des parties tonales dominantes (dans le spectre hautes fréquences)
In a particular embodiment, the extraction of the tonal components and of the ambient signal (in the 6000-8000 Hz band) is carried out according to the following operations:
  • Calculation of the total energy of the extended decoded low band signal ener HB : ener HB = k = 240 319 U HB 1 k 2 + ε
    Figure imgb0011
    where ε=0.1 (this value can be different, it is set here as an example).
  • Calculation of the ambience (in absolute value) which here corresponds to the average level of the lev ( i ) spectrum (line by line) and calculation of the ener tonal energy of the dominant tonal parts (in the high frequency spectrum)

Pour i = 0... L - 1, on obtient ce niveau moyen par l'équation suivante: lev i = 1 fn i fb i + 1 j = fb i fn i U HB 1 j + 240

Figure imgb0012
For i = 0... L - 1, this average level is obtained by the following equation: up I = 1 fn I fb I + 1 I = fb I fn I U HB 1 I + 240
Figure imgb0012

Ceci correspond au niveau moyen (en valeur absolu) et représente donc une sorte d'enveloppe du spectre. Dans ce mode de réalisation, L = 80 et représente la longueur du spectre et l'indice i de 0 à L-1 correspond aux indices j+240 de 240 à 319, soit le spectre de 6 à 8 kHz.This corresponds to the average level (in absolute value) and therefore represents a kind of envelope of the spectrum. In this embodiment, L =80 and represents the length of the spectrum and the index i from 0 to L -1 corresponds to the indices j +240 from 240 to 319, ie the spectrum from 6 to 8 kHz.

En général fb(i) = i -7 et fn(i) = i + 7, cependant les 7 premiers et derniers indices ( i = 0,···,6 et i = L - 7,···, L-1) demandent un traitement spécial et sans perte de généralité on définit alors : fb i = 0 et fn i = i + 7 pour i = 0 , , 6

Figure imgb0013
fb i = i 7 et fn i = L 1 pour i = L 7 , , L 1
Figure imgb0014
In general fb ( i ) = i -7 and fn ( i ) = i + 7, however the first and last 7 indices ( i = 0,···,6 and i = L - 7,···, L-1) require special treatment and without loss of generality we then define: fb I = 0 And fn I = I + 7 For I = 0 , , 6
Figure imgb0013
fb I = I 7 And fn I = I 1 For I = I 7 , , I 1
Figure imgb0014

Dans des variantes de l'invention, la moyenne de |U HS1(j+240)|, j = jb(i),..., fn(i), pourra être remplacée par une valeur médiane sur le même ensemble de valeurs, soit lev(i) = median j=fb(i),...,fn(i)(|U HB1(j +240)| Cette variante a le défaut d'être plus complexe (en termes de nombre de calculs) qu'une moyenne glissante. Dans d'autres variantes une pondération non-uniforme pourra être appliquée aux termes moyennés, ou le filtrage médian pourra être remplacé par exemple par d'autres filtres non linéaires de type « stack filters ».In variants of the invention, the average of | U HS 1 ( j +240)|, j = jb ( i ),..., fn ( i ) , can be replaced by a median value on the same set of values, i.e. lev ( i ) = median j=fb ( i ),..., fn ( i ) (| U HB 1 ( j +240)| This variant has the drawback of being more complex (in terms of number of calculations) than a moving average. In other variants, a non-uniform weighting may be applied to the averaged terms, or the median filtering may be replaced, for example, by other nonlinear filters of the “ stack filters ” type.

On calcule également le signal résiduel: y i = U HB 1 i + 240 lev i , i = 0 , , L 1

Figure imgb0015
qui correspond (approximativement) aux composantes tonales si la valeur y(i) à une raie i donnée est positive ( y(i) >0).We also calculate the residual signal: there I = U HB 1 I + 240 up I , I = 0 , , I 1
Figure imgb0015
which corresponds (approximately) to the tonal components if the value y(i) at a given line i is positive (y( i ) >0).

Ce calcul fait donc intervenir une détection implicite des composantes tonales. Les parties tonales sont donc implicitement détectées à l'aide du terme intermédiaire y(i) représentant un seuil adaptatif. La condition de détection étant y(i) >0. Dans des variantes de l'invention cette condition pourra être changée par exemple en définissant un seuil adaptatif fonction de l'enveloppe locale du signal ou sous la forme y(i) > lev(i)+ xdBx a une valeur prédéfinie (par exemple x =10 dB).This calculation therefore involves an implicit detection of the tonal components. The tonal parts are therefore implicitly detected using the intermediate term y(i) representing an adaptive threshold. The detection condition being y( i ) >0. In variants of the invention, this condition may be changed for example by defining an adaptive threshold depending on the local envelope of the signal or in the form y( i )> lev ( i )+ xdB where x has a predefined value (for example x =10 dB).

L'énergie des parties tonales dominantes est définie par l'équation suivante: ener tonal = i = 0 7 y i > 0 y i 2

Figure imgb0016
The energy of the dominant tonal parts is defined by the following equation: ener tonal = I = 0 7 there I > 0 there I 2
Figure imgb0016

D'autres méthodes d'extraction du signal d'ambiance peuvent bien sûr être envisagées. Par exemple, ce signal d'ambiance peut être extrait d'un signal basse fréquence ou éventuellement une autre bande de fréquence (ou plusieurs bandes de fréquence).Other methods of extracting the ambient signal can of course be envisaged. For example, this ambient signal can be extracted from a low frequency signal or possibly another frequency band (or several frequency bands).

La détection des pics ou composantes tonales pourra être faite différemment.The detection of the peaks or tonal components could be done differently.

L'extraction de ce signal d'ambiance pourrait également être fait sur l'excitation décodé mais pas étendu, c'est-à-dire avant l'étape d'extension ou de translation spectrale, c'est-à-dire par exemple sur une portion du signal basse fréquence plutôt que directement sur le signal haute fréquence.The extraction of this ambient signal could also be done on the decoded excitation but not extended, that is to say before the spectral extension or translation step, that is to say for example on a portion of the low frequency signal rather than directly on the high frequency signal.

Dans une variante de réalisation, l'extraction des composantes tonales et du signal d'ambiance s'effectue dans un ordre différent et selon les étapes suivantes :

  • détection des composantes tonales dominantes du signal bande basse décodé (ou décodé et étendu), dans le domaine fréquentiel ;
  • calcul d'un signal résiduel par extraction des composantes tonales dominantes pour obtenir le signal d'ambiance.
In a variant embodiment, the extraction of the tonal components and of the ambient signal is carried out in a different order and according to the following steps:
  • detection of the dominant tonal components of the decoded (or decoded and extended) low-band signal, in the frequency domain;
  • calculating a residual signal by extracting the dominant tonal components to obtain the ambient signal.

Cette variante peut par exemple être réalisée de la façon suivante : Un pic (ou composante tonale) est détecté à une raie d'indice i dans le spectre d'amplitude |U HB1(i+240)| si le critère suivant est vérifié: U HB 1 i + 240 > U HB 1 i + 240 1 et U HB 1 i + 240 > U HB 1 i + 240 + 1 ,

Figure imgb0017
pour i = 0,...,L - 1. Dès qu'un pic est détecté à la raie d'indice i on applique un modèle sinusoïdal afin d'estimer les paramètres d'amplitude, de fréquence et éventuellement de phase d'une composante tonale associé à ce pic. Les détails de cette estimation ne sont pas présentés ici mais l'estimation de la fréquence peut typiquement faire appel à une interpolation parabolique sur 3 points afin de localiser le maximum de la parabole approximant les 3 points d'amplitude |U HB1(i+240)| (ramené en dB), l'estimation d'amplitude étant obtenu par le biais de cette même interpolation. Le domaine par transformée utilisé ici (DCT-IV) ne permettant pas d'obtenir directement la phase, on pourra dans un mode de réalisation, négliger ce terme, mais dans des variantes on pourra appliquer une transformée en quadrature de type DST pour estimer un terme de phase. La valeur initiale de y(i) est mise à zéro pour i = 0,...,L-1 . Les paramètres sinusoïdaux (fréquence, amplitude, et éventuellement phase) de chaque composante tonale étant estimés, on calcule alors le terme y(i) comme la somme de prototypes (spectres) prédéfinis de sinusoïdes pures transformées dans le domaine DCT-IV (ou autre si une autre décomposition en sous-bandes est utilisée) selon les paramètres sinusoïdaux estimés. Enfin, on applique une valeur absolue aux termes y(i) pour se ramener au domaine du spectre d'amplitude en valeurs absolues.This variant can for example be implemented as follows: A peak (or tonal component) is detected at a line of index i in the amplitude spectrum | U HB 1 ( i +240)| if the following criterion is verified: U HB 1 I + 240 > U HB 1 I + 240 1 And U HB 1 I + 240 > U HB 1 I + 240 + 1 ,
Figure imgb0017
for i = 0,..., L - 1 . As soon as a peak is detected at the line of index i, a sinusoidal model is applied in order to estimate the amplitude, frequency and possibly phase parameters of a tonal component associated with this peak. The details of this estimation are not presented here but the frequency estimation can typically use a 3-point parabolic interpolation to locate the maximum of the parabola approximating the 3 amplitude points | U HB 1 ( i +240)| (brought back into dB), the amplitude estimate being obtained by means of this same interpolation. As the transform domain used here (DCT-IV) does not make it possible to directly obtain the phase, it is possible in one embodiment, to neglect this term, but in variants it is possible to apply a quadrature transform of the DST type to estimate a phase term. The initial value of y( i ) is set to zero for i = 0,..., L -1 . The sinusoidal parameters (frequency, amplitude, and possibly phase) of each tonal component being estimated, the term y( i ) is then calculated as the sum of predefined prototypes (spectra) of pure sinusoids transformed in the DCT-IV domain (or other if another decomposition into sub-bands is used) according to the estimated sinusoidal parameters. Finally, an absolute value is applied to the terms y( i ) to reduce to the domain of the amplitude spectrum in absolute values.

D'autres méthodes de détermination des composantes tonales sont possibles, par exemple il serait également possible de calculer une enveloppe du signal env(i) par interpolation par splines des valeurs maximales locales (pics détectés) de |U HB1(i+240)| , d'abaisser cette enveloppe par un certain niveau en dB pour détecter les composantes tonales comme les pics dépassant cette enveloppe et définir y(i) comme y i = max U HB 1 i + 240 env i , 0

Figure imgb0018
Other methods of determining the tonal components are possible, for example it would also be possible to calculate an envelope of the signal env ( i ) by interpolation by splines of the local maximum values (detected peaks) of | U HB 1 ( i +240)| , to lower this envelope by a certain level in dB to detect tonal components such as peaks exceeding this envelope and define y( i ) as there I = max U HB 1 I + 240 approx I , 0
Figure imgb0018

Dans cette variante l'ambiance s'obtient donc par l'équation : lev i = U HB 1 i + 240 y i , i = 0 , , L 1

Figure imgb0019
In this variant, the atmosphere is therefore obtained by the equation: up I = U HB 1 I + 240 there I , I = 0 , , I 1
Figure imgb0019

Dans d'autres variantes de l'invention, la valeur absolue des valeurs spectrales sera remplacée par exemple le carré des valeurs spectrales, sans changer le principe de l'invention ; dans ce cas une racine carrée sera nécessaire pour revenir au domaine du signal, ce qui est plus complexe à réaliser.In other variants of the invention, the absolute value of the spectral values will be replaced, for example, the square of the spectral values, without changing the principle of the invention; in this case a square root will be necessary to return to the signal domain, which is more complex to achieve.

Le module de combinaison 513 effectue une étape de combinaison par mixage adaptatif du signal d'ambiance et des composantes tonales. Pour cela, un facteur Γ de contrôle du niveau d'ambiance est défini par l'équation suivante : Γ = β ener HB ener tonal ener HB βener tonal

Figure imgb0020
β étant un facteur dont un exemple de calcul est donné ci-dessous.The combining module 513 performs a combining step by adaptive mixing of the ambient signal and the tonal components. To do this, an ambient level control factor Γ is defined by the following equation: Γ = β ener HB ener tonal ener HB βener tonal
Figure imgb0020
β being a factor for which an example of calculation is given below.

Pour obtenir le signal étendu, on obtient d'abord le signal combiné en valeurs absolues pour i = 0... L-1 : y i = { Γy i + 1 Γ leν i y i > 0 y i + 1 Γ leν i y i 0

Figure imgb0021
auquel on applique les signes de U HB1(k) : y " i = sgn U HB 1 i + 240 . y i
Figure imgb0022
où la fonction sgn (.) donne le signe : sgn x = { 1 x 0 1 x < 0
Figure imgb0023
To obtain the extended signal, we first obtain the combined signal in absolute values for i = 0...L-1: there I = { Γy I + 1 Γ leν I there I > 0 there I + 1 Γ leν I there I 0
Figure imgb0021
to which we apply the signs of U HB 1 ( k ): there " I = sgn U HB 1 I + 240 . there I
Figure imgb0022
where the sgn (.) function gives the sign: sgn x = { 1 x 0 1 x < 0
Figure imgb0023

Par définition le facteur Γ est > 1. Les composantes tonales, détectées raie par raie par la condition y(i) > 0, sont réduites par le facteur Γ ; le niveau moyen est amplifié par le facteur 1 / Γ .By definition the factor Γ is > 1. The tonal components, detected line by line by the condition y ( i ) > 0, are reduced by the factor Γ; the average level is amplified by the factor 1/Γ.

Dans le bloc 513 de mixage adaptatif, un facteur de contrôle du niveau d'énergie est calculé en fonction de l'énergie totale du signal bande basse décodé (ou décodé et étendu) et des composantes tonales.In adaptive mixing block 513, an energy level control factor is calculated based on the total energy of the decoded (or decoded and extended) low-band signal and the tonal components.

Dans un mode de réalisation préféré du mixage adaptatif, l'ajustement d'énergie est effectué de la façon suivante: U HB 2 k = fac . y " k 240 , k = 240 , , 319

Figure imgb0024
U HB2(k) étant le signal combiné d'extension de bande.In a preferred embodiment of adaptive mixing, the energy adjustment is performed as follows: U HB 2 k = college . there " k 240 , k = 240 , , 319
Figure imgb0024
U HB 2 ( k ) being the combined band-expanding signal.

Le facteur d'ajustement est défini par l'équation suivante: fac = γ ener HB i = 0 L 1 y " i

Figure imgb0025
The adjustment factor is defined by the following equation: college = γ ener HB I = 0 I 1 there " I
Figure imgb0025

γ permet d'éviter une sur-estimation de l'énergie. Dans un exemple de réalisation, on calcule β de façon à garder le même niveau de signal d'ambiance par rapport à l'énergie des composantes tonales dans les bandes consécutives du signal. On calcule l'énergie des composantes tonales dans trois bandes : 2000-4000 Hz, 4000-6000 Hz et 6000-8000 Hz, avec E N 2 4 = k N 80,159 U 2 k

Figure imgb0026
E N 4 6 = k N 160,239 U 2 k
Figure imgb0027
E N 4 6 = k N 240,319 U 2 k
Figure imgb0028
U k = { k = 160 239 U 2 k k = 80 159 U 2 k U k k = 80 , , 159 U k k = 160 , , 239 k = 160 239 U 2 k k = 240 319 U HB 1 2 k U HB 1 k k = 240 , , 319
Figure imgb0029
Where γ avoids an overestimation of the energy. In an exemplary embodiment, β is calculated so as to keep the same ambient signal level with respect to the energy of the tonal components in the consecutive bands of the signal. We calculate the energy of the tonal components in three bands: 2000-4000 Hz, 4000-6000 Hz and 6000-8000 Hz, with E NOT 2 4 = k NOT 80.159 U 2 k
Figure imgb0026
E NOT 4 6 = k NOT 160,239 U 2 k
Figure imgb0027
E NOT 4 6 = k NOT 240,319 U 2 k
Figure imgb0028
Or U k = { k = 160 239 U 2 k k = 80 159 U 2 k U k k = 80 , , 159 U k k = 160 , , 239 k = 160 239 U 2 k k = 240 319 U HB 1 2 k U HB 1 k k = 240 , , 319
Figure imgb0029

Et où N(k 1,k 2)est l'ensemble des indices k pour lesquels le coefficient d'indice k est classifié comme étant associé aux composantes tonales. Cet ensemble peut être par exemple obtenu en détectant les pics locaux dans U'(k) vérifiant |U(k)| > lev(k) ou lev(k) est calculé comme le niveau moyen du spectre raie par raie.And where N( k 1 , k 2 ) is the set of indices k for which the coefficient of index k is classified as being associated with the tonal components. This set can be for example obtained by detecting the local peaks in U' ( k ) verifying | U ( k )| > lev ( k ) or lev ( k ) is calculated as the average level of the spectrum line by line.

On peut noter que d'autres méthodes de calcul de l'énergie des composantes tonales sont possibles, par exemple en prenant la valeur médiane du spectre sur la bande considérée.It may be noted that other methods of calculating the energy of the tonal components are possible, for example by taking the median value of the spectrum on the band considered.

On fixe β de telle sorte que le ratio entre l'énergie des composantes tonales dans les bandes 4-6 kHz et 6-8 kHz soit le même qu'entre les bandes 2-4 kHz et 4-6 kHz : β = ρ E N 6 8 k = 160 239 U 2 k E N 6 8

Figure imgb0030
E N 4 6 = max E N 4 6 E N 2 4 , ρ = E N 4 6 2 E N 2 4 , ρ = max ρ E N 6 8
Figure imgb0031
et max(.,.) est la fonction qui donne le maximum des deux arguments.We fix β so that the ratio between the energy of the tonal components in the 4-6 kHz and 6-8 kHz bands is the same as between the 2-4 kHz and 4-6 kHz bands: β = ρ E NOT 6 8 k = 160 239 U 2 k E NOT 6 8
Figure imgb0030
Or E NOT 4 6 = max E NOT 4 6 E NOT 2 4 , ρ = E NOT 4 6 2 E NOT 2 4 , ρ = max ρ E NOT 6 8
Figure imgb0031
and max(.,.) is the function that returns the maximum of the two arguments.

Dans des variantes de l'invention, le calcul de β pourra être remplacé par d'autres méthodes. Par exemple, dans une variante, on pourra extraire (calculer) différents paramètres (ou « features » en anglais) caractérisant le signal en bande basse, dont un paramètre « tilt » similaire à celui calculé dans le codée AMR-WB, et on estimera le facteur β en fonction d'une régression linéaire à partir de ces différents paramètres en limitant sa valeur entre 0 et 1. La régression linéaire pourra par exemple être estimée de façon supervisée en estimant le facteur β en se donnant la bande haute originale dans une base d'apprentissage. On notera que le mode de calcul de β ne limite pas la nature de l'invention.In variants of the invention, the calculation of β could be replaced by other methods. For example, in a variant, we can extract (calculate) different parameters (or "features" in English) characterizing the signal in low band, including a "tilt" parameter similar to that calculated in the AMR-WB codec, and we will estimate the factor β as a function of a linear regression from these various parameters by limiting its value between 0 and 1. The linear regression could for example be estimated in a supervised way by estimating the factor β by giving the original high band in a learning base. It will be noted that the mode of calculation of β does not limit the nature of the invention.

Ensuite, le paramètre β peut être utilisé pour calculer γ en tenant compte du fait qu'un signal avec un signal d'ambiance rajouté dans une bande donnée est perçu en général comme plus fort qu'un signal harmonique à la même énergie dans la même bande. Si on définit α comme la quantité de signal d'ambiance rajouté au signal harmonique : α = 1 β

Figure imgb0032
on pourra calculer γ comme une fonction décroissante de α, par exemple γ = b a α
Figure imgb0033
, b = 1.1, a = 1.2 et γ limité de 0.3 à 1. Là encore d'autres définitions de α et γ sont possibles dans le cadre de l'invention.Then, the parameter β can be used to calculate γ taking into account that a signal with an added ambient signal in a given band is generally perceived as stronger than a harmonic signal at the same energy in the same band. If we define α as the quantity of ambient signal added to the harmonic signal: α = 1 β
Figure imgb0032
we can calculate γ as a decreasing function of α , for example γ = b To α
Figure imgb0033
, b =1.1, a =1.2 and γ limited from 0.3 to 1. Here again other definitions of α and γ are possible within the framework of the invention.

A la sortie du dispositif d'extension de bande 500, le bloc 501, dans un mode de réalisation particulier réalise de façon optionnelle, une double opération d'application de réponse en fréquence de filtre passe-bande et de filtrage de désaccentuation (ou déemphase) dans le domaine fréquentiel.At the output of the band extender 500, the block 501, in a particular embodiment, optionally performs a double operation of applying bandpass filter frequency response and de-emphasis filtering (or de-emphasis) in the frequency domain.

Dans une variante de l'invention, le filtrage de désaccentuation pourra être réalisé dans le domaine temporel, après le bloc 502 voire avant le bloc 510 ; cependant, dans ce cas, le filtrage passe-bande réalisé dans le bloc 501 peut laisser certaines composantes basses fréquences de très faibles niveaux qui se voient amplifier par désaccentuation, ce qui peut modifier de façon légèrement perceptible la bande basse décodée. Pour cette raison, on préfère ici réaliser la désaccentuation dans le domaine fréquentiel. Dans le mode de réalisation privilégié, les coefficients d'indice k = 0,···,199 sont mis à zéro, ainsi la désaccentuation est limitée aux coefficients supérieurs.In a variant of the invention, the de-emphasis filtering could be performed in the time domain, after block 502 or even before block 510; however, in this case, the band-pass filtering performed in block 501 may leave some low frequency components of very low levels which are amplified by de-emphasis, which may change the decoded low band slightly perceptibly. For this reason, it is preferred here to carry out the de-emphasis in the frequency domain. In the preferred embodiment, the coefficients of index k = 0.199 are set to zero, so the de-emphasis is limited to the higher coefficients.

L'excitation est d'abord désaccentuée selon l'équation suivante : U HB 2 k = { 0 k = 0 , , 199 G deemph k 200 U HB 2 k k = 200 , , 255 G deemph 55 U HB 2 k k = 256 , , 319

Figure imgb0034
Gdeemph (k) est la réponse en fréquence du filtre 1/(1-0.68z -1) sur une bande de fréquence discrète restreinte. En prenant en compte les fréquences discrètes (impaires) de la DCT-IV, on définit ici Gdeemph (k) comme: G deemph k = 1 e k 0.68 , k = 0 , , 255
Figure imgb0035
θ k = 256 80 + k + 1 2 256 .
Figure imgb0036
The excitation is first de-emphasized according to the following equation: U HB 2 k = { 0 k = 0 , , 199 G deemph k 200 U HB 2 k k = 200 , , 255 G deemph 55 U HB 2 k k = 256 , , 319
Figure imgb0034
where G deeph ( k ) is the frequency response of the 1/(1-0.68 z -1 ) filter over a restricted discrete frequency band. Considering the discrete (odd) frequencies of the DCT-IV, here we define G deeph ( k ) as: G deemph k = 1 e k 0.68 , k = 0 , , 255
Figure imgb0035
Or θ k = 256 80 + k + 1 2 256 .
Figure imgb0036

Dans le cas où une autre transformation que la DCT-IV est utilisée, la définition de θk pourra être ajustée (par exemple pour des fréquences paires).If a transformation other than DCT-IV is used, the definition of θ k can be adjusted (for example for even frequencies).

On note que la désaccentuation est appliquée en deux phases pour k = 200,···,255 correspondant à la bande de fréquence 5000-6400 Hz, où la réponse 1/(1-0.68z -1) est appliquée comme à 12.8 kHz, et pour k = 256,···,319 correspondant à la bande de fréquence 6400-8000 Hz, où la réponse est étendue de 16 kHz ici à une valeur constante dans la bande 6.4-8 kHz.Note that the de-emphasis is applied in two phases for k = 200, , 255 corresponding to the 5000-6400 Hz frequency band, where the response 1/(1-0.68 z -1 ) is applied as at 12.8 kHz, and for k = 256, , 319 corresponding to the 6400-8000 Hz frequency band, where the response is extended from 16 kHz here to a constant value in the 6.4-8 kHz band.

On peut noter que dans le codée AMR-WB la synthèse HF n'est pas désaccentuée. Dans le mode de réalisation présenté ici, le signal haute-fréquence est au contraire désaccentué de manière à le ramener dans un domaine cohérent avec le signal basse-fréquence (0-6.4 kHz) qui sort du bloc 305 de la figure 3. Ceci est important pour l'estimation et l'ajustement ultérieur de l'énergie de la synthèse HF.It can be noted that in the AMR-WB codec the HF synthesis is not de-emphasized. In the embodiment presented here, the high-frequency signal is on the contrary de-emphasized so as to bring it back into a coherent domain with the low-frequency signal (0-6.4 kHz) which comes out of block 305 of the picture 3 . This is important for estimating and later adjusting the energy of HF synthesis.

Dans une variante du mode de réalisation, afin de réduire la complexité, on pourra fixer Gdeemph (k) à une valeur constante indépendante de k, en prenant par exemple Gdeemph (k) = 0.6 ce qui correspond approximativement à la valeur moyenne de Gdeemph (k) pour k = 200,···,319 dans les conditions du mode de réalisation décrit ci-dessus.In a variant of the embodiment, in order to reduce the complexity, it is possible to fix G deeph ( k ) to a constant value independent of k, by taking for example G deeph ( k ) = 0.6 which corresponds approximately to the average value of G deeph ( k ) for k = 200.319 under the conditions of the embodiment described above.

Dans une autre variante du mode de réalisation du décodeur, la désaccentuation pourra être réalisée de façon équivalente dans le domaine temporel après DCT inverse.In another variant of the embodiment of the decoder, the de-emphasis could be carried out in an equivalent manner in the time domain after inverse DCT.

En plus de la désaccentuation, un filtrage passe-bande est appliqué avec deux parties séparées : l'une passe-haut fixe, l'autre passe-bas adaptative (fonction du débit).In addition to de-emphasis, band-pass filtering is applied with two separate parts: one fixed high-pass, the other adaptive low-pass (depending on the bit rate).

Ce filtrage est effectué dans le domaine fréquentiel.This filtering is performed in the frequency domain.

Dans le mode de réalisation privilégiée, on calcule la réponse partielle de filtre passe-bas dans le domaine fréquentiel comme suit: G lp k = 1 0.999 k N lp 1

Figure imgb0037
Nlp =60 à 6.6 kbit/s, 40 à 8.85 kbit/s, 20 aux débits >8.85 bit/s. Ensuite on applique un filtre passe-bande sous la forme : U HB 3 k = { 0 k = 0 , , 199 G hp k 200 U HB 2 k k = 200 , , 255 U HB 2 k k = 256 , , 319 N lp G lp k 320 N lp U HB 2 k k = 320 N lp , , 319
Figure imgb0038
In the preferred embodiment, the low-pass filter partial response in the frequency domain is calculated as follows: G lp k = 1 0.999 k NOT lp 1
Figure imgb0037
where N lp =60 at 6.6 kbit/s, 40 at 8.85 kbit/s, 20 at rates >8.85 bit/s. Then we apply a band-pass filter in the form: U HB 3 k = { 0 k = 0 , , 199 G hp k 200 U HB 2 k k = 200 , , 255 U HB 2 k k = 256 , , 319 NOT lp G lp k 320 NOT lp U HB 2 k k = 320 NOT lp , , 319
Figure imgb0038

La définition de Ghp (k), k = 0,···,55, est donnée par exemple au tableau 1 ci-dessous. Tableau 1 K ghp (k) K ghp (k) K ghp (k) k ghp (k) 0 0.001622428 14 0.114057967 28 0.403990611 42 0.776551214 1 0.004717458 15 0.128865425 29 0.430149896 43 0.800503267 2 0.008410494 16 0.144662643 30 0.456722014 44 0.823611104 3 0.012747280 17 0.161445005 31 0.483628433 45 0.845788355 4 0.017772424 18 0.179202219 32 0.510787115 46 0.866951597 5 0.023528982 19 0.197918220 33 0.538112915 47 0.887020781 6 0.030058032 20 0.217571104 34 0.565518011 48 0.905919644 7 0.037398264 21 0.238133114 35 0.592912340 49 0.923576092 8 0.045585564 22 0.259570657 36 0.620204057 50 0.939922577 9 0.054652620 23 0.281844373 37 0.647300005 51 0.954896429 10 0.064628539 24 0.304909235 38 0.674106188 52 0.968440179 11 0.075538482 25 0.328714699 39 0.700528260 53 0.980501849 12 0.087403328 26 0.353204886 40 0.726472003 54 0.991035206 13 0.100239356 27 0.378318805 41 0.751843820 55 1.000000000 The definition of G hp ( k ), k = 0.55, is given for example in Table 1 below. <b>Table 1</b> K ghp ( k ) K g hp ( k) K ghp ( k ) k ghp ( k ) 0 0.001622428 14 0.114057967 28 0.403990611 42 0.776551214 1 0.004717458 15 0.128865425 29 0.430149896 43 0.800503267 2 0.008410494 16 0.144662643 30 0.456722014 44 0.823611104 3 0.012747280 17 0.161445005 31 0.483628433 45 0.845788355 4 0.017772424 18 0.179202219 32 0.510787115 46 0.866951597 5 0.023528982 19 0.197918220 33 0.538112915 47 0.887020781 6 0.030058032 20 0.217571104 34 0.565518011 48 0.905919644 7 0.037398264 21 0.238133114 35 0.592912340 49 0.923576092 8 0.045585564 22 0.259570657 36 0.620204057 50 0.939922577 9 0.054652620 23 0.281844373 37 0.647300005 51 0.954896429 10 0.064628539 24 0.304909235 38 0.674106188 52 0.968440179 11 0.075538482 25 0.328714699 39 0.700528260 53 0.980501849 12 0.087403328 26 0.353204886 40 0.726472003 54 0.991035206 13 0.100239356 27 0.378318805 41 0.751843820 55 1.000000000

On notera que dans des variantes de l'invention les valeurs de Ghp (k) pourront être modifiées tout en gardant une atténuation progressive. De même le filtrage passe-bas à largeur de bande variable, Glp (k), pourra être ajusté avec des valeurs ou un support fréquentiel différents, sans changer le principe de cette étape de filtrage.It will be noted that in variants of the invention the values of G hp ( k ) can be modified while keeping a progressive attenuation. Likewise, the low-pass filtering with variable bandwidth, G lp ( k ) , can be adjusted with different values or a frequency support, without changing the principle of this filtering step.

On notera aussi que le filtrage passe-bande pourra être adapté en définissant une seule étape de filtrage combinant les filtrages passe-haut et passe-bas.It will also be noted that the band-pass filtering can be adapted by defining a single filtering step combining high-pass and low-pass filtering.

Dans un autre mode de réalisation, le filtrage passe-bande pourra être réalisé de façon équivalente dans le domaine temporel (comme dans le bloc 112 de la figure 1) avec différents coefficients de filtre selon le débit, après une étape de DCT inverse. Cependant, on notera qu'il est avantageux de réaliser cette étape directement dans le domaine fréquentiel car le filtrage est effectué dans le domaine de l'excitation LPC et donc les problèmes de convolution circulaire et d'effets de bord sont très limités dans ce domaine.In another embodiment, the band-pass filtering could be carried out in an equivalent way in the time domain (as in block 112 of the figure 1 ) with different filter coefficients depending on the bit rate, after an inverse DCT step. However, it will be noted that it is advantageous to carry out this step directly in the frequency domain since the filtering is carried out in the domain of the LPC excitation and therefore the problems of circular convolution and of edge effects are very limited in this domain.

Le bloc 502 de transformée inverse réalise une DCT inverse sur 320 échantillons pour trouver le signal haute-fréquence échantillonnée à 16 kHz. Sa mise en oeuvre est identique au bloc 510, car la DCT-IV est orthonormée, sauf que la longueur de la transformée est de 320 au lieu de 256, et on obtient: u HB n = k = 0 N 16 k 1 U HB 3 k cos π N 16 k k + 1 2 n + 1 2

Figure imgb0039
N 16k = 320 et k = 0,···,319.The inverse transform block 502 performs an inverse DCT on 320 samples to find the high-frequency signal sampled at 16 kHz. Its implementation is identical to block 510, because the DCT-IV is orthonormal, except that the length of the transform is 320 instead of 256, and we obtain: a HB not = k = 0 NOT 16 k 1 U HB 3 k cos π NOT 16 k k + 1 2 not + 1 2
Figure imgb0039
where N 16 k = 320 and k = 0.319.

Dans le cas où le bloc 510 n'est pas une DCT, mais une autre transformation ou décomposition en sous-bandes, le bloc 502 réalise la synthèse correspondante à l'analyse réalisée dans le bloc 510.In the case where block 510 is not a DCT, but another transformation or decomposition into sub-bands, block 502 performs the synthesis corresponding to the analysis performed in block 510.

Le signal échantillonné à 16 kHz est ensuite de façon optionnelle mis à l'échelle par des gains définis par sous-trame de 80 échantillons (bloc 504).The 16 kHz sampled signal is then optionally scaled by defined gains per 80-sample subframe (block 504).

Dans un mode de réalisation privilégié, on calcule d'abord (bloc 503) un gain gHB1(m) par sous-trame par des ratios d'énergie des sous-trames tel que dans chaque sous-trame d'indice m=0, 1, 2 ou 3 de la trame courante: g HB 1 m = e 3 m e 2 m

Figure imgb0040
e 1 m = n = 0 63 u n + 64 m 2 + ε
Figure imgb0041
e 2 m = n = 0 79 u HB n + 80 m 2 + ε
Figure imgb0042
e 3 m = e 1 m n = 0 319 u HB n 2 + ε n = 0 255 u n 2 + ε
Figure imgb0043
avec ε = 0.01. On peut écrire le gain par sous-trame g HB1(m) sous la forme : g HB 1 m = n = 0 63 u n + 64 m 2 + ε n = 0 255 u n 2 + ε n = 0 79 u HB n + 80 m 2 + ε n = 0 319 u HB n 2 + ε
Figure imgb0044
ce qui montre qu'on assure dans le signal uHB le même ratio entre énergie par sous-trame et énergie par trame que dans le signal u(n) . In a preferred embodiment, a gain g HB1 (m) is first calculated (block 503) per subframe by energy ratios of the subframes such that in each subframe of index m =0 , 1, 2 or 3 of the current frame: g HB 1 m = e 3 m e 2 m
Figure imgb0040
Or e 1 m = not = 0 63 a not + 64 m 2 + ε
Figure imgb0041
e 2 m = not = 0 79 a HB not + 80 m 2 + ε
Figure imgb0042
e 3 m = e 1 m not = 0 319 a HB not 2 + ε not = 0 255 a not 2 + ε
Figure imgb0043
with ε = 0.01. We can write the gain per subframe g HB 1 ( m ) in the form: g HB 1 m = not = 0 63 a not + 64 m 2 + ε not = 0 255 a not 2 + ε not = 0 79 a HB not + 80 m 2 + ε not = 0 319 a HB not 2 + ε
Figure imgb0044
which shows that the same ratio between energy per subframe and energy per frame is ensured in the signal u HB as in the signal u(n).

Le bloc 504 effectue la mise à l'échelle du signal combiné (comprise dans l'étape E404a de la figure 4) selon l'équation suivante: u HB n = g HB 1 m u HB n , n = 80 m , , 80 m + 1 1

Figure imgb0045
Block 504 performs the scaling of the combined signal (included in step E404a of the figure 4 ) according to the following equation: a HB not = g HB 1 m a HB not , not = 80 m , , 80 m + 1 1
Figure imgb0045

On notera que la réalisation du bloc 503 diffère de celle du bloc 101 de la figure 1, car l'énergie au niveau de la trame courante est prise en compte en plus de celle de la sous-trame. Cela permet d'avoir le ratio de l'énergie de chaque sous-trame par rapport à l'énergie de la trame. On compare donc des ratios d'énergie (ou énergies relatives) plutôt que les énergies absolues entre bande basse et bande haute.It will be noted that the realization of block 503 differs from that of block 101 of the figure 1 , because the energy at the level of the current frame is taken into account in addition to that of the subframe. This makes it possible to have the ratio of the energy of each subframe compared to the energy of the frame. Energy ratios (or relative energies) are therefore compared rather than the absolute energies between low band and high band.

Ainsi, cette étape de mise à l'échelle permet de conserver dans la bande haute le ratio d'énergie entre la sous-trame et la trame de la même façon que dans la bande basse.Thus, this scaling step makes it possible to preserve in the high band the energy ratio between the subframe and the frame in the same way as in the low band.

De façon optionnelle, le bloc 506 effectue ensuite la mise à l'échelle du signal (comprise dans l'étape E404a de la figure 4) selon l'équation suivante: u HB " n = g HB 2 m u HB n , n = 80 m , , 80 m + 1 1

Figure imgb0046
où le gain g HB2(m) est obtenu à partir du bloc 505 en exécutant les blocs 103, 104 et 105 du codée AMR-WB (l'entrée du bloc 103 étant l'excitation décodée en bande basse, u(n) ). Les blocs 505 et 506 sont utiles pour ajuster le niveau du filtre de synthèse LPC (bloc 507), ici en fonction du tilt du signal. D'autres méthodes de calcul du gain g HB2(m) sont possibles sans changer la nature de l'invention.Optionally, block 506 then performs the scaling of the signal (included in step E404a of the figure 4 ) according to the following equation: a HB " not = g HB 2 m a HB not , not = 80 m , , 80 m + 1 1
Figure imgb0046
where the gain g HB 2 ( m ) is obtained from block 505 by executing blocks 103, 104, and 105 of the AMR-WB codec (the input to block 103 being the low-band decoded excitation, u ( n )). Blocks 505 and 506 are useful for adjusting the level of the LPC synthesis filter (block 507), here according to the tilt of the signal. Other methods of calculating the gain g HB 2 ( m ) are possible without changing the nature of the invention.

Enfin, le signal, uHB '(n) ou uHB "(n), est filtrée par le module de filtrage 507 qui peut être réalisé ici en prenant comme fonction de transfert 1/ Â(z/ γ), où γ =0.9 à 6.6 kbit/s et γ =0.6 aux autres débits, ce qui limite l'ordre du filtre à l'ordre 16.Finally, the signal, u HB '( n ) or u HB "( n ), is filtered by the filtering module 507 which can be carried out here by taking as transfer function 1/ Â (z/ γ ), where γ =0.9 at 6.6 kbit/s and γ =0.6 at other bit rates, which limits the order of the filter to order 16.

Dans une variante, ce filtrage pourra être réalisé de la même façon que ce qui est décrit pour le bloc 111 de la figure 1 du décodeur AMR-WB, cependant l'ordre du filtre passe à 20 au débit de 6.6, ce qui ne change pas de façon significative la qualité du signal synthétisé. Dans une autre variante, on pourra effectuer le filtrage de synthèse LPC dans le domaine fréquentiel, après avoir calculé la réponse en fréquence du filtre mis en oeuvre dans le bloc 507.In a variant, this filtering could be carried out in the same way as what is described for block 111 of the figure 1 of the AMR-WB decoder, however the order of the filter changes to 20 at the rate of 6.6, which does not significantly change the quality of the synthesized signal. In another variant, the LPC synthesis filtering can be performed in the frequency domain, after having calculated the frequency response of the filter implemented in block 507.

Dans des variantes de réalisation de l'invention, le codage de la bande basse (0-6.4 kHz) pourra être remplacé par un codeur CELP autre que celui utilisé dans AMR-WB, comme par exemple le codeur CELP dans G.718 à 8 kbit/s. Sans perte de généralité d'autres codeurs en bande élargie ou fonctionnant à des fréquences supérieurs à 16 kHz, dans lesquels le codage de la bande basse fonctionne à une fréquence interne à 12.8 kHz pourraient être utilisés. Par ailleurs, l'invention peut être adaptée de façon évidente à d'autres fréquences d'échantillonnage que 12.8 kHz, lorsqu'un codeur de basses fréquences fonctionne à une fréquence d'échantillonnage inférieure à celle du signal original ou reconstruit. Lorsque le décodage en bande basse n'utilise pas de prédiction linéaire, on ne dispose pas d'un signal d'excitation à étendre, dans ce cas on pourra réaliser une analyse LPC du signal reconstruit dans la trame courante et on calculera une excitation LPC de manière à pouvoir appliquer l'invention.In variant embodiments of the invention, the coding of the low band (0-6.4 kHz) could be replaced by a CELP coder other than that used in AMR-WB, such as for example the CELP coder in G.718 at 8 kbit/s. Without loss of generality, other wideband coders or coders operating at frequencies above 16 kHz, in which the low band coder operates at an internal frequency of 12.8 kHz could be used. Furthermore, the invention can obviously be adapted to sampling frequencies other than 12.8 kHz, when a low-frequency coder operates at a sampling frequency lower than that of the original or reconstructed signal. When the low-band decoding does not use linear prediction, there is no excitation signal to extend, in this case it is possible to carry out an LPC analysis of the reconstructed signal in the current frame and an LPC excitation will be calculated so as to be able to apply the invention.

Enfin, dans une autre variante de l'invention, l'excitation ou le signal bande basse ( u(n)) est ré-échantillonnée, par exemple par interpolation linéaire ou "spline" cubique, de 12.8 à 16 kHz avant transformation (par exemple DCT-IV) de longueur 320. Cette variante a le défaut d'être plus complexe, car la transformée (DCT-IV) de l'excitation ou du signal est alors calculée sur une plus grande longueur et le ré-échantillonnage n'est pas effectué dans le domaine de la transformée.Finally, in another variant of the invention, the excitation or the low band signal ( u ( n )) is resampled, for example by linear interpolation or cubic "spline", from 12.8 to 16 kHz before transformation (for example DCT-IV) of length 320. This variant has the defect of being more complex, because the transform (DCT-IV) of the excitation or of the signal is then calculated over a greater length and the resampling is not carried out in the domain of the transform.

De plus, dans des variantes de l'invention, tous les calculs nécessaires à l'estimation des gains (GHBN, g HB1(m), g HB2(m), gHBN, ...) pourront être effectués dans un domaine logarithmique.Moreover, in variants of the invention, all the calculations necessary for estimating the gains ( G HBN , g HB 1 ( m ) , g HB 2 ( m ) , g HBN , etc. can be performed in a logarithmic domain.

La figure 6 représente un exemple de réalisation matérielle d'un dispositif de d'extension de bande 600 selon l'invention. Celui-ci peut faire partie intégrante d'un décodeur de signal audiofréquence ou d'un équipement recevant des signaux audiofréquences décodés ou non.There figure 6 shows an exemplary hardware embodiment of a band extender device 600 according to the invention. This may be an integral part of an audio frequency signal decoder or of equipment receiving decoded or undecoded audio frequency signals.

Ce type de dispositif comporte un processeur PROC coopérant avec un bloc mémoire BM comportant une mémoire de stockage et/ou de travail MEM.This type of device comprises a processor PROC cooperating with a memory block BM comprising a storage and/or working memory MEM.

Un tel dispositif comporte un module d'entrée E apte à recevoir un signal audio décodé ou extrait dans une première bande de fréquence dite bande basse ramené dans le domaine fréquentiel (U(k)). Il comporte un module de sortie S apte à transmettre le signal d'extension dans une deuxième bande de fréquence (U HB2(k)) par exemple à un module de filtrage 501 de la figure 5.Such a device comprises an input module E capable of receiving an audio signal decoded or extracted in a first frequency band called the low band brought back into the frequency domain ( U ( k )). It comprises an output module S able to transmit the extension signal in a second frequency band ( U HB 2 ( k )) for example to a filter module 501 of the figure 5 .

Le bloc mémoire peut avantageusement comporter un programme informatique comportant des instructions de code pour la mise en oeuvre des étapes du procédé de d'extension de bande au sens de l'invention, lorsque ces instructions sont exécutées par le processeur PROC, et notamment les étapes d'extraction (E402) de composantes tonales et d'un signal d'ambiance à partir d'un signal issu du signal bande basse décodé (U(k)), de combinaison (E403) des composantes tonales (y(k)) et du signal d'ambiance (UHBA (k)) par mixage adaptatif utilisant des facteurs de contrôle de niveau d'énergie pour obtenir un signal audio, dit signal combiné (U HB2(k)), d'extension (E401a) sur au moins une deuxième bande de fréquence supérieure à la première bande de fréquence du signal décodé bande basse avant l'étape d'extraction ou du signal combiné après l'étape de combinaison.The memory block can advantageously comprise a computer program comprising code instructions for implementing the steps of the band extension method within the meaning of the invention, when these instructions are executed by the processor PROC, and in particular the steps of extracting (E402) tonal components and of an ambient signal from a signal originating from the decoded low-band signal ( U ( k )), of combining (E403) the tonal components (y(k)) and the ambient signal ( U HBA ( k )) by adaptive mixing using energy level control factors to obtain an audio signal, called combined signal ( U HB 2 ( k )), of extension (E401a) over at least a second frequency band higher than the first frequency band of the decoded low band signal before the extraction step or of the combined signal after the combining step.

Typiquement, la description de la figure 4 reprend les étapes d'un algorithme d'un tel programme informatique. Le programme informatique peut également être stocké sur un support mémoire lisible par un lecteur du dispositif ou téléchargeable dans l'espace mémoire de celui-ci.Typically, the description of the figure 4 repeats the steps of an algorithm of such a computer program. The computer program can also be stored on a memory medium that can be read by a reader of the device or that can be downloaded into the memory space of the latter.

La mémoire MEM enregistre de manière générale, toutes les données nécessaires à la mise en oeuvre du procédé.The memory MEM generally records all the data necessary for the implementation of the method.

Dans un mode possible de réalisation, le dispositif ainsi décrit peut également comporter les fonctions de décodage bande basse et autre fonctions de traitement décrites par exemple en figure 5 et 3 en plus des fonctions d'extension de bande selon l'invention.In one possible embodiment, the device thus described may also comprise the low band decoding functions and other processing functions described for example in figure 5 And 3 in addition to the band extension functions according to the invention.

Claims (9)

  1. Method for extending the frequency band of an audio frequency signal during a decoding or improvement process comprising a step for obtaining the decoded signal in a first frequency band called the low band, the method being characterized in that it includes the following steps:
    - extending (E401a) over at least a second frequency band higher than the first frequency band the decoded low band signal to form an extended decoded low band signal UHB1(k), k representing the samples covering the UHB1(k) spectrum;
    - extracting (E402) tonal components and of an ambient signal from the signal coming from the extended decoded low-band signal;
    - combining (E403) the tonal components and the ambient signal by adaptive mixing using energy level control factors to obtain a combined signal;
    - synthesizing (E404b) an audio signal to bring a signal from the combined signal back into the time domain; and wherein the step of extracting (E402) the tonal components and the ambient signal includes the following operations:
    (a) calculating the total energy of the extended decoded low band signal;
    (b) calculating the ambience in absolute value corresponding to the average level of the spectrum line by line and calculating the energy of the dominant tonal parts in the high frequency spectrum.
  2. The method according to claim 1, wherein step (a) of calculating the total energy of the extended decoded low band signal comprises calculating: ener HB = k = 240 319 U HB 1 k 2 + ε
    Figure imgb0055
    where ε=0.1.
  3. The method according to claim 1 or 2, wherein the average level of the spectrum line by line is obtained by the equation: lev i = 1 fn i fb i + 1 i = fb i fn i U HB 1 j + 240
    Figure imgb0056
    Where fb(i) = 0 and fn(i)= i+7 for i=0,...,6
    fb(i)= i-7 and fn(i)= i+7 for i=7,...,L-8
    fb(i)= i-7 and fn(i)= L-l for i=L-7,. ,L-1,
    where L is the length of the spectrum.
  4. The method according to claim 1, 2 or 3, wherein the calculation of the energy of the dominant tonal components comprises the calculation of the residual signal: y i = U HB 1 i + 240 0 lev i , i = 0 , L 1 .
    Figure imgb0057
  5. The method according to claim 4, comprising a step of detecting the tonal components based on a detection condition on the residual signal y(i).
  6. The method according to claim 5, wherein the detection condition is y(i)>0.
  7. The method according to claim 6, wherein the energy of the dominant tonal components is defined by ener tonal = i = 0 7 y i > 0 y i 2
    Figure imgb0058
  8. A device for extending the frequency band of an audio frequency signal, the signal having been decoded in a first frequency band called the low band, the device being characterized in that it comprises:
    - an extension module (511) on at least a second frequency band higher than the first frequency band implemented on the decoded low band signal to form an extended decoded low band signal UHB1 (k), k representing the samples covering the UHB1(k) spectrum,
    - a module for extracting (512) tonal components and an ambient signal from a signal coming from the extended decoded low band signal;
    - a module for combining (513) the tonal components and the ambient signal by adaptive mixing using energy level control factors to obtain a combined audio signal;
    - a module for synthesizing (502) an audio signal to bring the combined signal back into the time domain;
    and wherein the module for extracting (512) the tonal components and the ambient signal is adapted to carry out the following operations:
    (a) calculating the total energy of the extended decoded low band signal;
    (b) calculating the ambience in absolute value corresponding to the average level of the spectrum line by line and calculating the energy of the dominant tonal parts in the high frequency spectrum.
  9. An audio-frequency signal decoder characterized in that it comprises a frequency band extension device in accordance with claim 8.
EP17206563.3A 2014-02-07 2015-02-04 Improved frequency band extension in an audio frequency signal decoder Active EP3330966B1 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
SI201531958T SI3330966T1 (en) 2014-02-07 2015-02-04 Improved frequency band extension in an audio frequency signal decoder
RS20230844A RS64614B1 (en) 2014-02-07 2015-02-04 Improved frequency band extension in an audio frequency signal decoder
HRP20231164TT HRP20231164T1 (en) 2014-02-07 2015-02-04 Improved frequency band extension in an audio frequency signal decoder

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR1450969A FR3017484A1 (en) 2014-02-07 2014-02-07 ENHANCED FREQUENCY BAND EXTENSION IN AUDIO FREQUENCY SIGNAL DECODER
PCT/FR2015/050257 WO2015118260A1 (en) 2014-02-07 2015-02-04 Improved frequency band extension in an audio signal decoder
EP15705687.0A EP3103116B1 (en) 2014-02-07 2015-02-04 Improved frequency band extension in an audio signal decoder

Related Parent Applications (2)

Application Number Title Priority Date Filing Date
EP15705687.0A Division-Into EP3103116B1 (en) 2014-02-07 2015-02-04 Improved frequency band extension in an audio signal decoder
EP15705687.0A Division EP3103116B1 (en) 2014-02-07 2015-02-04 Improved frequency band extension in an audio signal decoder

Publications (2)

Publication Number Publication Date
EP3330966A1 EP3330966A1 (en) 2018-06-06
EP3330966B1 true EP3330966B1 (en) 2023-07-26

Family

ID=51014390

Family Applications (4)

Application Number Title Priority Date Filing Date
EP17206563.3A Active EP3330966B1 (en) 2014-02-07 2015-02-04 Improved frequency band extension in an audio frequency signal decoder
EP17206569.0A Active EP3327722B1 (en) 2014-02-07 2015-02-04 Improved frequency band extension in an audio frequency signal decoder
EP17206567.4A Active EP3330967B1 (en) 2014-02-07 2015-02-04 Improved frequency band extension in an audio frequency signal decoder
EP15705687.0A Active EP3103116B1 (en) 2014-02-07 2015-02-04 Improved frequency band extension in an audio signal decoder

Family Applications After (3)

Application Number Title Priority Date Filing Date
EP17206569.0A Active EP3327722B1 (en) 2014-02-07 2015-02-04 Improved frequency band extension in an audio frequency signal decoder
EP17206567.4A Active EP3330967B1 (en) 2014-02-07 2015-02-04 Improved frequency band extension in an audio frequency signal decoder
EP15705687.0A Active EP3103116B1 (en) 2014-02-07 2015-02-04 Improved frequency band extension in an audio signal decoder

Country Status (21)

Country Link
US (5) US10043525B2 (en)
EP (4) EP3330966B1 (en)
JP (4) JP6625544B2 (en)
KR (5) KR102510685B1 (en)
CN (4) CN107993667B (en)
BR (2) BR122017027991B1 (en)
DK (2) DK3330966T3 (en)
ES (2) ES2955964T3 (en)
FI (1) FI3330966T3 (en)
FR (1) FR3017484A1 (en)
HR (2) HRP20231164T1 (en)
HU (2) HUE055111T2 (en)
LT (2) LT3330966T (en)
MX (1) MX363675B (en)
PL (2) PL3330966T3 (en)
PT (2) PT3330966T (en)
RS (2) RS64614B1 (en)
RU (4) RU2763481C2 (en)
SI (2) SI3330966T1 (en)
WO (1) WO2015118260A1 (en)
ZA (3) ZA201606173B (en)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2618919C2 (en) * 2013-01-29 2017-05-12 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Device and method for audio synthesizing, decoder, encoder, system and computer program
FR3017484A1 (en) * 2014-02-07 2015-08-14 Orange ENHANCED FREQUENCY BAND EXTENSION IN AUDIO FREQUENCY SIGNAL DECODER
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP3382702A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a predetermined characteristic related to an artificial bandwidth limitation processing of an audio signal
US10681486B2 (en) * 2017-10-18 2020-06-09 Htc Corporation Method, electronic device and recording medium for obtaining Hi-Res audio transfer information
EP3518562A1 (en) * 2018-01-29 2019-07-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal processor, system and methods distributing an ambient signal to a plurality of ambient signal channels
KR102308077B1 (en) * 2019-09-19 2021-10-01 에스케이텔레콤 주식회사 Method and Apparatus for Artificial Band Conversion Based on Learning Model
JP2023509201A (en) * 2020-01-13 2023-03-07 ホアウェイ・テクノロジーズ・カンパニー・リミテッド Audio encoding and decoding method and audio encoding and decoding device

Family Cites Families (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1225736A (en) * 1996-07-03 1999-08-11 英国电讯有限公司 Voice activity detector
SE9700772D0 (en) * 1997-03-03 1997-03-03 Ericsson Telefon Ab L M A high resolution post processing method for a speech decoder
TW430778B (en) * 1998-06-15 2001-04-21 Yamaha Corp Voice converter with extraction and modification of attribute data
JP4135240B2 (en) * 1998-12-14 2008-08-20 ソニー株式会社 Receiving apparatus and method, communication apparatus and method
US6226616B1 (en) * 1999-06-21 2001-05-01 Digital Theater Systems, Inc. Sound quality of established low bit-rate audio coding systems without loss of decoder compatibility
JP4792613B2 (en) * 1999-09-29 2011-10-12 ソニー株式会社 Information processing apparatus and method, and recording medium
US6704711B2 (en) * 2000-01-28 2004-03-09 Telefonaktiebolaget Lm Ericsson (Publ) System and method for modifying speech signals
DE10041512B4 (en) * 2000-08-24 2005-05-04 Infineon Technologies Ag Method and device for artificially expanding the bandwidth of speech signals
WO2003003345A1 (en) * 2001-06-29 2003-01-09 Kabushiki Kaisha Kenwood Device and method for interpolating frequency components of signal
EP1701340B1 (en) * 2001-11-14 2012-08-29 Panasonic Corporation Decoding device, method and program
DE60212696T2 (en) * 2001-11-23 2007-02-22 Koninklijke Philips Electronics N.V. BANDWIDTH MAGNIFICATION FOR AUDIO SIGNALS
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
CN1318231C (en) * 2002-06-28 2007-05-30 倍耐力轮胎公司 System and method for monitoring characteristic parameters of a tyre
US6845360B2 (en) * 2002-11-22 2005-01-18 Arbitron Inc. Encoding multiple messages in audio data and detecting same
WO2006107833A1 (en) * 2005-04-01 2006-10-12 Qualcomm Incorporated Method and apparatus for vector quantizing of a spectral envelope representation
WO2006132054A1 (en) * 2005-06-08 2006-12-14 Matsushita Electric Industrial Co., Ltd. Apparatus and method for widening audio signal band
FR2888699A1 (en) * 2005-07-13 2007-01-19 France Telecom HIERACHIC ENCODING / DECODING DEVICE
US7546237B2 (en) * 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
CN101089951B (en) * 2006-06-16 2011-08-31 北京天籁传音数字技术有限公司 Band spreading coding method and device and decode method and device
JP5141180B2 (en) * 2006-11-09 2013-02-13 ソニー株式会社 Frequency band expanding apparatus, frequency band expanding method, reproducing apparatus and reproducing method, program, and recording medium
KR101379263B1 (en) * 2007-01-12 2014-03-28 삼성전자주식회사 Method and apparatus for decoding bandwidth extension
US8229106B2 (en) * 2007-01-22 2012-07-24 D.S.P. Group, Ltd. Apparatus and methods for enhancement of speech
US8489396B2 (en) * 2007-07-25 2013-07-16 Qnx Software Systems Limited Noise reduction with integrated tonal noise reduction
US8041577B2 (en) * 2007-08-13 2011-10-18 Mitsubishi Electric Research Laboratories, Inc. Method for expanding audio signal bandwidth
ATE535904T1 (en) * 2007-08-27 2011-12-15 Ericsson Telefon Ab L M IMPROVED TRANSFORMATION CODING OF VOICE AND AUDIO SIGNALS
EP2210427B1 (en) * 2007-09-26 2015-05-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for extracting an ambient signal
US8688441B2 (en) * 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
KR20100086000A (en) * 2007-12-18 2010-07-29 엘지전자 주식회사 A method and an apparatus for processing an audio signal
ATE500588T1 (en) * 2008-01-04 2011-03-15 Dolby Sweden Ab AUDIO ENCODERS AND DECODERS
US8600740B2 (en) * 2008-01-28 2013-12-03 Qualcomm Incorporated Systems, methods and apparatus for context descriptor transmission
DE102008015702B4 (en) * 2008-01-31 2010-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for bandwidth expansion of an audio signal
US8831936B2 (en) * 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
KR101381513B1 (en) * 2008-07-14 2014-04-07 광운대학교 산학협력단 Apparatus for encoding and decoding of integrated voice and music
US8532983B2 (en) * 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Adaptive frequency prediction for encoding or decoding an audio signal
US8352279B2 (en) * 2008-09-06 2013-01-08 Huawei Technologies Co., Ltd. Efficient temporal envelope coding approach by prediction between low band signal and high band signal
PL2945159T3 (en) * 2008-12-15 2018-08-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and bandwidth extension decoder
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
RU2452044C1 (en) * 2009-04-02 2012-05-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Apparatus, method and media with programme code for generating representation of bandwidth-extended signal on basis of input signal representation using combination of harmonic bandwidth-extension and non-harmonic bandwidth-extension
CN101990253A (en) * 2009-07-31 2011-03-23 数维科技(北京)有限公司 Bandwidth expanding method and device
JP5493655B2 (en) 2009-09-29 2014-05-14 沖電気工業株式会社 Voice band extending apparatus and voice band extending program
CN102612712B (en) * 2009-11-19 2014-03-12 瑞典爱立信有限公司 Bandwidth extension of low band audio signal
JP5589631B2 (en) * 2010-07-15 2014-09-17 富士通株式会社 Voice processing apparatus, voice processing method, and telephone apparatus
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
KR101826331B1 (en) * 2010-09-15 2018-03-22 삼성전자주식회사 Apparatus and method for encoding and decoding for high frequency bandwidth extension
MX2013009303A (en) * 2011-02-14 2013-09-13 Fraunhofer Ges Forschung Audio codec using noise synthesis during inactive phases.
US20140019125A1 (en) * 2011-03-31 2014-01-16 Nokia Corporation Low band bandwidth extended
EP2791937B1 (en) 2011-11-02 2016-06-08 Telefonaktiebolaget LM Ericsson (publ) Generation of a high band extension of a bandwidth extended audio signal
ES2762325T3 (en) * 2012-03-21 2020-05-22 Samsung Electronics Co Ltd High frequency encoding / decoding method and apparatus for bandwidth extension
US9228916B2 (en) * 2012-04-13 2016-01-05 The Regents Of The University Of California Self calibrating micro-fabricated load cells
KR101897455B1 (en) * 2012-04-16 2018-10-04 삼성전자주식회사 Apparatus and method for enhancement of sound quality
US9666202B2 (en) * 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
FR3017484A1 (en) * 2014-02-07 2015-08-14 Orange ENHANCED FREQUENCY BAND EXTENSION IN AUDIO FREQUENCY SIGNAL DECODER

Also Published As

Publication number Publication date
US10668760B2 (en) 2020-06-02
JP2017509915A (en) 2017-04-06
US20180141361A1 (en) 2018-05-24
HRP20211187T1 (en) 2021-10-29
RU2682923C2 (en) 2019-03-22
CN107993667A (en) 2018-05-04
JP6775065B2 (en) 2020-10-28
US10730329B2 (en) 2020-08-04
JP2019168710A (en) 2019-10-03
RU2017144522A3 (en) 2021-04-01
LT3103116T (en) 2021-07-26
EP3103116B1 (en) 2021-05-05
CN108109632A (en) 2018-06-01
RU2016136008A3 (en) 2018-09-13
BR112016017616A2 (en) 2017-08-08
EP3330967B1 (en) 2024-04-10
ZA201708368B (en) 2018-11-28
BR122017027991B1 (en) 2024-03-12
DK3330966T3 (en) 2023-09-25
US20200353765A1 (en) 2020-11-12
PT3103116T (en) 2021-07-12
MX363675B (en) 2019-03-29
PT3330966T (en) 2023-10-04
JP2019168709A (en) 2019-10-03
US11325407B2 (en) 2022-05-10
MX2016010214A (en) 2016-11-15
RU2017144522A (en) 2019-02-18
CN108109632B (en) 2022-03-29
RU2017144521A3 (en) 2021-04-01
RU2017144521A (en) 2019-02-18
RU2763547C2 (en) 2021-12-30
RU2763848C2 (en) 2022-01-11
RS62160B1 (en) 2021-08-31
ES2955964T3 (en) 2023-12-11
FR3017484A1 (en) 2015-08-14
SI3103116T1 (en) 2021-09-30
EP3330967A1 (en) 2018-06-06
RS64614B1 (en) 2023-10-31
ES2878401T3 (en) 2021-11-18
KR102510685B1 (en) 2023-03-16
JP6625544B2 (en) 2019-12-25
US20200338917A1 (en) 2020-10-29
RU2016136008A (en) 2018-03-13
EP3327722B1 (en) 2024-04-10
KR20180002910A (en) 2018-01-08
US20180304659A1 (en) 2018-10-25
KR102426029B1 (en) 2022-07-29
KR20160119150A (en) 2016-10-12
EP3327722A1 (en) 2018-05-30
HUE055111T2 (en) 2021-10-28
PL3330966T3 (en) 2023-12-18
KR20180002907A (en) 2018-01-08
BR112016017616B1 (en) 2023-03-28
DK3103116T3 (en) 2021-07-26
KR20220035271A (en) 2022-03-21
RU2017144523A3 (en) 2021-04-01
RU2763481C2 (en) 2021-12-29
CN108022599A (en) 2018-05-11
FI3330966T3 (en) 2023-10-04
US20170169831A1 (en) 2017-06-15
EP3103116A1 (en) 2016-12-14
HRP20231164T1 (en) 2024-01-19
KR102380487B1 (en) 2022-03-29
EP3330966A1 (en) 2018-06-06
CN105960675A (en) 2016-09-21
SI3330966T1 (en) 2023-12-29
CN105960675B (en) 2020-05-05
CN108022599B (en) 2022-05-17
LT3330966T (en) 2023-09-25
JP6775063B2 (en) 2020-10-28
KR102380205B1 (en) 2022-03-29
WO2015118260A1 (en) 2015-08-13
RU2017144523A (en) 2019-02-18
JP2019168708A (en) 2019-10-03
US10043525B2 (en) 2018-08-07
ZA201606173B (en) 2018-11-28
KR20180002906A (en) 2018-01-08
JP6775064B2 (en) 2020-10-28
US11312164B2 (en) 2022-04-26
PL3103116T3 (en) 2021-11-22
ZA201708366B (en) 2019-05-29
HUE062979T2 (en) 2023-12-28
CN107993667B (en) 2021-12-07

Similar Documents

Publication Publication Date Title
EP3020043B1 (en) Optimized scale factor for frequency band extension in an audiofrequency signal decoder
EP3330966B1 (en) Improved frequency band extension in an audio frequency signal decoder
EP3014611B1 (en) Improved frequency band extension in an audio signal decoder

Legal Events

Date Code Title Description
REG Reference to a national code

Ref country code: HR

Ref legal event code: TUEP

Ref document number: P20231164T

Country of ref document: HR

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN PUBLISHED

AC Divisional application: reference to earlier application

Ref document number: 3103116

Country of ref document: EP

Kind code of ref document: P

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

AX Request for extension of the european patent

Extension state: BA ME

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20181206

RBV Designated contracting states (corrected)

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: KONINKLIJKE PHILIPS N.V.

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS

17Q First examination report despatched

Effective date: 20201215

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: GRANT OF PATENT IS INTENDED

INTG Intention to grant announced

Effective date: 20230301

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE PATENT HAS BEEN GRANTED

P01 Opt-out of the competence of the unified patent court (upc) registered

Effective date: 20230527

AC Divisional application: reference to earlier application

Ref document number: 3103116

Country of ref document: EP

Kind code of ref document: P

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: FRENCH

REG Reference to a national code

Ref country code: DE

Ref legal event code: R096

Ref document number: 602015084843

Country of ref document: DE

REG Reference to a national code

Ref country code: DK

Ref legal event code: T3

Effective date: 20230919

REG Reference to a national code

Ref country code: NL

Ref legal event code: FP

REG Reference to a national code

Ref country code: PT

Ref legal event code: SC4A

Ref document number: 3330966

Country of ref document: PT

Date of ref document: 20231004

Kind code of ref document: T

Free format text: AVAILABILITY OF NATIONAL TRANSLATION

Effective date: 20230929

REG Reference to a national code

Ref country code: SE

Ref legal event code: TRGR

REG Reference to a national code

Ref country code: NO

Ref legal event code: T2

Effective date: 20230726

REG Reference to a national code

Ref country code: GR

Ref legal event code: EP

Ref document number: 20230401686

Country of ref document: GR

Effective date: 20231113

REG Reference to a national code

Ref country code: SK

Ref legal event code: T3

Ref document number: E 42396

Country of ref document: SK

REG Reference to a national code

Ref country code: ES

Ref legal event code: FG2A

Ref document number: 2955964

Country of ref document: ES

Kind code of ref document: T3

Effective date: 20231211

REG Reference to a national code

Ref country code: EE

Ref legal event code: FG4A

Ref document number: E023691

Country of ref document: EE

Effective date: 20230925

REG Reference to a national code

Ref country code: HU

Ref legal event code: AG4A

Ref document number: E062979

Country of ref document: HU

REG Reference to a national code

Ref country code: HR

Ref legal event code: T1PR

Ref document number: P20231164

Country of ref document: HR

REG Reference to a national code

Ref country code: AT

Ref legal event code: UEP

Ref document number: 1592896

Country of ref document: AT

Kind code of ref document: T

Effective date: 20230726

REG Reference to a national code

Ref country code: HR

Ref legal event code: ODRP

Ref document number: P20231164

Country of ref document: HR

Payment date: 20240123

Year of fee payment: 10

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: LU

Payment date: 20240226

Year of fee payment: 10

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GR

Payment date: 20240221

Year of fee payment: 10

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: IS

Payment date: 20240229

Year of fee payment: 10