EP2795618B1 - Procédé de détection d'une bande de fréquence prédéterminée dans un signal de données audio, dispositif de détection et programme d'ordinateur correspondant - Google Patents

Procédé de détection d'une bande de fréquence prédéterminée dans un signal de données audio, dispositif de détection et programme d'ordinateur correspondant Download PDF

Info

Publication number
EP2795618B1
EP2795618B1 EP12816709.5A EP12816709A EP2795618B1 EP 2795618 B1 EP2795618 B1 EP 2795618B1 EP 12816709 A EP12816709 A EP 12816709A EP 2795618 B1 EP2795618 B1 EP 2795618B1
Authority
EP
European Patent Office
Prior art keywords
spectral
detection
frequency band
spectral parameters
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
EP12816709.5A
Other languages
German (de)
English (en)
Other versions
EP2795618A1 (fr
Inventor
Arnault Nagle
Claude Lamblin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
Orange SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orange SA filed Critical Orange SA
Publication of EP2795618A1 publication Critical patent/EP2795618A1/fr
Application granted granted Critical
Publication of EP2795618B1 publication Critical patent/EP2795618B1/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Definitions

  • the present invention relates generally to the field of sound data processing.
  • This processing is adapted in particular to the transmission and / or storage of multimedia signals such as audio signals (speech and / or sounds).
  • the present invention more specifically aims at analyzing an audio signal resulting from such a treatment.
  • Such a processing comprises a coding phase of linear prediction type LPC (abbreviation of Linear Predictive Coding ).
  • encoders use signal properties such as its harmonic structure, exploited by long-term prediction filters, as well as its local stationarity, exploited by short-term prediction filters.
  • the speech signal can be considered as a stationary signal for example over time intervals of 10 to 20 ms. It is therefore possible to analyze this signal by sample blocks called frames, after an appropriate windowing.
  • the short-term correlations can be modeled by time-varying linear filters whose coefficients are obtained by means of a linear prediction analysis on frames, of short duration (from 10 to 20 ms in the aforementioned example ).
  • the document US 2008/0059166 describes a scalable encoder of an audio signal.
  • LPC linear prediction coding is one of the most widely used digital coding techniques, particularly in the mobile telephony sector, particularly in the 3GPP AMR-WB encoder as described in the document 3GPP TS 26.190 V10.0.0 (2011-03) 3rd Generation Partnership Project; Technical Specification Group Services and System Aspects; Speech codec speech processing functions; Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding functions (Release 10) ".
  • the LPC coding consists in performing an LPC analysis of the signal to be coded in order to determine an LPC filter, then in quantifying this filter, on the one hand, and in modeling and coding the excitation signal, on the other hand.
  • the autoregressive P-order linear prediction model consists in determining a signal sample at an instant n by a linear combination of the past P samples (prediction principle).
  • LSP coefficients are now the most used for the representation of the LPC filter because they are well suited for vector quantization.
  • linear prediction coding technique allows a substantial reduction of the bit rate in favor of high audio quality.
  • linear prediction coding is poorly suited to certain coded audio signal processing applications, such as detecting a predetermined frequency band in such coded signals.
  • Some coders combine different coding techniques. So in the document Combescure P., Schnitzler J., Fischer K., Kircherr R., Lamblin C., Guyader A., Massaloux D., Quinquis C., Stegmann J., Vary P., A 16, 24, 32 kbit / s Broadband speech codec based on ATCELP, in IEEE International Conference on Acoustics, Speech, and Signal Processing, 1999 (ICASSP99), Page (s): 5 - 8 vol.1 it is proposed to combine an MDCT-type frequency transform technique and a CELP (Code Excited Linear Prediction) type coding technique for encoding broadband signals, the switching between the two technologies being controlled by a signal classification.
  • CELP Code Excited Linear Prediction
  • Transcoding is necessary when in a transmission chain, a compressed signal frame emitted by an encoder can no longer continue in this format. Transcoding makes it possible to convert this frame into another format compatible with the rest of the transmission chain.
  • the most basic solution (and the most common at the moment) is the end-to-end addition of a decoder and an encoder.
  • the compressed frame arrives in a first format, then it is decompressed.
  • the decompressed signal is then compressed again in a second format accepted later in the communication chain. This cascading of a decoder and an encoder is called a tandem.
  • an encoder operating in an enlarged frequency band [50Hz-7kHz], also called WB (WideBand) may be required to encode an audio content operating in a narrower frequency band than the enlarged band.
  • WB WideBand
  • the content to be encoded by a 3GPP AMR-WB encoder as mentioned above, although sampled at 16 kHz, may be in fact only in a telephone band if such content has been encoded previously by an encoder operating in a narrow frequency band [300 Hz, 3400 Hz], also known as the NB band (abbreviation of "NarrowBand"). It is also possible that the limited quality of the acoustics of the transmitting terminal can not cover the entire enlarged band.
  • the detection of the frequency band in the signal domain is based on a spectral analysis of the digital audio signal.
  • a detection is implemented in the 3GPP2 VMR-WB codec as described in the document 3GPP2 C.S0052-0 (June 11, 2004) "Source-Controlled Variable-Rate Multi-mode Wideband Speech Codec (VMR-WB) Service Option 62 for Spread Spectrum Systems » , in order to detect narrowband audio content that has been oversampled at the 16 kHz sampling frequency specific to that codec.
  • the above-mentioned codec performs a spectral analysis of the time signal (after 12.8 kHz subsampling, high-pass filtering and pre-emphasis) by performing two FFT frequency transforms on 256 samples per frame, to obtain two sets of spectral parameters per frame. .
  • E CB i 1 / 2
  • a detection algorithm is applied to detect such signals. It consists of testing the level of smoothed energy in the last two bands.
  • FFT transform As an alternative to the above-mentioned FFT transform, other frequency transforms can be used, such as, for example, the Modified Discrete Cosine Transformation (MDCT).
  • MDCT Modified Discrete Cosine Transformation
  • the detection of the frequency band in the coded domain can be based on a prior decoding of the coded signal and then on the application of the spectral analysis techniques above as used in the signal domain to analyze the audio contents. originals (not coded or before coding).
  • decoding increases the complexity and delay of processing. In many applications, it is therefore desirable, in order to avoid these problems of complexity and / or of delay, to extract the characteristics of the signal without performing a complete decoding of the signal.
  • the coded stream indeed comprises coded spectral coefficients, such as, for example, the MDCT coefficients in the MP3 encoder.
  • coded spectral coefficients such as, for example, the MDCT coefficients in the MP3 encoder.
  • the methods for detecting the frequency band of a digital audio signal which have just been described are mainly based on a frequency analysis of the signal spectrum.
  • the detection of the audio frequency band in the coded content advantageously exploits the spectral information contained in the coded bitstream by not completely decoding the signal. This significantly reduces the complexity of the detection by eliminating the costly operations required for full decoding and spectral analysis (FFT or MDCT based) of the encoded audio signal.
  • the decoded signal is available, such as for example the application of displaying on a mobile terminal a logo "HD Voice This is not the case for all applications.
  • the complexity of the decoding in an encoder, such as in particular the aforementioned AMR-WB encoder, the decoding represents 20% of the total complexity of the encoder, itself estimated around 40 WMOPS (abbreviation of "Weighted Millions of Operations Per Second”). ).
  • linear prediction coding techniques with other compression techniques such as, for example, MDCT-type frequency transform coding techniques. It would then be sufficient to perform the detection on the blocks of audio signal encoded by a frequency transform technique using for these blocks a state of the art method. However this solution would harm the reactivity of the detection because depending on the type of the content and / or the bit rate, the linear prediction coding may be mainly used.
  • One of the aims of the invention is to overcome disadvantages of the state of the aforementioned techniques.
  • an object of the present invention relates to a detection method according to claim 1.
  • Such an arrangement makes it possible to identify, with a low cost of calculations, whether the audio frequency band of a content previously coded by an encoder linear prediction is more restricted or not than the audio frequency band in which such an encoder operates.
  • the invention makes it possible, for example, to determine the presence of audio content above 4 kHz.
  • the invention can be advantageously implemented in certain frequency band detection applications that do not need to perform a decoding of the coded audio signal, such as for example the indicator of numbers of calls deposited in broadband on a mobile voice mail.
  • all the spectral parameters of the above set of spectral parameters are previously decoded.
  • Such an arrangement makes it possible to detect in a simple manner the frequency band of a decoded audio content, by direct access to the decoded linear prediction parameters associated with this content, and without adding any additional complexity (complete decoding, time-frequency transform) .
  • the invention is particularly adapted to its implementation in a communication terminal, fixed or mobile, which comprises by nature an encoder and an audio decoder, and more specifically to the application in this terminal which consists in display on the screen of the latter a logo "HD Voice".
  • some blocks each contain a set of spectral parameters representing a linear prediction filter and some other blocks each contain a set of spectral parameters obtained by frequency transformation.
  • the blocks each containing a set of spectral parameters representing a linear prediction filter are considered the blocks each containing a set of spectral parameters representing a linear prediction filter.
  • a frequency band detection method of the prior art may for example be applied.
  • the determining step consists in preferably searching for the index of the first spectral parameter greater than a threshold frequency.
  • the term high frequency band the frequency band above a certain threshold.
  • the high frequency band corresponds to frequencies greater than 4 kHz (or 3.4 kHz). More generally, for a signal sampled at a sampling frequency Fe and a bandwidth less than or equal to 0.5 Fe, the high frequency band will be the frequency band greater than ⁇ '0.5Fe (0 ⁇ ' ⁇ 1), ⁇ 'being adjustable.
  • the term low frequency band the frequency band below a certain threshold.
  • said determining step consists in preferably searching for the index of the last spectral parameter lower than a threshold frequency.
  • Such an arrangement thus makes it possible to implement the invention for example in speech processing applications in HD quality, in particular both in a mobile communication terminal capable of operating in the aforementioned frequency range, and in a server voicemail capable of processing HD audio content, or even within a probe being in audio stream cutoff of a communication network.
  • the current block contains data representative of a voice activity.
  • Such an optional arrangement makes it possible, in the particular case where it is a question of detecting in the coded audio signal a band situated in the high frequencies, to optimize the reduction of the complexity of the detection method by carrying out the detection, not on all the frames containing at least one set of spectral parameters representing a linear prediction filter, but only on relevant frames likely to contain high frequencies, that is to say those likely to contain voice and / or music data.
  • Such an arrangement makes it possible to perform, from a simple calculation, if the predetermined frequency band is detected, while respecting a compromise complexity / reliability / reactivity of the detection.
  • the aforementioned criterion is calculated using a mathematical function using as parameter at least the index of the first decoded spectral parameter that was obtained at the end of the aforementioned determination step.
  • a global decision step is implemented by smoothing the result of this decision step and K decision results. previous, relating respectively to K blocks preceding the current block.
  • Such multi-block smoothing of the local detections specific to each block thus makes it possible to increase the reliability of the detection and for example to protect itself from a really narrow band audio content during a few frames (noise, for example).
  • the invention relates to a detection device according to claim 9.
  • a detection device is intended to implement all the embodiments of the detection method which have been mentioned above.
  • the detection device is adapted to be contained in a communication terminal, in a voicemail server or in a probe.
  • the invention also relates to a computer program according to claim 11.
  • a program can use any programming language, and be in the form of source code, object code, or intermediate code between source code and object code , such as in a partially compiled form, or in any other desirable form.
  • the recording medium can be any entity or device capable of storing the program.
  • a medium may comprise storage means, such as a ROM, for example a CD ROM or a microelectronic circuit ROM, or a magnetic recording medium, for example a floppy disk or a diskette. Hard disk.
  • such a recording medium can be a transmissible medium such as an electrical or optical signal, which can be routed via an electrical or optical cable, by radio or other means.
  • the program according to the invention can be downloaded in particular on an Internet type network.
  • such a recording medium may be an integrated circuit in which the program is incorporated, the circuit being adapted to execute the method in question or to be used in the execution of the latter.
  • the aforementioned detection device and computer program have at least the same advantages as those conferred by the detection method according to the present invention.
  • the frequency band detection method according to the invention is represented in the form of an algorithm comprising steps S0 to S4.
  • the aforementioned detection method is implemented in a software or hardware way in a DET detection device represented on the figure 2 Which comprises for this purpose a specific processing module TR detection.
  • the detection device DET is for example contained in a fixed or mobile communication terminal.
  • the detecting device DET is for example contained in an element of the audio signal transmission chain (ex : mail server in which audio messages are stored without decoding).
  • this signal is coded, which has first been sampled at a predetermined sampling frequency Fe.
  • the coding of said signal is carried out for example in a linear prediction coder using short-term LPC spectral parameters, such as ISP coefficients or an associated representation, covering at least part of the frequency spectrum (normalized or no).
  • short-term LPC spectral parameters such as ISP coefficients or an associated representation
  • Said coder is for example the 3GPP AMR-WB encoder, as mentioned above in the description.
  • the coding of said signal could be carried out by an encoder such as, for example, that which was mentioned above in the description, which combines a frequency transformation technique of the MDCT type and a linear prediction coding technique of type CELP.
  • the sampling frequency is equal to 16 kHz, corresponding to the nominal sampling frequency of the AMR-WB encoder operating in the useful band of 50 Hz to 7 kHz.
  • Each block contains at least one set of spectral parameters representing a linear prediction filter.
  • a plurality of consecutive blocks of data some of said blocks containing at least one set of spectral parameters representing a linear prediction filter and some others of said blocks containing at least one set of spectral parameters obtained by frequency transform.
  • the detection method according to the invention applies only to the blocks which contain at least one set of spectral parameters representing a linear prediction filter, a plurality of these parameters having been previously decoded.
  • a frequency band detection method of the prior art may for example be applied.
  • the predetermined frequency band is the HF band of an expanded band content.
  • a current block B n is processed (n being an integer such that 1 ⁇ n ⁇ Z).
  • the current block B n contains M previously decoded spectral parameters p (i k ), having an ordered subset of M '(M' ⁇ M) spectral parameters which extends for example between the indices i min and i max , such that p (i min) ⁇ ... ⁇ p (i k ) ⁇ ... ⁇ p (i max ), where i min represents the index of the smallest spectral parameter of said subset and i max represents the subscript of the largest spectral parameter of said subset.
  • the following is the case in which the spectral parameters of the ordered subset satisfy the relation: p (i) ⁇ p (j) if i ⁇ j, i, j ⁇ ⁇ i min ..., i max ⁇ . It is obvious to those skilled in the art that the invention also applies to other cases: for example, the case where the spectral parameters of the ordered subset satisfy the relation: p (i)> p (j) if i ⁇ j, i, j ⁇ ⁇ i min , ..., i max ⁇ .
  • step S1 is implemented by a first calculation software sub-module CAL1 of the detection device DET, as represented in FIG. figure 2 .
  • the calculation sub-module CAL1 determines, from among said M 'spectral parameters, the index i F of the first spectral parameter which is the most close to a threshold frequency, said threshold frequency being determined from the sampling frequency F e of said audio signal.
  • i F arg min i ⁇ i min , ... , i max p i - F th
  • F th ⁇ F e ( ⁇ ⁇ 0.5), where ⁇ is an adjustable parameter.
  • the figure 3 represents different possible values of F th according to the sampling frequency F e used and the value of the parameter ⁇ .
  • the step S1 is preceded by a preselection step S0, during which are preselected, among the blocks B 1 , B 2 , ..., B Z , only blocks that contain data representative of a voice activity.
  • the preselection step S0 is implemented by a preselection software module PRES represented on the figure 2 .
  • Step S0 being optional, it is represented in dotted line on the figure 1 .
  • the PRES module of the figure 2 is also represented in dashed line.
  • step S2 calculating at least one criterion from said determined index i F.
  • step S2 is implemented by a second calculating software sub-module CAL2 of the detecting device DET, as shown in FIG. figure 2 .
  • such a criterion is based on the comparison of the "distance" between two successive spectral parameters with respect to the index i F determined.
  • the calculation software sub-module CAL2 calculates a criterion according to the two calculated distances d max and d min to detect the presence of an audio content HF (or BF). This criterion is noted for example crit ( d min , d max ).
  • such a criterion is based on a mathematical function F ( i F ) using as parameter the index i F.
  • the criterion depends on the value of the affine function.
  • a step S3 represented in FIG. figure 1 is to decide whether the predetermined frequency band is detected in the current block B n , according to one of the criteria that was calculated in step S2.
  • Such a step is implemented by a third calculation software sub-module CAL3 of the detection device DET, as shown in FIG. figure 2 .
  • the decision is based on one or the other of the two criteria mentioned above, or a combination thereof.
  • the decision can be flexible or hard.
  • the decision step relates to the detection of a band of high frequencies is described below. It is obvious to one skilled in the art to apply this decision step in a similar manner, with regard to the detection of another frequency band, such as for example a low frequency band.
  • the hard decision consists in comparing the criterion ⁇ with a predetermined threshold adaptive or not, noted crit th .
  • a flexible decision is for example to use the value of ⁇ bounded in the interval [1,3]. The closer this value is to the lower bound "1" of this interval, the more HF content is considered undetected in the block of the audio signal. The closer this value is to the upper bound "3" of the interval, the more HF content is considered detected in the audio signal.
  • the soft decision is for example to use the value of ⁇ 'in the interval [0,1]. The closer this value is to the lower bound "0" of this interval, the more HF content is considered to be detected in the block of the audio signal. The closer this value is to the upper bound "1" of the interval, the more HF content is considered undetected in the audio signal. The more the value of the criteria is close to the limits of the interval more decision for the block (detection or not of HF content) appears to be reliable, while a value of ⁇ 'close to the threshold criterion' th indicates a low reliability of the decision.
  • the decision can also be flexible or hard.
  • the soft decision can then consist in taking the value of the mathematical function.
  • This value is negative (respectively positive), the greater the reliability of the detection of the presence (or lack thereof) of an RF content is high.
  • a value of the mathematical function close to zero indicates that the reliability of the detection is low.
  • step S4 smoothing these K results and the result of the decision just obtained for the current block B n in the above-mentioned step S3, by a possibly slippery window.
  • detection on the window may be a soft or hard decision, as the local detections for each block were obtained by soft or hard decision.
  • smoothing step S4 is implemented by a fourth calculation software sub-module CAL4 shown in FIG. figure 2 .
  • Step S4 being optional, it is represented in dotted line on the figure 1 .
  • the submodule CAL4 of the figure 2 is also represented in dashed line.
  • each coded data block contains 16 parameters, the first 15 of which are ordered spectral parameters covering the (normalized) spectrum between 0 and 6.4 kHz, the sixteenth parameter being the one-bit voice activity indicator (VAD).
  • VAD voice activity indicator
  • the indices are represented on the abscissa and the percentage distribution of these indices is represented on the ordinate.
  • the detection method that has been implemented includes the step S0 blocks containing preset vocal activity.
  • the detection method has been used does not include the step S0.
  • Figures 4A and 4B Four different configurations are represented by way of example on Figures 4A and 4B : that represented in full bold line which corresponds to the AMR-WB codec alone, that represented in dashed line corresponding to the AMR-WB coder arranged in tandem after another WB encoder, such as for example the fixed HD coder G.722 to 64 kbit / s, the one shown in fine line which corresponds to the AMR-WB encoder arranged in tandem after a NB encoder such as, for example, the G.711 pivot encoder, and that represented in dashed line, which corresponds to the AMR-WB encoder arranged in tandem after a NB encoder, such as the FR (abbreviation for " Full Rate ").
  • the distribution of the index of the first spectral parameter greater than 4 kHz differs significantly according to whether the first encoder is of WB or NB type.
  • the values of the ratio ⁇ are represented on the abscissa and the distribution as a percentage of these ratios are represented on the ordinate.
  • the detection method that has been implemented includes the step S0 blocks containing preset vocal activity.
  • the detection method has been used does not include the step S0.
  • Four configurations, corresponding respectively to those of Figures 4A and 4B are represented on the Figures 5A and 5B .
  • the four configurations of Figures 5A and 5B are symbolized in the same way as on the Figures 4A and 4B .
  • the distribution of the ratio ⁇ differs markedly depending on whether the encoder is WB or NB-type.
  • Such a terminal is designated by the reference TER on the Figure 6A .
  • the coding module CO1 and the decoding module DO1 are of the AMR-WB type.
  • the ROM MEM1 or another memory of the mobile terminal TER furthermore contains a device DET1 for detecting a predetermined frequency band, similar to the detection device DET represented on FIG. figure 2 .
  • a coded audio stream is received by the communication module COM1, then completely decoded by the decoding module DO1, so that the mobile terminal TER renders the speech via the built-in loudspeaker. speaker of its INT user interface.
  • the decoded parameters delivered by the decoder DO1 to the detection device DET1 are the first 15 ISF coefficients, ordered spectral parameters covering the (normalized) spectrum between 0 and 6.4 kHz, and possibly the VAD indicator whose value is set to 1 if the encoder of the terminal that sent the coded audio stream to the terminal TER estimated that the signal of the frame was active (tone, speech, music), or zero otherwise.
  • the detection device DET1 of the terminal TER then directly implements the predetermined frequency band detection method as described in FIG. figure 1 , with a low complexity much lower for example the complexity of the application of a time-frequency transform on the previously decoded signal.
  • a current block B n is processed (n being an integer such that 1 ⁇ n ⁇ Z).
  • the current block B n contains the fifteen / sixteen aforementioned parameters (15 spectral coefficients and possibly the VAD indicator) which have been decoded by the decoding module DO1.
  • the step S1 is preceded by the preselection step S0, during which are preselected, among the blocks B 1 , B 2 , ..., B Z , only blocks that contain data representative of a voice activity, for which the VAD flag is 1.
  • the threshold frequency F th is equal to 4 kHz.
  • a step S3 represented in FIG. figure 1 is to decide whether the predetermined frequency band is detected in the current block B n , according to one of the criteria that was calculated in step S2.
  • the decision is a flexible decision given by the local criterion calculated in the previous step.
  • the HD logo is intended to be displayed on the TER terminal screen with a higher or lower contrast which respectively corresponds to a higher or lower value of the calculated criterion.
  • the decision is a hard decision determined by the local criterion calculated in the previous step.
  • the HD logo is intended to be displayed on the TER terminal screen if the calculated criterion is less than 0, or not to be displayed otherwise.
  • the detection on the window may be a soft or hard decGlob decision, whether the local detections were obtained by soft or hard decision.
  • Such a server is designated by the SER reference on the Figure 6B .
  • the memory MEM2 furthermore contains a decoding module DO2 and a coding module CO2 which are destined respectively to decode and re-encode the audio content of the voice message deposited.
  • Such an operation is necessary for example in the case where the audio content of the voice message deposited was initially coded by an encoder which is different from the encoder contained in the terminal intended to consult said voice message or proposed by the network during the consultation of said message.
  • Such an operation may also be necessary in order to store a voice message deposited in a different coding format, which may be an operator's choice for an application such as webmail, which aims to propose the message on the mailbox of the owner of the voicemail.
  • the partial decoding module DP is able, prior to the detection of the RF content, to decode only part of the first 15 ISF coefficients and possibly the VAD indicator.
  • Such an arrangement is possible taking into account the vector quantization of the ISF coefficients according to two sub-vectors, as implemented in an AMR-WB type encoder.
  • the decoding module DP decodes only the second sub-vector of the ISF coefficients, that is to say the one containing the last eight highest index ISF coefficients, whose distribution is more likely to demonstrate the presence of HF content.
  • the decoding module DP decodes the VAD indicator.
  • Such an arrangement advantageously makes it possible to reduce the computational complexity of detecting the frequency band of the coded audio stream.
  • Such an arrangement also makes it possible to save the resources of the memory MEM2 by eliminating the decoding instructions of the first sub-vector of the ISF coefficients and the storage of its vector quantization dictionaries.
  • the detection device DET2 of the server SER implements directly the predetermined frequency band detection method as described in FIG. figure 1 .
  • the fact of limiting the decoding to only a part of the spectral parameters advantageously makes it possible, in favor of a low processing cost, to identify on the frames coded by a linear prediction coder such as the AMR-WB, if the coded content has indeed high frequency components and therefore if it is really HD and thus have relevant information of the audio band contents at a system not performing decoding of the streams binaries (such as a voicemail server).
  • a linear prediction coder such as the AMR-WB
  • the decoding module DP then operates in the same way as the decoding module DO1 which has been described with reference to the Figure 6A .
  • the method for detecting a predetermined frequency band is not necessarily limited to the contents coded by an enlarged band coder. This bandwidth can also be variable.
  • the detection method could be implemented to detect a low frequency band content instead of a high frequency band content.
  • the above-mentioned determination step S2 would naturally consist of searching, among at least a plurality of previously decoded spectral parameters of the set of spectral parameters, of the index of the largest spectral parameter less than a threshold frequency. .
  • the threshold frequency F th could also vary during one of the aforementioned applications.
  • the detection method can also be implemented according to several variants, both in the choice of criteria, in the manner of possibly combining several criteria, or in the use of flexible or hard decisions, both locally and globally. Depending on the variant selected, it is then possible to optimize the complexity / reliability / reactivity compromise of the detection.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

    Domaine de l'invention
  • La présente invention se rapporte de manière générale au domaine du traitement de données sonores.
  • Ce traitement est adapté notamment à la transmission et/ou au stockage de signaux multimédias tels que les signaux audio (parole et/ou sons).
  • La présente invention vise plus particulièrement l'analyse d'un signal audio issu d'un tel traitement.
  • Plus précisément, un tel traitement comprend une phase de codage du type à prédiction linéaire LPC (abréviation anglaise de "Linear Predictive Coding").
  • Arrière-plan de l'invention
  • Dans le domaine de la compression, les codeurs utilisent les propriétés du signal telles que sa structure harmonique, exploitée par des filtres de prédiction à long terme, ainsi que sa stationnarité locale, exploitée par des filtres de prédiction à court terme. Typiquement, le signal de parole peut être considéré comme un signal stationnaire par exemple sur des intervalles de temps de 10 à 20 ms. Il est donc possible d'analyser ce signal par blocs d'échantillons appelés trames, après un fenêtrage approprié. Les corrélations à court terme peuvent être modélisées par des filtres linéaires variant dans le temps dont les coefficients sont obtenus à l'aide d'une analyse par prédiction linéaire sur des trames, de faible durée (de 10 à 20 ms dans l'exemple précité). Le document US 2008/0059166 décrit un codeur scalable d'un signal audio.
  • Le codage par prédiction linéaire LPC est l'une des techniques de codage numérique les plus utilisées, en particulier dans le secteur de la téléphonie mobile, notamment dans le codeur 3GPP AMR-WB tel que décrit dans le document « 3GPP TS 26.190 V10.0.0 (2011-03) 3rd Generation Partnership Project; Technical Specification Group Services and System Aspects; Speech codec speech processing functions; Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding functions (Release 10) ». Le codage LPC consiste à effectuer une analyse LPC du signal à coder pour déterminer un filtre LPC, puis à quantifier ce filtre, d'une part, et à modéliser et coder le signal d'excitation, d'autre part. Cette analyse LPC est effectuée en minimisant l'erreur de prédiction sur le signal à modéliser ou une version modifiée de ce signal. Le modèle autorégressif de prédiction linéaire d'ordre P consiste à déterminer un échantillon de signal à un instant n par une combinaison linéaire des P échantillons passés (principe de la prédiction). Le filtre de prédiction à court terme, noté A(z), modélise l'enveloppe spectrale du signal: A z = i = 0 P a i × z i
    Figure imgb0001
  • La différence entre le signal S(n) à l'instant n et sa valeur prédite (n) est l'erreur de prédiction: e n = S n S ˜ n = S n + i = 1 P a i S n i
    Figure imgb0002
  • Le calcul des coefficients de prédiction s'effectue en minimisant l'énergie E de l'erreur de prédiction donnée par: E = n e n 2 = n S n + i = 1 P a i S n i 2
    Figure imgb0003
  • La résolution de ce système est bien connue, notamment par l'algorithme de Levinson-Durbin ou l'algorithme de Schur.
  • Les coefficients ai du filtre doivent être transmis au récepteur. Cependant, ces coefficients n'ayant pas de bonnes propriétés de quantification, des transformations sont préférentiellement utilisées. Parmi les plus courantes, on peut citer:
    • les coefficients PARCORs (abréviation anglaise de "PARtial CORrelation") consistant en des coefficients de réflexion ou coefficients de corrélation partielle,
    • les Rapports d'Aires Logarithmiques LAR (abréviation anglaise de "Log Area Ratio") des coefficients PARCORs,
    • les lignes spectrales par paires LSP (abréviation anglaise de "Line Spectral Pairs").
  • Les coefficients LSP sont maintenant les plus utilisés pour la représentation du filtre LPC car ils se prêtent bien à la quantification vectorielle.
  • D'autres représentations équivalentes des coefficients LSP existent:
    • les coefficients LSF (abréviation anglaise de "Line Spectral Frequencies"),
    • les coefficients ISP (abréviation anglaise de "Immittance Spectral Pairs"),
    • ou encore les coefficients ISF (abréviation anglaise de "Immittance Spectral Frequencies").
  • La technique de codage par prédiction linéaire LPC permet une réduction substantielle du débit au profit d'une qualité de restitution audio élevée. Toutefois, le codage à prédiction linéaire se prête mal à certaines applications de traitement de signaux audio codés, telles que la détection d'une bande de fréquence prédéterminée dans de tels signaux codés.
  • Il convient de rappeler qu'une telle détection peut s'avérer utile, voire nécessaire, compte tenu à l'heure actuelle, de la multiplicité croissante des formats de compression audio.
  • En effet, pour offrir mobilité et continuité, les services de communication multimédias modernes et innovants doivent pouvoir fonctionner dans une grande variété de conditions. Le dynamisme du secteur de la communication multimédia et l'hétérogénéité des réseaux, accès et terminaux ont engendré une prolifération de formats de compression dont la présence dans les chaînes de communication nécessite plusieurs codages soit en cascade (transcodage), soit en parallèle (codage multi-format ou codage multi-mode).
  • Outre la technique de codage par prédiction linéaire mentionnée ci-dessus, il existe d'autres techniques de compression audio pour réduire le débit tout en maintenant une bonne qualité, telles que par exemple :
    • les techniques MIC "Modulation par Impulsions et Codage" (en anglais PCM "Pulse Code Modulation"),
    • et les techniques par transformée fréquentielle telles celles du type MDCT (abréviation anglaise de "Modified Discrete Cosine Transformation") ou FFT (abréviation anglaise de « Fast Fourier Transform »).
  • Certains codeurs combinent différentes techniques de codage. Ainsi dans le document Combescure P., Schnitzler J., Fischer K., Kircherr R., Lamblin C., Le Guyader A., Massaloux D., Quinquis C., Stegmann J., Vary P., A 16, 24, 32 kbit/s wideband speech codec based on ATCELP, in IEEE International Conference on Acoustics, Speech, and Signal Processing, 1999 (ICASSP99), Page(s): 5 - 8 vol.1, il est proposé de combiner une technique de transformée fréquentielle de type MDCT et une technique de codage par prédiction linéaire de type CELP (abréviation anglaise de « Code Excited Linear Prediction ») pour coder des signaux bande élargie, la commutation entre les deux technologies étant contrôlée par une classification du signal.
  • Le transcodage est nécessaire lorsque dans une chaîne de transmission, une trame de signal compressée émise par un codeur ne peut plus poursuivre son chemin, sous ce format. Le transcodage permet de convertir cette trame sous un autre format compatible avec la suite de la chaîne de transmission. La solution la plus élémentaire (et la plus courante à l'heure actuelle) est la mise bout à bout d'un décodeur et d'un codeur. La trame compressée arrive sous un premier format, puis elle est décompressée. Le signal décompressé est alors compressé à nouveau sous un second format accepté par la suite de la chaîne de communication. Cette mise en cascade d'un décodeur et d'un codeur est appelée un tandem.
  • Dans le cas particulier d'un tandem, des codeurs codant respectivement des bandes de fréquence différentes peuvent être mis en cascade. Ainsi, un codeur fonctionnant dans une bande de fréquence élargie [50Hz-7kHz], appelée également bande WB (abréviation anglaise de « WideBand ») peut être amené à coder un contenu audio fonctionnant dans une bande de fréquence plus restreinte que la bande élargie. Par exemple, le contenu à coder par un codeur 3GPP AMR-WB tel que mentionné plus haut, bien qu'échantillonné à 16 kHz, peut n'être en fait qu'en bande téléphonique si un tel contenu a été codé précédemment par un codeur fonctionnant dans une bande de fréquence étroite [300 Hz, 3400 Hz], appelée également bande NB (abréviation anglaise de « NarrowBand »). Il se peut aussi que la qualité limitée de l'acoustique du terminal émetteur ne permette pas de couvrir toute la bande élargie.
  • Il apparaît donc que la bande audio d'un flux codé par un codeur fonctionnant sur des signaux échantillonnés à une fréquence d'échantillonnage donnée peut être bien plus restreinte que celle réellement supportée par le codeur.
  • Parmi les applications de traitement du signal audio exploitant avantageusement la connaissance de la bande de fréquence audio du contenu à traiter, on peut citer :
    • la classification des signaux audio,
    • la reconnaissance automatique de parole,
    • la conversion de la parole au texte (en anglais STT "Speech To Text") d'émissions de radio ou de télévision contenant des passages en bande étroite,
    • le tatouage numérique,
    • l'analyse non intrusive de flux par des sondes placées sur le plan média dans les réseaux, ce qui permet notamment de détecter le changement de bande des contenus transportés et éventuellement la durée desdits contenus dans une bande donnée, au sein du réseau suite à ce changement de bande,
    • l'affichage sur un terminal mobile d'un logo « HD Voice » (abréviation anglaise de « High-Definition Voice »), tel qu'approuvé par la GSMA en août 2011 pour les réseaux et terminaux mobiles et tel que décrit dans le document disponible à l'adresse Internet : http://www.gsm.org/membership/industry_logos.htm,
    • l'indicateur de nombres d'appels déposés en bande élargie sur une messagerie vocale mobile.
  • Parmi les méthodes connues de détection de la bande de fréquence d'un signal audio numérique, il y a celles opérant dans le domaine signal (original ou décodé), et celles opérant dans le domaine codé.
  • La détection de la bande de fréquence dans le domaine signal repose sur une analyse spectrale du signal audio numérique. A titre d'exemple, une telle détection est mise en oeuvre dans le codec 3GPP2 VMR-WB tel que décrit dans le document 3GPP2 C.S0052-0 (June 11, 2004) « Source-Controlled Variable-Rate Multimode Wideband Speech Codec (VMR-WB) Service Option 62 for Spread Spectrum Systems », afin de détecter un contenu audio bande étroite qui a été sur-échantillonné à la fréquence d'échantillonnage de 16 kHz propre à ce codec.
  • Le codec précité procède à une analyse spectrale du signal temporel (après sous-échantillonnage à 12.8 kHz, filtrage passe-haut et pré-emphase) en effectuant deux transformées fréquentielles FFT sur 256 échantillons par trame, pour obtenir deux jeux de paramètres spectraux par trame. Le spectre obtenu par l'analyse FFT est divisé en 20 bandes critiques, le nombre de bins de fréquence dans ces 20 bandes étant MCB= {2, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 5, 6, 6, 8, 9, 11, 14, 18, 21}. Puis, l'énergie dans chaque bande critique est calculée, selon la formule: E CB i = 1 / 2 L FFT 2 M CB i k = 0 M CB i 1 X R 2 k + j i + X I 2 k + j i , i = 0 , , 19
    Figure imgb0004
    l'indice ji est l'indice du premier bin de la bande i j i = k = 0 i 1 M CB k + 1 ,
    Figure imgb0005
    et XR (k) et XI (k) étant les parties réelles et imaginaires du spectre FFT.
  • Afin de traiter correctement les signaux bande étroite sur-échantillonnés, un algorithme de détection est appliqué pour détecter de tels signaux. Il consiste à tester le niveau d'énergie lissée dans les deux dernières bandes.
  • En variante à la transformée FFT précitée, d'autres transformées fréquentielles peuvent être utilisées, telles que par exemple la transformée MDCT (abréviation anglaise de "Modified Discrete Cosine Transformation »).
  • La détection de la bande de fréquence dans le domaine codé peut reposer quant à elle sur un décodage préalable du signal codé puis sur l'application des techniques d'analyse spectrale ci-dessus telles qu'utilisées dans le domaine signal pour analyser les contenus audio originaux (non codés ou avant codage). Cependant, le décodage augmente la complexité et le retard du traitement. Dans bien des applications, il est donc souhaitable, pour éviter ces problèmes de complexité et/ou de retard, d'extraire les caractéristiques du signal sans effectuer un décodage complet du signal.
  • Plusieurs techniques d'analyse dans le domaine codé ont été proposées. Elles concernent les codeurs par transformée ou en-sous bandes tels les codeurs MPEG (e.g. MP3, AAC, ...).
  • Dans de tels codeurs, le flux codé comporte en effet des coefficients spectraux codés, comme par exemple, les coefficients MDCT dans le codeur MP3. Ainsi dans le document Liaoyu Chang, Xiaoqing Yu, Haiying Tan, Wanggen Wan, Research and Application of Audio Feature in Compressed Domain, IET Conference on Wireless, Mobile and Sensor Networks, 2007. (CCWMSN07), Page(s): 390 - 393, 2007 , il est proposé, plutôt que de décoder la totalité du signal audio codé, de décoder uniquement les coefficients MDCT qui permettent à eux seuls de déterminer les caractéristiques spectrales du signal codé. La largeur de bande BW (abréviation anglaise de "Bandwidth") du contenu audio codé est ainsi déterminée à partir de ces coefficients MDCT à l'aide de l'expression suivante: BW = Max i | SMRS i T SRMS Min i | SMRS i T SRMS
    Figure imgb0006
    SMRSi est la racine carrée de l'énergie de la ieme bande ( SMRS i = 1 N i j S i , j 2 ,
    Figure imgb0007
    Si,j représente le jieme coefficient de la iieme bande et Ni, le nombre de coefficients dans la iieme bande) et TSRMS un seuil.
  • Les méthodes de détection de la bande de fréquence d'un signal audio numérique qui viennent d'être décrites reposent principalement sur une analyse fréquentielle du spectre du signal. Dans le cas où le contenu audio a été codé par une transformée fréquentielle, la détection de la bande de fréquence audio dans le contenu codé exploite avantageusement l'information spectrale contenue dans le flux binaire codé en ne décodant pas complètement le signal. Ceci réduit notablement la complexité de la détection en éliminant les coûteuses opérations que requièrent le décodage complet et l'analyse spectrale (à base de FFT ou de MDCT) du signal audio codé.
  • Or si les technologies de compression par transformée sont très répandues en codage audio (hauts débits, fréquence d'échantillonnage élevée), ce n'est pas le cas en codage de parole où les procédés de codage utilisent majoritairement les technologies de compression à prédiction linéaire telles que décrites précédemment et qui reposent pourtant sur une modélisation de l'enveloppe spectrale du signal par les coefficients de prédiction linéaire du filtre LPC à court terme et les diverses transformations (ex : LSP) utilisées pour la quantification.
  • Une solution pour déterminer la bande de fréquence audio d'un signal codé par un codeur à prédiction linéaire consiste à décoder le signal puis à lui appliquer une méthode de détection de bande de fréquence dans le domaine signal, telle que celle qui a été décrite ci-dessus. Cependant, une telle solution s'avère très coûteuse en complexité de calculs, entraînant de ce fait une consommation non souhaitée des ressources de l'unité centrale de traitement CPU (abréviation anglaise de « Central Processing Unit »). La complexité de calculs est engendrée par l'application des transformées fréquentielles FFT ou MDCT qui restent des opérations complexes.
  • De plus, si dans certaines des applications précitées de traitement du signal audio bénéficiant de la connaissance de la bande de fréquence audio, le signal décodé est disponible, telles que par exemple l'application consistant à afficher sur un terminal mobile un logo « HD Voice », ce n'est pas le cas de toutes les applications. Ainsi, par exemple, dans l'application d'indicateur de nombres d'appels déposés en bande élargie sur une messagerie vocale mobile, il faut alors rajouter à la complexité de la transformée temps-fréquence et de la détection de la bande audio à partir des énergies par bande, la complexité du décodage. Or, dans un codeur, tel qu'en particulier le codeur AMR-WB précité, le décodage représente 20% de la complexité totale du codeur, elle-même estimée autour de 40 WMOPS (abréviation anglaise de « Weighted Millions of Operations Per Second »).
  • Comme indiqué précédemment, certains codeurs combinent des techniques de codage par prédiction linéaire avec d'autres techniques de compression telles que par exemple des techniques de codage par transformée fréquentielle de type MDCT. On pourrait alors se contenter de n'effectuer la détection que sur les blocs de signal audio codés par une technique de transformée fréquentielle en utilisant pour ces blocs une méthode de l'état de l'art. Cependant cette solution nuirait à la réactivité de la détection car selon le type du contenu et/ou le débit, le codage à prédiction linéaire peut être majoritairement utilisé.
  • Objet et résumé de l'invention
  • Un des buts de l'invention est de remédier à des inconvénients de l'état des techniques précitées.
  • A cet effet, un objet de la présente invention concerne un procédé de détection selon la revendication 1. Une telle disposition permet d'identifier, avec un faible coût de calculs, si la bande de fréquence audio d'un contenu préalablement codé par un codeur à prédiction linéaire est plus restreinte ou non que la bande de fréquence audio dans laquelle fonctionne un tel codeur.
  • Dans le cas par exemple du codeur AMR-WB pour lequel le signal est échantillonné à 16 kHz, puis sous-échantillonné à 12.8 kHz en vue de l'analyse LPC de ce dernier, l'invention permet de déterminer par exemple la présence d'un contenu audio de fréquence supérieure à 4 kHz.
  • Une telle disposition est particulièrement avantageuse en ce sens qu'elle n'impose pas nécessairement un décodage complet du signal audio. Ainsi, l'invention peut être avantageusement mise en oeuvre dans certaines applications de détection de bandes de fréquences qui n'ont pas besoin de réaliser un décodage du signal audio codé, telles que par exemple l'indicateur de nombres d'appels déposés en bande élargie sur une messagerie vocale mobile.
  • Grâce à la simplicité d'une telle détection basée principalement sur l'analyse des différences dans les distributions d'une partie seulement des paramètres spectraux de prédiction linéaire décodés, les performances de cette détection s'en trouvent optimisées. En outre, la complexité des calculs effectués pour la mise en oeuvre d'une telle détection est nettement réduite en comparaison de la complexité de calculs engendrée par l'application de transformées fréquentielles FFT ou MDCT sur des signaux décodés des méthodes de détection de bande de fréquence de l'art antérieur.
  • Dans un mode de réalisation particulier, tous les paramètres spectraux de l'ensemble de paramètres spectraux précité sont préalablement décodés.
  • Une telle disposition permet de détecter de façon simple la bande de fréquence d'un contenu audio décodé, par un accès direct aux paramètres de prédiction linéaire décodés associés à ce contenu, et sans ajouter de complexité supplémentaire (décodage complet, transformée temps-fréquence).
  • Ainsi, par exemple, l'invention est particulièrement adaptée à sa mise en oeuvre dans un terminal de communication, fixe ou mobile, qui comprend par nature un codeur et un décodeur audio, et plus précisément à l'application dans ce terminal qui consiste à afficher sur l'écran de ce dernier un logo « HD Voice ».
  • Dans encore un autre mode de réalisation, dans le cas où parmi la succession de blocs de données, certains blocs contiennent chacun un ensemble de paramètres spectraux représentant un filtre de prédiction linéaire et certains autres blocs contiennent chacun un ensemble de paramètres spectraux obtenus par transformation fréquentielle, seuls sont considérés, en vue de la détection selon l'invention, les blocs contenant chacun un ensemble de paramètres spectraux représentant un filtre de prédiction linéaire.
  • S'agissant des blocs contenant chacun un ensemble de paramètres spectraux obtenus par transformation fréquentielle, une méthode de détection de bande de fréquence de l'art antérieur pourra par exemple être appliquée.
  • Dans un autre mode de réalisation particulier, lorsque la bande de fréquence prédéterminée à détecter est la bande des hautes fréquences, l'étape de détermination consiste à rechercher préférentiellement l'indice du premier paramètre spectral supérieur à une fréquence seuil.
  • Selon l'invention, on entend par bande des hautes fréquences, la bande des fréquences supérieures à un certain seuil. Par exemple, en bande élargie, on peut considérer que la bande haute fréquence correspond aux fréquences supérieures à 4 kHz (ou 3,4 kHz). Plus généralement, pour un signal échantillonné à une fréquence d'échantillonnage Fe et de largeur de bande inférieure ou égal à 0,5 Fe, la bande des hautes fréquences sera la bande des fréquences supérieures à α'0.5Fe (0<α'<1 ), α' étant ajustable.
  • De même, on entend par bande des basses fréquences, la bande des fréquences inférieures à un certain seuil. Lorsque la bande de fréquence prédéterminée à détecter est la bande des basses fréquences, ladite étape de détermination consiste à rechercher préférentiellement l'indice du dernier paramètre spectral inférieur à une fréquence seuil.
  • Une telle disposition permet ainsi de mettre en oeuvre l'invention par exemple dans des applications de traitement de la voix en qualité HD, en particulier aussi bien dans un terminal de communication mobile capable de fonctionner dans la plage de fréquences précitée, que dans un serveur de messagerie vocale capable de traiter des contenus audio HD, voire au sein d'une sonde se trouvant en coupure de flux audio d'un réseau de communication.
  • Dans encore un autre mode de réalisation particulier, le bloc courant contient des données représentatives d'une activité vocale.
  • Une telle disposition optionnelle permet, dans le cas particulier où il s'agit de détecter dans le signal audio codé une bande située dans les hautes fréquences, d'optimiser la réduction de la complexité du procédé de détection en effectuant la détection, non pas sur toutes les trames contenant au moins un ensemble de paramètres spectraux représentant un filtre de prédiction linéaire, mais seulement sur des trames pertinentes susceptibles de contenir des hautes fréquences, c'est-à-dire celles susceptibles de contenir des données voix et/ou musique.
  • Dans encore un autre mode de réalisation particulier, le critère est calculé par comparaison entre :
    • la valeur maximale de la distance entre deux paramètres spectraux décodés voisins, estimée par rapport à la valeur de l'indice du premier paramètre spectral décodé qui a été obtenu à l'issue de l'étape de détermination,
    • la valeur minimale de la distance entre deux paramètres spectraux décodés voisins, estimée par rapport à la valeur de l'indice du premier paramètre spectral décodé qui a été obtenu à l'issue de l'étape de détermination.
  • Une telle disposition permet de réaliser, à partir d'un calcul simple, si la bande de fréquence prédéterminée est détectée, tout en respectant un compromis complexité/fiabilité/réactivité de la détection.
  • En variante, le critère précité est calculé à l'aide d'une fonction mathématique utilisant comme paramètre au moins l'indice du premier paramètre spectral décodé qui a été obtenu à l'issue de l'étape de détermination précitée.
  • Dans encore un autre mode de réalisation particulier, à la suite de l'étape de décision mise en oeuvre pour le bloc courant, une étape de décision globale est mise en oeuvre par lissage du résultat de cette étape de décision et de K résultats de décision antérieurs, relatifs respectivement à K blocs précédant le bloc courant. Un tel lissage sur plusieurs blocs des détections locales propres à chaque bloc permet ainsi d'augmenter la fiabilité de la détection et par exemple de se prémunir d'un contenu audio réellement bande étroite pendant quelques trames (bruit par ex.).
  • Corrélativement, l'invention concerne un dispositif de détection selon la revendication 9. En particulier, un tel dispositif de détection est destiné à mettre en oeuvre tous les modes de réalisation du procédé de détection qui ont été mentionnés ci-dessus. Dans d'autres modes de réalisation particuliers, le dispositif de détection est apte à être contenu dans un terminal de communication, dans un serveur de messagerie vocale ou bien dans une sonde.
  • L'invention vise également un programme d'ordinateur selon la revendication 11. Un tel programme peut utiliser n'importe quel langage de programmation, et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet, tel que dans une forme partiellement compilée, ou dans n'importe quelle autre forme souhaitable.
  • Encore un autre objet de l'invention vise aussi un support d'enregistrement lisible par un ordinateur, selon la revendication 12. Le support d'enregistrement peut être n'importe quelle entité ou dispositif capable de stocker le programme. Par exemple, un tel support peut comporter un moyen de stockage, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple une disquette (floppy disc) ou un disque dur.
  • D'autre part, un tel support d'enregistrement peut être un support transmissible tel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Le programme selon l'invention peut être en particulier téléchargé sur un réseau de type Internet.
  • Alternativement, un tel support d'enregistrement peut être un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter le procédé en question ou pour être utilisé dans l'exécution de ce dernier.
  • Le dispositif de détection et le programme d'ordinateur précités présentent au moins les mêmes avantages que ceux conférés par le procédé de détection selon la présente invention.
  • Brève description des dessins
  • D'autres caractéristiques et avantages apparaîtront à la lecture de modes de réalisation préférés décrits en référence aux figures dans lesquelles:
    • la figure 1 représente les principales étapes du procédé de détection selon l'invention,
    • la figure 2 représente un mode de réalisation d'un dispositif de détection selon l'invention,
    • la figure 3 représente différents exemples de valeurs de fréquence seuil utilisées dans le procédé et le dispositif de détection selon l'invention,
    • la figure 4A représente un histogramme de l'indice du premier paramètre spectral supérieur à 4kHz, pour les blocs codés par le codeur AMR-WB contenant des données représentatives d'une activité vocale (flagVAD=1),
    • la figure 4B représente un histogramme de l'indice du premier paramètre spectral supérieur à 4kHz, pour tous les blocs codés par le codeur AMR-WB, sans tenir compte de l'indication d'activité vocale,
    • la figure 5A représente un histogramme cumulé du rapport entre la différence maximum et la différence minimum entre deux paramètres spectraux successifs à partir de l'indice du premier paramètre spectral supérieur à 4kHz, pour les blocs codés par le codeur AMR-WB contenant des données représentatives d'une activité vocale (flagVAD=1),
    • la figure 5B représente un histogramme cumulé du rapport entre la différence maximum et la différence minimum entre deux paramètres spectraux successifs à partir de l'indice du premier paramètre spectral supérieur à 4kHz, pour tous les blocs codés par le codeur AMR-WB, sans tenir compte de l'indication d'activité vocale,
    • la figure 6A représente un terminal de communication mobile apte à mettre en oeuvre le procédé de détection tel que représenté sur la figure 1,
    • la figure 6B représente un serveur de messagerie vocale apte à mettre en oeuvre le procédé de détection tel que représenté sur la figure 1.
    Principe général du procédé de détection
  • Le principe général de l'invention va maintenant être décrit en référence aux figures 1 et 2 .
  • Sur la figure 1 , le procédé de détection de bande de fréquence selon l'invention est représenté sous la forme d'un algorithme comportant des étapes S0 à S4.
  • Sur la figure 2 , le procédé de détection précité est implémenté de manière logicielle ou matérielle dans un dispositif de détection DET représenté sur la figure 2 , qui comprend à cet effet un module de traitement TR spécifique à la détection.
  • En vue de la détection d'une bande de fréquence prédéterminée dans un signal audio considéré, un tel dispositif de détection DET est destiné à être agencé :
    • soit associé à un décodeur audio de façon à récupérer certains paramètres décodés associés audit signal audio décodé, lesquels seront décrits plus loin dans la description,
    • soit de façon indépendante du décodeur de façon à lire le signal audio codé puis à effectuer un décodage partiel de certains paramètres codés associés audit signal audio codé, lesquels seront décrits plus loin dans la description,
    • soit en coupure d'un signal audio codé de façon à lire ledit signal puis à effectuer un décodage partiel de certains paramètres codés associés audit signal audio codé, lesquels seront décrits plus loin dans la description.
  • Dans le cas d'un agencement du dispositif de détection DET dans un décodeur audio, le dispositif de détection DET est par exemple contenu dans un terminal de communication fixe ou mobile.
  • Dans le cas d'un agencement du dispositif de détection DET de façon indépendante du décodeur ou bien en coupure d'un signal audio codé, le dispositif de détection DET est par exemple contenu dans un élément de la chaine de transmission du signal audio (ex : serveur de messagerie dans lequel les messages audio sont stockés sans décodage).
  • Préalablement à la mise en oeuvre du procédé de détection d'une bande de fréquence prédéterminée dans un signal audio, il est procédé au codage de ce signal, lequel a été dans un premier temps échantillonné à une fréquence d'échantillonnage prédéterminée Fe.
  • Selon l'invention, le codage dudit signal est effectué par exemple dans un codeur à prédiction linéaire utilisant des paramètres spectraux LPC à court terme, tels que des coefficients ISP ou une représentation associée, couvrant au moins une partie du spectre en fréquences (normalisées ou non).
  • Ledit codeur est par exemple le codeur 3GPP AMR-WB, tel que mentionné plus haut dans la description.
  • A titre d'alternative, le codage dudit signal pourrait être effectué par un codeur tel que par exemple celui qui a été mentionné plus haut dans la description, lequel combine une technique de transformée fréquentielle de type MDCT et une technique de codage par prédiction linéaire de type CELP.
  • Dans l'exemple représenté, la fréquence d'échantillonnage est égale à 16 kHz, correspondant à la fréquence d'échantillonnage nominale du codeur AMR-WB fonctionnant dans la bande utile de 50 Hz à 7 kHz.
  • A l'issue de l'étape de codage à prédiction linéaire réalisée dans le codeur AMR-WB, est obtenue une pluralité Z de blocs consécutifs de données B1, B2, ..., BZ, comme représenté sur les figures 1 et 2 . Chaque bloc contient au moins un ensemble de paramètres spectraux représentant un filtre de prédiction linéaire.
  • Dans le cas de l'alternative précitée, à l'issue de l'étape de codage est obtenue une pluralité de blocs consécutifs de données, certains desdits blocs contenant au moins un ensemble de paramètres spectraux représentant un filtre de prédiction linéaire et certains autres desdits blocs contenant au moins un ensemble de paramètres spectraux obtenus par transformée fréquentielle.
  • Puis est mis en oeuvre le procédé de détection d'une bande de fréquence prédéterminée du signal audio qui vient d'être codé, à partir d'une analyse de chacun des blocs précités.
  • Le procédé de détection selon l'invention s'applique uniquement sur les blocs qui contiennent au moins un ensemble de paramètres spectraux représentant un filtre de prédiction linéaire, une pluralité de ces paramètres ayant été préalablement décodés.
  • Dans le cas de l'alternative précitée, s'agissant des blocs contenant chacun un ensemble de paramètres spectraux obtenus par transformée fréquentielle, une méthode de détection de bande de fréquence de l'art antérieur pourra par exemple être appliquée.
  • Conformément au mode de réalisation, la bande de fréquence prédéterminée est la bande HF d'un contenu bande élargie.
  • Au cours d'une étape S1 représentée à la figure 1 , il est procédé au traitement d'un bloc courant Bn (n étant un entier tel que 1≤n≤Z). Le bloc courant Bn contient M paramètres spectraux p(ik) préalablement décodés, ayant un sous-ensemble ordonné de M' (M'≤M) paramètres spectraux qui s'étend par exemple entre les indices imin et imax, tel que p(imin)<...<p(ik)<...<p(imax), où imin représente l'indice du plus petit paramètre spectral dudit sous-ensemble et imax représente l'indice du plus grand paramètre spectral dudit sous-ensemble.
  • Par souci de concision, on décrit dans la suite le cas où les paramètres spectraux du sous-ensemble ordonné vérifient la relation: p(i)<p(j) si i<j, i, j ∈ {imin...,imax}. Il est évident pour l'homme de l'art que l'invention s'applique aussi à d'autres cas: comme par exemple, le cas où les paramètres spectraux du sous-ensemble ordonné vérifient la relation: p(i)>p(j) si i<j, i, j ∈ {imin,...,imax}.
  • L'étape S1 précitée est mise en oeuvre par un premier sous-module logiciel de calcul CAL1 du dispositif de détection DET, tel que représenté sur la figure 2 .
  • A cet effet, le sous-module de calcul CAL1 détermine, parmi lesdits M' paramètres spectraux, l'indice iF du premier paramètre spectral qui est le plus proche d'une fréquence seuil, ladite fréquence seuil étant déterminée à partir de la fréquence d'échantillonnage Fe dudit signal audio. i F = arg min i i min , , i max p i F th
    Figure imgb0008
  • Dans l'exemple représenté, Fth= αFe (α<0.5), où α est un paramètre ajustable. La figure 3 représente différentes valeurs possibles de Fth selon la fréquence d'échantillonnage Fe utilisée et la valeur du paramètre α.
  • Plus particulièrement, au cours de l'étape S1, le sous-module de calcul CAL1 recherche l'indice iHF du premier paramètre spectral p(ik) supérieur à Fth conformément à l'opération suivante : i HF = min arg i i min , , i max p i F th
    Figure imgb0009
  • Ou inversement, au cours de l'étape S1, le sous-module de calcul CAL1 recherche l'indice iBF du dernier paramètre spectral p(i) inférieur à Fth conformément à l'opération suivante : i BF = max arg i i min , , i max p i F th
    Figure imgb0010
  • Préférentiellement, l'étape S1 est précédée d'une étape de présélection S0, au cours de laquelle sont présélectionnés, parmi les blocs B1, B2, ..., BZ, uniquement des blocs qui contiennent des données représentatives d'une activité vocale.
  • La détection d'activité vocale de tels blocs est effectuée classiquement lors du codage de ces derniers par un module de détection d'activité vocale VAD (abréviation anglaise de « Voice Activity Detection »), lequel :
    • soit utilise l'information disponible dans le bloc (ex : indicateur VAD=1 dans le bloc codé, mode « DTX on » du module de transmission discontinue DTX (abréviation anglaise de « Discontinuous Transmission »), classification du bloc codé comme contenant une activité vocale lorsque le bloc a été codé par un codeur EVRC (abréviation anglaise de « Enhanced Variable Rate CODEC »)),
    • soit calcule dans le signal audio codé un critère d'activité vocale.
  • L'étape de présélection S0 est mise en oeuvre par un module logiciel de présélection PRES représenté sur la figure 2 .
  • L'étape S0 étant optionnelle, elle est représentée en pointillé sur la figure 1 . De façon correspondante, le module PRES de la figure 2 est également représenté en pointillé.
  • Il est ensuite procédé, au cours d'une étape S2 représentée à la figure 1 , au calcul d'au moins un critère à partir dudit indice iF déterminé. Une telle étape est mise en oeuvre par un deuxième sous-module logiciel de calcul CAL2 du dispositif de détection DET, tel que représenté sur la figure 2 .
  • Selon une première variante de réalisation, un tel critère est basé sur la comparaison de la « distance » entre deux paramètres spectraux successifs par rapport à l'indice iF déterminé.
  • Une telle distance est évaluée conformément à la relation ci-dessous : d i = dist p i , p i 1
    Figure imgb0011
  • Préférentiellement, une telle distance correspond à la simple différence entre deux paramètres spectraux successifs: d i = dist p i , p i 1 = ( p i p i 1
    Figure imgb0012
  • Plus précisément, le sous-module logiciel CAL2 calcule d'abord respectivement :
    • la valeur maximale dmax de la distance entre deux paramètres spectraux voisins, estimée par rapport à l'indice iF déterminé, et
    • la valeur minimale dmin de la distance entre deux paramètres spectraux voisins, estimée par rapport à l'indice iF déterminé.
  • Un tel calcul est effectué selon les relations suivantes ci-dessous : d max = max i k i HF i max d i k = max i k i HF i max p i k p i k 1
    Figure imgb0013
    et d min = min i k i HF i max d i k = min i k i HF i max p i k p i k 1
    Figure imgb0014
    ou bien d max = max i k ] i min , i BF ] d i k = max i k ] i min , i BF ] p i k p i k 1
    Figure imgb0015
    et d min = min i k ] i min , i BF ] d i k = min i k ] i min , i BF ] p i k p i k 1
    Figure imgb0016
  • Puis le sous-module logiciel de calcul CAL2 calcule un critère en fonction des deux distances calculées dmax et dmin pour détecter la présence d'un contenu audio HF (ou BF). Ce critère est noté par exemple crit(dmin , dmax ).
  • Préférentiellement, ce critère est le rapport ρ entre les deux distances calculées précédemment, tel que: ρ = crit d min d max = d max / d min ou crit d min d max = d min / d max
    Figure imgb0017
  • Selon une deuxième variante de réalisation, un tel critère est basé sur une fonction mathématique F(iF ) utilisant comme paramètre l'indice iF.
  • Ladite fonction mathématique F(iF ) consiste par exemple en une fonction affine par morceaux telle que: F i F = a 0 i F + b 0 si i min i F < l 0
    Figure imgb0018
    F i F = a 1 i F + b 1 si l 0 i F < l 1
    Figure imgb0019
    F i F = a N 1 i F + b N 1 si l N 2 i F i max
    Figure imgb0020
  • En particulier, ladite fonction peut être en quatre morceaux, telle que: si i min i F < 8 , F i F = 4 * i F 36
    Figure imgb0021
    si 8 i F < 10 , F i F = 3 * i F 30
    Figure imgb0022
    si 10 i F < 13 , F i F = 2 * i F 21
    Figure imgb0023
    si 13 i F i max , F i F = 3 * i F 30
    Figure imgb0024
  • Ainsi, selon cette variante, le critère dépend de la valeur de la fonction affine.
  • D'autres fonctions peuvent bien entendu être utilisées. On citera par exemple, la fonction suivante : F i F = sign i F c * i F c 2 , où sign x = 1 si x < 0 , 1 sign x = 1
    Figure imgb0025
    sinon,
    où c est une variable ou une constante égale à environ 10,5.
  • A la suite de l'étape S2 précitée, une étape S3 représentée à la figure 1 consiste à décider si la bande de fréquence prédéterminée est détectée dans le bloc courant Bn, en fonction de l'un des critères qui a été calculé à l'étape S2. Une telle étape est mise en oeuvre par un troisième sous-module logiciel de calcul CAL3 du dispositif de détection DET, tel que représenté sur la figure 2 .
  • A titre d'alternative, la décision est fonction de l'un ou de l'autre des deux critères mentionnés ci-dessus, ou bien encore d'une combinaison de ces derniers.
  • Dans le cas où le critère calculé est conforme à la première variante précitée, à savoir ρ = d max/d min, la décision peut être souple ou dure.
  • Par souci de concision, on décrit dans la suite le cas où l'étape de décision est relative à la détection d'une bande de hautes fréquences. Il est évident pour l'homme de l'art d'appliquer cette étape de décision de façon similaire, s'agissant de la détection d'une autre bande de fréquence, telle que par exemple une bande de basses fréquences.
  • La décision dure consiste à comparer le critère ρ à un seuil prédéterminé adaptatif ou non, noté critth. La comparaison est par exemple effectuée selon les calculs ci-dessous : Si ρ > crit th , flag HF = 1
    Figure imgb0026
    Sinon flagHF = 0
    flagHF est un bit qui est soit mis à 1 pour indiquer que le contenu HF a été détecté, soit mis à 0 pour indiquer que le contenu HF n'a pas été détecté.
  • Une décision souple consiste par exemple à utiliser la valeur de ρ bornée dans l'intervalle [1,3]. Plus cette valeur est proche de la borne inférieure « 1 » de cet intervalle, plus un contenu HF est considéré non détecté dans le bloc du signal audio. Plus cette valeur est proche de la borne supérieure « 3 » de l'intervalle, plus un contenu HF est considéré détecté dans le signal audio.
  • Considérons maintenant le cas où le critère est ρ'=d min/d max.
  • La décision dure consiste à comparer le critère ρ' à un seuil prédéterminé adaptatif ou non, noté crit'th. La comparaison étant alors: Si ρ > crit th , flag HF = 0
    Figure imgb0027
    Sinon flagHF = 1
    flagHF égal 1 (respectivement 0) indique que le contenu HF a été détecté, (resp. que le contenu HF n'a pas été détecté).
  • La décision souple consiste par exemple à utiliser la valeur de ρ' dans l'intervalle [0,1]. Plus cette valeur est proche de la borne inférieure « 0 » de cet intervalle, plus un contenu HF est considéré comme détecté dans le bloc du signal audio. Plus cette valeur est proche de la borne supérieure « 1 » de l'intervalle, plus un contenu HF est considéré comme non détecté dans le signal audio. Plus la valeur des critères est proche des bornes de l'intervalle plus la décision pour le bloc (détection ou non de contenu HF) apparaît fiable, tandis qu'une valeur de ρ' proche du seuil crit'th indique une faible fiabilité de la décision.
  • Dans le cas où le critère calculé est conforme à la deuxième variante précitée, à savoir une fonction mathématique F(iF ), la décision peut être également souple ou dure.
  • Prenons par exemple le cas où la fonction mathématique F(iF)= sign(iF-c) *(iF-c)2 sert à détecter si un contenu HF est présent.
  • Une décision dure consiste par exemple à comparer le critère F(iHF ) à 0, selon les calculs ci-dessous : Si F i HF < 0 , flag HF = 1
    Figure imgb0028
    Sinon flagHF = 0
    flagHF est un bit qui est soit mis à 1 pour indiquer que le contenu HF a été détecté, soit mis à 0 pour indiquer que le contenu HF n'a pas été détecté.
  • Dans ce cas, la décision souple peut alors consister à prendre la valeur de la fonction mathématique. Plus cette valeur est négative (respectivement positive), plus la fiabilité de la détection de la présence (respectivement de l'absence) d'un contenu HF est élevée. Par contre, une valeur de la fonction mathématique proche de zéro indique que la fiabilité de la détection est faible.
  • Dans le cas où le dispositif de détection DET détient déjà K résultats de décision relatifs respectivement à K blocs précédant le bloc courant Bn, il est avantageux, pour augmenter la fiabilité de la détection, de procéder, au cours d'une étape suivante S4 représentée à la figure 1 , à un lissage de ces K résultats et du résultat de la décision qui vient d'être obtenu pour le bloc courant Bn à l'étape S3 précitée, par une fenêtre éventuellement glissante. Là encore, la détection sur la fenêtre peut être une décision souple ou dure, que les détections locales relatives à chaque bloc aient été obtenues par décision souple ou dure. Une telle étape de lissage S4 est mise en oeuvre par un quatrième sous-module logiciel de calcul CAL4 représenté à la figure 2 .
  • L'étape S4 étant optionnelle, elle est représentée en pointillé sur la figure 1 . De façon correspondante, le sous-module CAL4 de la figure 2 est également représenté en pointillé.
  • Dans le mode de réalisation représenté, où le codeur audio est le codeur 3GPP AMR-WB, chaque bloc de données codées contient 16 paramètres dont les 15 premiers sont des paramètres spectraux ordonnés couvrant le spectre (normalisé) entre 0 et 6.4 kHz, le seizième paramètre étant l'indicateur d'activité vocale (VAD) codé sur un bit.
  • Les figures 4A et 4B représentent chacune un histogramme de l'indice iHF du paramètre spectral p(i) supérieur à Fth =4 kHz du codec AMR-WB. Les indices sont représentés en abscisse et la distribution en pourcentage de ces indices est représentée en ordonnée. Sur la figure 4A , le procédé de détection qui a été mis en oeuvre comprend l'étape S0 de présélection des blocs contenant une activité vocale. Sur la figure 4B , le procédé de détection qui a été mis en oeuvre ne comprend pas l'étape S0. Quatre configurations différentes sont représentées à titre d'exemple sur les figures 4A et 4B : celle représentée en trait plein gras qui correspond au codec AMR-WB seul, celle représentée en trait pointillé qui correspond au codeur AMR-WB disposé en tandem après un autre codeur WB, tel que par exemple le codeur HD fixe G.722 à 64 kbit/s, celle représentée en trait fin qui correspond au codeur AMR-WB disposé en tandem après un codeur NB tel que par exemple le codeur pivot G.711, et celle représentée en trait mixte qui correspond au codeur AMR-WB disposé en tandem après un codeur NB, tel que le codeur mobile FR (abréviation anglaise de "Full Rate ").
  • Les histogrammes ont été obtenus sur des longs fichiers de parole avec différents bruits de fond (trafic routier, cafétéria, brouhaha), en tenant compte de trois rapports signal-à-bruit RSB différents (RSB= 5, 10, 20 dB).
  • Comme le montrent les figures 4A et 4B , la distribution de l'indice du premier paramètre spectral supérieur à 4 kHz diffère nettement selon que le premier codeur est de type WB ou NB. En particulier pour les codeurs WB, un pic est obtenu pour un indice iHF =10.
  • De façon correspondante, les figures 5A et 5B représentent chacune un histogramme cumulé du rapport ρ entre la différence maximum et la différence minimum entre deux paramètres spectraux successifs à partir de l'indice iHF du paramètre spectral supérieur à Fth =4 kHz du codec AMR-WB. Les valeurs du rapport ρ sont représentées en abscisse et la distribution en pourcentage de ces rapports est représentée en ordonnée. Sur la figure 5A , le procédé de détection qui a été mis en oeuvre comprend l'étape S0 de présélection des blocs contenant une activité vocale. Sur la figure 5B , le procédé de détection qui a été mis en oeuvre ne comprend pas l'étape S0. Quatre configurations, qui correspondent respectivement à celles des figures 4A et 4B , sont représentées sur les figures 5A et 5B . Les quatre configurations des figures 5A et 5B sont symbolisées de la même façon que sur les figures 4A et 4B .
  • Comme le montrent les figures 5A et 5B , la distribution du rapport ρ diffère nettement selon que le codeur est de type WB ou NB. En particulier, les distributions du rapport ρ relatif aux codeurs WB et les distributions du rapport ρ relatif aux codeurs NB s'écartent l'une de l'autre à partir de ρ=1,9.
  • De tels exemples de distributions sont ainsi exploités avantageusement par l'invention pour détecter si un signal audio codé par un codeur à prédiction linéaire tel que le codeur AMR-WB contient des hautes fréquences, une telle détection étant avantageusement effectuée :
    • avec une faible complexité algorithmique,
    • sans décodage complet du signal audio pour certaines applications audio ne proposant pas de décodage audio,
    • sans appliquer une coûteuse transformée fréquentielle.
  • On va maintenant décrire une première application du procédé de détection qui vient d'être décrit ci-dessus en vue de l'affichage d'un logo HD sur un terminal de communication mobile HD.
  • Un tel terminal est désigné par la référence TER sur la figure 6A .
  • De façon connue en soi, le terminal TER comprend :
    • une interface utilisateur INT comprenant classiquement un clavier, un écran, un micro et un haut parleur,
    • un module de communication COM1, par exemple de type 3G,
    • une mémoire morte MEM1 comprenant un module de codage audio CO1 et un module de décodage audio DO1.
  • Dans l'exemple représenté, le module de codage CO1 et le module de décodage DO1 sont du type AMR-WB.
  • Conformément à l'invention, la mémoire morte MEM1 ou bien une autre mémoire du terminal mobile TER contient en outre un dispositif DET1 de détection d'une bande de fréquence prédéterminée, similaire au dispositif de détection DET représenté sur la figure 2 .
  • Dans cette application, de façon classique, un flux audio codé est reçu par le module de communication COM1, puis entièrement décodé par le module de décodage DO1, de façon à ce que le terminal mobile TER restitue la parole par l'intermédiaire du haut-parleur de son interface utilisateur INT. Parmi les paramètres décodés délivrés par le décodeur DO1 au dispositif de détection DET1 figurent les 15 premiers coefficients ISF, paramètres spectraux ordonnés couvrant le spectre (normalisé) entre 0 et 6.4 kHz, et éventuellement l'indicateur VAD dont la valeur est mise à 1 si l'encodeur du terminal ayant émis le flux audio codé à destination du terminal TER a estimé que le signal de la trame était actif (tonalité, parole, musique), ou à zéro sinon.
  • Sur la base desdits 15 premiers coefficients ISF et éventuellement de l'indicateur VAD, le dispositif de détection DET1 du terminal TER met alors en oeuvre directement le procédé de détection de bande de fréquence prédéterminée tel que décrit à la figure 1 , avec une faible complexité bien inférieure par exemple à la complexité de l'application d'une transformée temps-fréquence sur le signal préalablement décodé.
  • A cet effet, préalablement à la mise en oeuvre de l'étape S0 précitée, il est procédé, dans le cas où l'étape de lissage S4 optionnelle est mise en oeuvre, à l'initialisation à zéro des quatre valeurs suivantes:
    • un critère global critGlob,
    • un indice ind , pour indexer une table de critères locaux,
    • un compteur de trames nbFrm pour lesquelles une décision a été prise,
    • un tableau tabDec de décisions locales.
  • A l'issue de l'étape d'initialisation, les valeurs suivantes sont obtenues: critGlob =0;
 ind =0;
 nbFrm = 0;
 tabDec[i] = 0; avec i=0,... ,nbCount,
 où nbCount est le nombre de décisions locales à partir desquelles une décision
 globale (0<nbCount) est prise.
  • Au cours de l'étape S1 représentée à la figure 1 , il est procédé au traitement d'un bloc courant Bn (n étant un entier tel que 1≤n≤Z). Le bloc courant Bn contient les quinze/seize paramètres précités (15 coefficients spectraux et éventuellement l'indicateur VAD) qui ont été décodés par le module de décodage DO1.
  • Préférentiellement, l'étape S1 est précédée de l'étape de présélection S0, au cours de laquelle sont présélectionnés, parmi les blocs B1, B2,..., BZ, uniquement des blocs qui contiennent des données représentatives d'une activité vocale, pour lesquels l'indicateur VAD est à 1.
  • Au cours du traitement dudit bloc courant Bn, il est procédé à la recherche de l'indice iHF du premier paramètre spectral p(ik) supérieur à Fth conformément à l'opération suivante : i HF = min arg i k i o i 1 p i k F th
    Figure imgb0029
  • On peut évidemment choisir comme intervalle de recherche i0=0 et i1=15. Avantageusement, on réduit cet intervalle de recherche, entraînant de ce fait une détection plus rapide et moins complexe. Par exemple, en choisissant i0=8 au lieu de i0=0.
  • De même, l'intervalle de recherche pourrait être limité un peu plus en choisissant i1=12 au lieu de i1=15.
  • Dans l'exemple représenté, la fréquence seuil Fth est égale à 4 kHz. La valeur de cette fréquence exprimée en fréquence normalisée par rapport à 0.5 (correspondant à 6.4 kHz) vaut alors 0.3125 (soit 10240 =0.3125*32768 en virgule fixe Q15).
  • Un exemple de pseudo-code en langage informatique C de cette étape est donné ci-dessous.
  •  iHF= i1; move 16();
     FOR(i=i1-1; i>= i0; i--)
     {
       if(sub(p(i), Fth) >=0)
       {
           iHF = i; move16();
       }
       }
  • Il est ensuite procédé, au cours d'une étape S2 représentée à la figure 1 , au calcul d'au moins un critère local sur le bloc courant Bn, à partir dudit paramètre spectral d'indice iHF .
  • Le critère choisi dans ce mode de réalisation est: F i HF = sign i HF c * 2 i HF c 2 ,
    Figure imgb0030
    où sign(x) = -1 si x<0, et sign(x) = 1 sinon, avec c= 21.
  • Un exemple de pseudo-code C de cette étape est donné ci-dessous:
  •  diff = shl(iHF, 1);
     diff = sub(diff, c);
     critLoc = L_mult0(diff, diff);
     if(diff < 0) {
       critLoc= L_negate(critLoc);
       }
  • A la suite de l'étape S2 précitée, une étape S3 représentée à la figure 1 consiste à décider si la bande de fréquence prédéterminée est détectée dans le bloc courant Bn, en fonction de l'un des critères qui a été calculé à l'étape S2.
  • Préférentiellement, la décision est une décision souple donnée par le critère local calculé à l'étape précédente.
  • Un exemple de pseudo-code C de cette étape est donné ci-dessous: decLoc = critLoc ; move 16 ;
    Figure imgb0031
  • En pratique, à l'issue de cette étape, le logo HD est destiné à s'afficher sur l'écran du terminal TER avec un contraste plus ou moins élevé qui correspond respectivement à une valeur plus ou moins élevée du critère calculé.
  • A titre d'alternative la décision est une décision dure déterminée par le critère local calculé à l'étape précédente.
  • Un exemple de pseudo-code C de cette étape alternative est donné ci-dessous:
  •    decLoc = 1; movel 16(); /* NB */
       if (critLoc<0)
       {
           decLoc = 1; move160();/* WB */
       }
  • En pratique, à l'issue de cette étape alternative, le logo HD est destiné à s'afficher sur l'écran du terminal TER si le critère calculé est inférieur à 0, ou à ne pas s'afficher sinon.
  • Avantageusement, au cours de l'étape S4 optionnelle représentée à la figure 1 , pour augmenter la fiabilité de la détection, les détections locales sont lissées sur plusieurs blocs (nbCount > 1) par une fenêtre éventuellement glissante. Là encore, de façon similaire à l'étape précédente, la détection sur la fenêtre peut être une décision decGlob souple ou dure, que les détections locales aient été obtenues par décision souple ou dure.
  • Pour cela, les décisions locales (souples ou dures) sont stockées dans le tableau de décisions locales et sont utilisées pour mettre à jour le critère global critGlob.
  • Un exemple de pseudo-code C de cette étape est donné ci-dessous dans le cas où les décisions locales sont souples (decLoc = critLoc) et la décision globale dure:
    • Après une étape d'initialisation - mise à zéro des variables critGlob et ind, et du tableau tabDec[nbCount], pour chaque bloc de données pour lequel une décision locale decLoc a été déterminée :
             critGlob = L_sub(critGlob, tabDec[ind]);
             critGlob = L_add(critGlob, decLoc);
             tabDec[ind]= decLoc; move32();
             ind = add(ind, 1);
             if(sub(ind, nbCount) == 0)
             {
                 ind = 0; move 16();
             }
             flagWB = 1; /* assume WB */
             if(critGlob > 0) {
                 flagWB = 0; /* NB détecté */
             }
  • La décision globale est ici prise sur une fenêtre glissante.
  • Dans une variante de réalisation, la décision globale est prise sur des fenêtres ne se recouvrant pas. Dans ce cas, il est inutile de stocker un tableau de décisions locales, il suffit d'ajouter les décisions locales au critère global qui est réinitialisé à zéro au début de chaque fenêtre traitée. Un exemple de pseudo-code C de cette variante est donné ci-dessous dans le cas où les décisions locales sont souples (decLoc = critLoc) et la décision globale dure: Après une étape d'initialisation - mise à zéro des variables critGlob et ind, pour chaque bloc de données pour lequel une décision locale decLoc a été déterminée :
  •        critGlob = L_add(critGlob, decLoc);
           ind = add(ind, 1);
           IF (sub(ind, nbCount)==0)
           {
               ind = 0; movel 16();
               flagWB = 1; movel 16();
               /* assume WB */
               if(critGlob > 0) {
                   flagWB = 0; move16();/* NB détecté */
               }
               critGlob = 0; move32();
           }
  • L'application qui vient d'être décrite ci-dessus réalise ainsi un compromis entre le temps de réactivité de l'affichage ou non du logo HD et la fiabilité de la détection.
  • En outre la complexité des calculs est relativement faible comme le montre la table ci-dessous qui indique le poids de certaines des instructions mentionnées ci-dessus :
    Instructions Poids en complexité Label de l'instruction
    Accès en mémoire (écriture ou lecture) mot sur 16 bits 1 move16()
    Accès en mémoire (écriture ou lecture) mot sur 32 bits 2 move32()
    Addition/soustraction de 2 mots de 16 bits 1 add()/sub()
    Addition/soustraction de 2 mots de 32 1 L_add()/L_sub()
    Décalage binaire à gauche (multiplication par une puissance de 2) 1 shl()
    Multiplication de 2 mots de 16 bits 1 L_mult0()
    Test "simple" (suivi d'un seul opérateur de base simple) 0 if
    Boucle effectuée un nombre de fois N constant 4 FOR
  • On va maintenant décrire une deuxième application du procédé de détection qui a été décrit plus haut en référence à la figure 1 , en vue de l'indication du nombre d'appels déposés en bande élargie sur un serveur de messagerie vocale mobile.
  • Un tel serveur est désigné par la référence SER sur la figure 6B .
  • En particulier, un tel serveur comprend de façon classique :
    • un ensemble EBR de boîtes de réception de messages,
    • un module de communication COM2, par exemple de type IP,
    • une mémoire morte MEM2 qui contient un module GES de gestion des messages vocaux enregistrés dans les boîtes de réception de l'ensemble EBR précité.
  • La mémoire MEM2 contient en outre un module de décodage DO2 et un module d'encodage CO2 qui sont destinés si besoin respectivement à décoder, puis réencoder le contenu audio du message vocal déposé.
  • Une telle opération s'avère nécessaire par exemple dans le cas où le contenu audio du message vocal déposé a été codé initialement par un codeur qui est différent du codeur contenu dans le terminal destiné à consulter ledit message vocal ou proposé par le réseau lors de la consultation dudit message.
  • Une telle opération peut également s'avérer nécessaire en vue de stocker un message vocal déposé dans un format de codage différent, ce qui peut être un choix de l'opérateur pour une application de type webmail par exemple qui vise à proposer le message sur la boite mail du propriétaire de la messagerie vocale.
  • Conformément à l'invention, la mémoire morte MEM2 ou bien une autre mémoire du serveur SER contient en outre :
    • un dispositif DET2 de détection d'une bande de fréquence prédéterminée, similaire au dispositif de détection DET représenté sur la figure 2 ,
    • un module de décodage partiel DP.
  • Dans le cas où les messages vocaux déposés dans le serveur SER sont des flux codés qui n'ont pas besoin d'être immédiatement décodés puis réencodés par le module de décodage DO2 et le module d'encodage CO2 respectivement, parce que par exemple, l'application de webmail n'est pas disponible chez l'opérateur, le module de décodage partiel DP est apte, préalablement à la détection du contenu HF, à décoder une partie seulement des 15 premiers coefficients ISF et éventuellement l'indicateur VAD. Une telle disposition est possible compte tenu de la quantification vectorielle des coefficients ISF selon deux sous-vecteurs, telle que mise en oeuvre dans un codeur du type AMR-WB. Il convient de rappeler qu'une telle quantification est mise en oeuvre à l'aide d'une combinaison bien connue de l'Homme du métier d'une méthode de quantification de type codes-produits SVQ (abréviation anglaise de "Split Vector Quantization") et d'une méthode de quantification de type multi-étages MSVQ (abréviation anglaise de « Multi Stage Vector Quantization »).
  • Ainsi, conformément à l'invention, le module de décodage DP ne décode que le deuxième sous-vecteur des coefficients ISF, c'est-à-dire celui qui contient les huit derniers coefficients ISF d'indice les plus élevés, dont la distribution est plus susceptible de démontrer la présence de contenu HF. Eventuellement, le module de décodage DP décode l'indicateur VAD.
  • Une telle disposition permet avantageusement de réduire la complexité calculatoire de la détection de la bande de fréquence du flux audio codé. Une telle disposition permet en outre d'économiser les ressources de la mémoire MEM2 par élimination des instructions de décodage du premier sous-vecteur des coefficients ISF et du stockage de ses dictionnaires de quantification vectorielle.
  • Sur la base d'une partie des coefficients spectraux décodés ainsi obtenus, le dispositif de détection DET2 du serveur SER met alors en oeuvre directement le procédé de détection de bande de fréquence prédéterminée tel que décrit à la figure 1 .
  • Les étapes S0 à S4 de ce procédé sont similaires à celles qui viennent d'être décrites ci-dessus en liaison avec le terminal TER de la figure 6A . Elles ne seront donc pas décrites à nouveau.
  • Dans cette deuxième application plus particulièrement, le fait de limiter le décodage à une partie seulement des paramètres spectraux permet avantageusement, au profit d'un coût de traitement faible, d'identifier sur les trames codées par un codeur à prédiction linéaire tel que l'AMR-WB, si le contenu codé a bien des composantes hautes fréquences et donc s'il est réellement HD et ainsi d'avoir des informations pertinentes de la bande audio des contenus au niveau d'un système n'effectuant pas de décodage des flux binaires (tel qu'un serveur de messagerie vocale).
  • Selon une alternative qui correspond au cas où les messages vocaux déposés dans le serveur SER sont des flux codés qui ont besoin d'être décodés puis réencodés par le module de décodage DO2 et le module d'encodage CO2 respectivement (ex : application webmail), le module de décodage DP fonctionne alors de la même façon que le module de décodage DO1 qui a été décrit en référence à la figure 6A .
  • Il va de soi que les modes de réalisation qui ont été décrits ci-dessus ont été donnés à titre purement indicatif et nullement limitatif, et que de nombreuses modifications peuvent être facilement apportées par l'homme de l'art sans pour autant sortir du cadre de l'invention, telle que définie par les revendications ci-jointes. Ainsi par exemple, le procédé de détection d'une bande de fréquence prédéterminée, au lieu d'être utilisé dans un serveur de messagerie en mode décodage partiel, pourrait être utilisé de façon similaire dans une sonde se trouvant en coupure d'un flux audio.
  • En outre, le procédé de détection d'une bande de fréquence prédéterminée n'est pas obligatoirement limité aux contenus codés par un codeur bande élargie. Cette largeur de bande peut aussi être variable.
  • De même le procédé de détection pourrait être mis en oeuvre pour détecter un contenu en bande de basses fréquences au lieu d'un contenu en bande de hautes fréquences. Dans ce cas, comme mentionné précédemment l'étape de détermination S2 précitée consisterait naturellement à rechercher, parmi au moins une pluralité de paramètres spectraux préalablement décodés de l'ensemble de paramètres spectraux, l'indice du plus grand paramètre spectral inférieur à une fréquence seuil.
  • La fréquence seuil Fth pourrait par ailleurs varier au cours de l'une des applications précitées.
  • Le procédé de détection peut être également mis en oeuvre selon plusieurs variantes, tant dans le choix des critères, dans la manière de combiner éventuellement plusieurs critères, ou bien dans l'utilisation de décisions souples ou dures, tant localement que globalement. Selon la variante sélectionnée, il est alors possible d'optimiser le compromis complexité/fiabilité/réactivité de la détection.
  • Enfin, bien que l'invention ait été décrite en liaison avec un réseau de communication mobile, cette dernière peut bien entendu être mise en oeuvre en liaison avec d'autres types de réseaux de communication (réseau fixe de type RTC, VoIP mobile, etc...) dans lesquels est susceptible d'être utilisé un codeur à prédiction linéaire.
  • Claims (12)

    1. Procédé de détection d'une bande de fréquence prédéterminée dans un signal de données audio qui a été préalablement codé selon une succession de blocs de données (B1, B2, ..., Bz), parmi lesquels au moins certains blocs contiennent respectivement au moins un ensemble de paramètres spectraux représentant un filtre de prédiction linéaire, la bande de fréquence prédéterminée à détecter étant la bande des basses fréquences ou la bande des hautes fréquences, ledit procédé de détection mettant en oeuvre, pour unbloc courant (Bn) parmi lesdits au moins certains blocs et dont au moins une pluralité de paramètres spectraux dudit ensemble ont été préalablement décodés, lesdits paramètres spectraux décodés ayant un sous-ensemble ordonné de paramètres spectraux qui s'étend sur un spectre de fréquence prédéterminé les étapes consistant à :
      - déterminer (S1) parmi ledit sous-ensemble de paramètres spectraux préalablement décodés et ordonnés, l'indice du premier paramètre spectral le plus proche d'une fréquence seuil,
      - calculer (S2) un critère de détection de bande de fréquence prédéterminée à partir dudit indice déterminé, le critère étant basé sur la comparaison de la distance entre deux paramètres successifs parmi ledit sous-ensemble de paramètres spectraux préalablement décodés et ordonnés par rapport audit indice déterminé et/ou sur une fonction mathématique utilisant comme paramètre ledit indice déterminé,
      - décider (S3) si ladite bande de fréquence prédéterminée est détectée dans ledit bloc courant, en fonction du critère calculé.
    2. Procédé de détection selon la revendication 1, au cours duquel tous les paramètres spectraux dudit ensemble sont préalablement décodés.
    3. Procédé selon la revendication 1 ou la revendication 2, au cours duquel dans le cas où parmi ladite succession de blocs de données, certains blocs contiennent chacun un ensemble de paramètres spectraux représentant un filtre de prédiction linéaire et certains autres blocs contiennent chacun un ensemble de paramètres spectraux obtenus par transformation fréquentielle, seuls sont considérés en vue de ladite détection les blocs contenant chacun un ensemble de paramètres spectraux représentant un filtre de prédiction linéaire.
    4. Procédé de détection selon l'une quelconque des revendications 1 à 3, au cours duquel lorsque ladite bande de fréquence prédéterminée à détecter est la bande des hautes fréquences, ladite étape de détermination consiste à rechercher l'indice du premier paramètre spectral supérieur à une fréquence seuil.
    5. Procédé de détection selon l'une quelconque des revendications 1 à 3, au cours duquel lorsque ladite bande de fréquence prédéterminée à détecter est la bande des basses fréquences, ladite étape de détermination consiste à rechercher l'indice du dernier paramètre spectral inférieur à une fréquence seuil.
    6. Procédé de détection selon l'une quelconque des revendications 1 à 4, au cours duquel le bloc courant contient des données représentatives d'une activité vocale.
    7. Procédé de détection selon l'une quelconque des revendications 1 à 6, au cours duquel ledit critère est calculé par comparaison entre :
      - la valeur maximale (dmax ) de la distance entre deux paramètres spectraux décodés voisins, estimée par rapport à la valeur de l'indice du premier paramètre spectral décodé qui a été obtenu à l'issue de ladite étape de détermination,
      - la valeur minimale (dmin ) de la distance entre deux paramètres spectraux décodés voisins, estimée par rapport à la valeur de l'indice du premier paramètre spectral décodé qui a été obtenu à l'issue de ladite étape de détermination.
    8. Procédé de détection selon l'une quelconque des revendications 1 à 7, au cours duquel, à la suite de ladite étape de décision mise en oeuvre pour ledit bloc courant, une étape de décision globale (S4) est mise en oeuvre par lissage du résultat de ladite étape de décision et de K résultats de décision antérieurs, relatifs respectivement à K blocs précédant ledit bloc courant.
    9. Dispositif de détection adapté pour mettre en oeuvre le procédé de détection selon l'une quelconque des revendications 1 à 8.
    10. Dispositif de détection selon la revendication 9, ledit dispositif étant apte à être contenu dans un terminal de communication (TER) ou bien dans un serveur de messagerie vocale (SER).
    11. Programme d'ordinateur comportant des instructions adaptées pour mettre en oeuvre le procédé de détection selon l'une quelconque des revendications 1 à 8, lorsque ledit procédé de détection est exécuté sur un ordinateur.
    12. Support d'enregistrement lisible par un ordinateur sur lequel est enregistré un programme d'ordinateur comprenant des instructions adaptées pour l'exécution des étapes du procédé de détection selon l'une quelconque des revendications 1 à 8, lorsque ledit programme est exécuté par un ordinateur.
    EP12816709.5A 2011-12-20 2012-12-11 Procédé de détection d'une bande de fréquence prédéterminée dans un signal de données audio, dispositif de détection et programme d'ordinateur correspondant Active EP2795618B1 (fr)

    Applications Claiming Priority (2)

    Application Number Priority Date Filing Date Title
    FR1161992A FR2984580A1 (fr) 2011-12-20 2011-12-20 Procede de detection d'une bande de frequence predeterminee dans un signal de donnees audio, dispositif de detection et programme d'ordinateur correspondant
    PCT/FR2012/052882 WO2013093291A1 (fr) 2011-12-20 2012-12-11 Procédé de détection d'une bande de fréquence prédéterminée dans un signal de données audio, dispositif de détection et programme d'ordinateur correspondant

    Publications (2)

    Publication Number Publication Date
    EP2795618A1 EP2795618A1 (fr) 2014-10-29
    EP2795618B1 true EP2795618B1 (fr) 2017-11-01

    Family

    ID=47599055

    Family Applications (1)

    Application Number Title Priority Date Filing Date
    EP12816709.5A Active EP2795618B1 (fr) 2011-12-20 2012-12-11 Procédé de détection d'une bande de fréquence prédéterminée dans un signal de données audio, dispositif de détection et programme d'ordinateur correspondant

    Country Status (5)

    Country Link
    US (2) US9431030B2 (fr)
    EP (1) EP2795618B1 (fr)
    CN (1) CN104137179B (fr)
    FR (1) FR2984580A1 (fr)
    WO (1) WO2013093291A1 (fr)

    Families Citing this family (6)

    * Cited by examiner, † Cited by third party
    Publication number Priority date Publication date Assignee Title
    CN104517611B (zh) * 2013-09-26 2016-05-25 华为技术有限公司 一种高频激励信号预测方法及装置
    CN103905129B (zh) * 2014-01-22 2015-09-30 中国人民解放军理工大学 基于谱型分析的信号检测及信号信息判读方法
    CN105096958B (zh) 2014-04-29 2017-04-12 华为技术有限公司 音频编码方法及相关装置
    CN105225671B (zh) 2014-06-26 2016-10-26 华为技术有限公司 编解码方法、装置及系统
    WO2020253941A1 (fr) * 2019-06-17 2020-12-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codeur audio avec un nombre dépendant du signal et une commande de précision, décodeur audio, et procédés et programmes informatiques associés
    CN110796644B (zh) * 2019-10-23 2023-09-19 腾讯音乐娱乐科技(深圳)有限公司 一种音频文件的缺陷检测方法及相关设备

    Family Cites Families (5)

    * Cited by examiner, † Cited by third party
    Publication number Priority date Publication date Assignee Title
    JP3739959B2 (ja) * 1999-03-23 2006-01-25 株式会社リコー デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
    US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
    BRPI0515453A (pt) * 2004-09-17 2008-07-22 Matsushita Electric Ind Co Ltd aparelho de codificação escalável, aparelho de decodificação escalável, método de codificação escalável método de decodificação escalável, aparelho de terminal de comunicação, e aparelho de estação de base
    US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
    WO2009068084A1 (fr) * 2007-11-27 2009-06-04 Nokia Corporation Codeur

    Non-Patent Citations (1)

    * Cited by examiner, † Cited by third party
    Title
    None *

    Also Published As

    Publication number Publication date
    US9431030B2 (en) 2016-08-30
    FR2984580A1 (fr) 2013-06-21
    US9928852B2 (en) 2018-03-27
    CN104137179B (zh) 2018-08-28
    US20150179190A1 (en) 2015-06-25
    CN104137179A (zh) 2014-11-05
    WO2013093291A1 (fr) 2013-06-27
    EP2795618A1 (fr) 2014-10-29
    US20160171986A1 (en) 2016-06-16

    Similar Documents

    Publication Publication Date Title
    EP2795618B1 (fr) Procédé de détection d&#39;une bande de fréquence prédéterminée dans un signal de données audio, dispositif de détection et programme d&#39;ordinateur correspondant
    EP2419900B1 (fr) Procede et dispositif d&#39;evaluation objective de la qualite vocale d&#39;un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal
    EP1692689B1 (fr) Procede de codage multiple optimise
    EP2727107B1 (fr) Fenêtres de pondération en codage/décodage par transformée avec recouvrement, optimisées en retard
    WO2010112728A1 (fr) Procede et dispositif de classification du bruit de fond contenu dans un signal audio
    FR2929466A1 (fr) Dissimulation d&#39;erreur de transmission dans un signal numerique dans une structure de decodage hierarchique
    EP2080195A1 (fr) Synthèse de blocs perdus d&#39;un signal audionumérique, avec correction de période de pitch
    EP1692687B1 (fr) Transcodage entre indices de dictionnaires multi-impulsionnels utilises en codage en compression de signaux numeriques
    EP2080194B1 (fr) Attenuation du survoisement, notamment pour la generation d&#39;une excitation aupres d&#39;un decodeur, en absence d&#39;information
    EP1836699B1 (fr) Procédé et dispositif de codage audio optimisé entre deux modèles de prediction à long terme
    FR2884989A1 (fr) Procede d&#39;adaptation pour une interoperabilite entre modeles de correlation a court terme de signaux numeriques.
    EP3138095B1 (fr) Correction de perte de trame perfectionnée avec information de voisement
    EP2203915B1 (fr) Dissimulation d&#39;erreur de transmission dans un signal numerique avec repartition de la complexite
    WO2023165946A1 (fr) Codage et décodage optimisé d&#39;un signal audio utilisant un auto-encodeur à base de réseau de neurones
    EP2589045B1 (fr) Codage/décodage prédictif linéaire adaptatif
    FR2997250A1 (fr) Detection d&#39;une bande de frequence predeterminee dans un contenu audio code par sous-bandes selon un codage de type modulation par impulsions
    WO2002091362A1 (fr) Procede d&#39;extraction de parametres d&#39;un signal audio, et codeur mettant en oeuvre un tel procede
    FR2980620A1 (fr) Traitement d&#39;amelioration de la qualite des signaux audiofrequences decodes
    WO2001091106A1 (fr) Fenetres d&#39;analyse adaptatives pour la reconnaissance de la parole

    Legal Events

    Date Code Title Description
    PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

    Free format text: ORIGINAL CODE: 0009012

    17P Request for examination filed

    Effective date: 20140704

    AK Designated contracting states

    Kind code of ref document: A1

    Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

    DAX Request for extension of the european patent (deleted)
    17Q First examination report despatched

    Effective date: 20151007

    REG Reference to a national code

    Ref country code: DE

    Ref legal event code: R079

    Ref document number: 602012039309

    Country of ref document: DE

    Free format text: PREVIOUS MAIN CLASS: G10L0025780000

    Ipc: G10L0019060000

    GRAP Despatch of communication of intention to grant a patent

    Free format text: ORIGINAL CODE: EPIDOSNIGR1

    RIC1 Information provided on ipc code assigned before grant

    Ipc: G10L 19/02 20130101ALN20170424BHEP

    Ipc: G10L 25/78 20130101ALI20170424BHEP

    Ipc: G10L 19/06 20130101AFI20170424BHEP

    INTG Intention to grant announced

    Effective date: 20170523

    GRAS Grant fee paid

    Free format text: ORIGINAL CODE: EPIDOSNIGR3

    GRAA (expected) grant

    Free format text: ORIGINAL CODE: 0009210

    STAA Information on the status of an ep patent application or granted ep patent

    Free format text: STATUS: THE PATENT HAS BEEN GRANTED

    AK Designated contracting states

    Kind code of ref document: B1

    Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

    REG Reference to a national code

    Ref country code: GB

    Ref legal event code: FG4D

    Free format text: NOT ENGLISH

    REG Reference to a national code

    Ref country code: CH

    Ref legal event code: EP

    Ref country code: AT

    Ref legal event code: REF

    Ref document number: 942766

    Country of ref document: AT

    Kind code of ref document: T

    Effective date: 20171115

    REG Reference to a national code

    Ref country code: IE

    Ref legal event code: FG4D

    Free format text: LANGUAGE OF EP DOCUMENT: FRENCH

    REG Reference to a national code

    Ref country code: DE

    Ref legal event code: R096

    Ref document number: 602012039309

    Country of ref document: DE

    REG Reference to a national code

    Ref country code: FR

    Ref legal event code: PLFP

    Year of fee payment: 6

    REG Reference to a national code

    Ref country code: NL

    Ref legal event code: MP

    Effective date: 20171101

    REG Reference to a national code

    Ref country code: LT

    Ref legal event code: MG4D

    REG Reference to a national code

    Ref country code: AT

    Ref legal event code: MK05

    Ref document number: 942766

    Country of ref document: AT

    Kind code of ref document: T

    Effective date: 20171101

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: SE

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20171101

    Ref country code: NL

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20171101

    Ref country code: NO

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20180201

    Ref country code: FI

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20171101

    Ref country code: LT

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20171101

    Ref country code: ES

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20171101

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: GR

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20180202

    Ref country code: BG

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20180201

    Ref country code: RS

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20171101

    Ref country code: AT

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20171101

    Ref country code: IS

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20180301

    Ref country code: LV

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20171101

    Ref country code: HR

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20171101

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: DK

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20171101

    Ref country code: CY

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20171101

    Ref country code: EE

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20171101

    Ref country code: SK

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20171101

    Ref country code: CZ

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20171101

    REG Reference to a national code

    Ref country code: CH

    Ref legal event code: PL

    REG Reference to a national code

    Ref country code: DE

    Ref legal event code: R097

    Ref document number: 602012039309

    Country of ref document: DE

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: IT

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20171101

    Ref country code: SM

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20171101

    Ref country code: RO

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20171101

    Ref country code: PL

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20171101

    PLBE No opposition filed within time limit

    Free format text: ORIGINAL CODE: 0009261

    STAA Information on the status of an ep patent application or granted ep patent

    Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

    REG Reference to a national code

    Ref country code: IE

    Ref legal event code: MM4A

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: LU

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20171211

    Ref country code: MT

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20171101

    26N No opposition filed

    Effective date: 20180802

    REG Reference to a national code

    Ref country code: BE

    Ref legal event code: MM

    Effective date: 20171231

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: IE

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20171211

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: LI

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20171231

    Ref country code: CH

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20171231

    Ref country code: SI

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20171101

    Ref country code: BE

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20171231

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: MC

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20171101

    Ref country code: HU

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT; INVALID AB INITIO

    Effective date: 20121211

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: MK

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20171101

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: TR

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20171101

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: PT

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20171101

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: AL

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20171101

    PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

    Ref country code: GB

    Payment date: 20231121

    Year of fee payment: 12

    PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

    Ref country code: FR

    Payment date: 20231122

    Year of fee payment: 12

    Ref country code: DE

    Payment date: 20231121

    Year of fee payment: 12