EP2795618A1 - Procédé de détection d'une bande de fréquence prédéterminée dans un signal de données audio, dispositif de détection et programme d'ordinateur correspondant - Google Patents

Procédé de détection d'une bande de fréquence prédéterminée dans un signal de données audio, dispositif de détection et programme d'ordinateur correspondant

Info

Publication number
EP2795618A1
EP2795618A1 EP12816709.5A EP12816709A EP2795618A1 EP 2795618 A1 EP2795618 A1 EP 2795618A1 EP 12816709 A EP12816709 A EP 12816709A EP 2795618 A1 EP2795618 A1 EP 2795618A1
Authority
EP
European Patent Office
Prior art keywords
frequency band
spectral
index
detection method
blocks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP12816709.5A
Other languages
German (de)
English (en)
Other versions
EP2795618B1 (fr
Inventor
Arnault Nagle
Claude Lamblin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
Orange SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orange SA filed Critical Orange SA
Publication of EP2795618A1 publication Critical patent/EP2795618A1/fr
Application granted granted Critical
Publication of EP2795618B1 publication Critical patent/EP2795618B1/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Definitions

  • the present invention relates generally to the field of sound data processing.
  • This processing is adapted in particular to the transmission and / or storage of multimedia signals such as audio signals (speech and / or sounds).
  • the present invention more specifically aims at analyzing an audio signal resulting from such a treatment.
  • Such a processing comprises a coding phase of linear prediction type LPC (abbreviation of Linear Predictive Coding).
  • LPC abbreviation of Linear Predictive Coding
  • encoders use signal properties such as its harmonic structure, exploited by long-term prediction filters, as well as its local stationarity, exploited by short-term prediction filters.
  • the speech signal can be considered as a stationary signal for example over time intervals of 10 to 20 ms. It is therefore possible to analyze this signal by sample blocks called frames, after an appropriate windowing.
  • the short-term correlations can be modeled by time-varying linear filters whose coefficients are obtained by means of a linear prediction analysis on frames, of short duration (from 10 to 20 ms in the aforementioned example ).
  • LPC linear prediction coding is one of the most widely used digital coding techniques, in particular in the mobile telephony sector, in particular in the 3GPP AMR-WB coder as described in the document "3GPP TS 26.190 V10.0.0". (201 1 -03) 3rd Generation Partnership Project; Technical Specification Group Services and System Aspects; Speech coded speech processing functions; Adaptive Multi-Rate - Wideband (AMR-WB) coded speech; Transcoding functions (Release 10) ".
  • the LPC coding consists in performing an LPC analysis of the signal to be coded in order to determine an LPC filter, then in quantifying this filter, on the one hand, and in modeling and coding the excitation signal, on the other hand.
  • the autoregressive P-order linear prediction model consists in determining a signal sample at an instant n by a linear combination of the past P samples (prediction principle).
  • the short-term prediction filter denoted by A (z), models the spectral envelope of the signal:
  • the coefficients a, of the filter must be transmitted to the receiver. However, since these coefficients do not have good quantization properties, transformations are preferentially used. Among the most common are:
  • LSP coefficients are now the most used for the representation of the LPC filter because they are well suited for vector quantization.
  • linear prediction coding technique allows a substantial reduction of the bit rate in favor of high audio quality.
  • linear prediction coding is poorly suited to certain coded audio signal processing applications, such as detecting a predetermined frequency band in such coded signals.
  • PCM Pulse Code Modulation
  • Transcoding is necessary when in a transmission chain, a compressed signal frame emitted by an encoder can no longer continue in this format. Transcoding makes it possible to convert this frame into another format compatible with the rest of the transmission chain.
  • the most basic solution (and the most common at the moment) is the end-to-end addition of a decoder and an encoder.
  • the compressed frame arrives in a first format, then it is decompressed.
  • the decompressed signal is then compressed again in a second format accepted later in the communication chain. This cascading of a decoder and an encoder is called a tandem.
  • an encoder operating in an enlarged frequency band [50Hz-7kHz], also called WB (WideBand) may be required to encode an audio content operating in a narrower frequency band than the enlarged band.
  • WB WideBand
  • the content to be encoded by a 3GPP AMR-WB encoder as mentioned above, although sampled at 16 kHz, may be in fact only in a telephone band if such content has been encoded previously by an encoder operating in a narrow frequency band [300 Hz, 3400 Hz], also known as the NB band (abbreviation of "NarrowBand").
  • the limited quality of the acoustics of the transmitting terminal can not cover the entire enlarged band. It thus appears that the audio band of an encoder-encoded stream operating on sampled signals at a given sampling frequency may be much more restricted than that actually supported by the encoder.
  • the detection of the frequency band in the signal domain is based on a spectral analysis of the digital audio signal.
  • a detection is implemented in the 3GPP2 codec VMR-WB as described in the document 3GPP2 C.S0052-0 (June 1 1, 2004) Source-Controlled Variable-Rate Multimode Wideband Speech Coded (VMR-WB) Service Option 62 for Spread Spectrum Systems ", to detect narrow-band audio content that has been oversampled at the 16 kHz sampling frequency specific to that codec.
  • the above-mentioned codec carries out a spectral analysis of the temporal signal (after sub-sampling at 1 2.8 kHz, high-pass filtering and pre-emphasis) by performing two FFT frequency transforms on 256 samples per frame, to obtain two sets of spectral parameters per frame.
  • a detection algorithm is applied to detect such signals. It consists of testing the level of smoothed energy in the last two bands.
  • FFT transform As an alternative to the above-mentioned FFT transform, other frequency transforms may be used, such as, for example, the Modified Discrete Cosine Transformation (MDCT).
  • MDCT Modified Discrete Cosine Transformation
  • the detection of the frequency band in the coded domain can be based on a prior decoding of the coded signal and then on the application of the spectral analysis techniques above as used in the signal domain to analyze the audio contents. originals (not coded or before coding).
  • decoding increases the complexity and delay of processing. In many applications, it is therefore desirable, in order to avoid these problems of complexity and / or of delay, to extract the characteristics of the signal without performing a complete decoding of the signal.
  • Several analysis techniques in the coded domain have been proposed. They concern transform or sub-band encoders such as MPEG coders (eg MP3, AAC, ).
  • the coded stream indeed comprises coded spectral coefficients, such as, for example, the MDCT coefficients in the MP3 encoder.
  • coded spectral coefficients such as, for example, the MDCT coefficients in the MP3 encoder.
  • ⁇ SMRS i, where S j represents the ith coefficient of the i th band and
  • N t the number of coefficients in the band
  • T SRMS a threshold
  • the methods for detecting the frequency band of a digital audio signal which have just been described are mainly based on a frequency analysis of the signal spectrum.
  • the detection of the audio frequency band in the coded content advantageously exploits the spectral information contained in the coded bitstream by not completely decoding the signal. This significantly reduces the complexity of the detection by eliminating the costly operations required for full decoding and spectral analysis (FFT or MDCT based) of the encoded audio signal.
  • the decoded signal is available, such as for example the application of displaying on a mobile terminal a logo " HD Voice ", this is not the case for all applications.
  • the complexity of the decoding in an encoder, such as in particular the aforementioned AMR-WB encoder, the decoding represents 20% of the total complexity of the encoder, itself estimated around 40 WMOPS (abbreviation of "Weighted Millions of Operations Per Second”). ).
  • linear prediction coding techniques with other compression techniques such as, for example, MDCT-type frequency transform coding techniques. It would then be sufficient to perform the detection on the blocks of audio signal encoded by a frequency transform technique using for these blocks a state of the art method. However this solution would harm the reactivity of the detection because depending on the type of the content and / or the bit rate, the linear prediction coding may be mainly used.
  • One of the aims of the invention is to overcome disadvantages of the state of the aforementioned techniques.
  • an object of the present invention relates to a method for detecting a predetermined frequency band in an audio data signal which has been coded according to a succession of data blocks, of which at least some blocks respectively contain at least a set of spectral parameters representing a linear prediction filter.
  • the method according to the invention is remarkable in that it implements, for a current block among said at least some blocks and at least a plurality of spectral parameters of said set have been previously decoded, the steps of:
  • Such an arrangement makes it possible to identify, with a low cost of calculations, whether the audio frequency band of a content previously coded by a linear prediction coder is more restricted or not than the audio frequency band in which such an encoder operates. .
  • the invention makes it possible, for example, to determine the presence of 'audio content above 4 kHz.
  • the invention can be advantageously implemented in certain frequency band detection applications that do not need to perform a decoding of the coded audio signal, such as for example the indicator of numbers of calls deposited in broadband on a mobile voice mail.
  • all the spectral parameters of the above set of spectral parameters are previously decoded.
  • Such an arrangement makes it possible to detect in a simple manner the frequency band of a decoded audio content, by direct access to the decoded linear prediction parameters associated with this content, and without adding any additional complexity (complete decoding, time-frequency transform) .
  • the invention is particularly adapted to its implementation in a communication terminal, fixed or mobile, which comprises by nature an encoder and an audio decoder, and more specifically to the application in this terminal which consists in display on the screen of the latter a logo "HD Voice".
  • some blocks each contain a set of spectral parameters representing a linear prediction filter and some other blocks each contain a set of spectral parameters obtained by frequency transformation.
  • the blocks each containing a set of spectral parameters representing a linear prediction filter are considered the blocks each containing a set of spectral parameters representing a linear prediction filter.
  • a frequency band detection method of the prior art may for example be applied.
  • the determining step consists in preferably searching for the index of the first spectral parameter greater than a threshold frequency.
  • the term high frequency band the frequency band above a certain threshold.
  • the high frequency band corresponds to frequencies greater than 4 kHz (or 3.4 kHz). More generally, for a signal sampled at a sampling frequency Fe and a bandwidth less than or equal to 0.5 Fe, the high frequency band will be the frequency band greater than a'0.5Fe (0 ⁇ a ' ⁇ 1), a 'being adjustable.
  • the term low frequency band the frequency band below a certain threshold.
  • said determining step consists in preferably searching for the index of the last spectral parameter lower than a threshold frequency.
  • Such an arrangement thus makes it possible to implement the invention for example in speech processing applications in HD quality, in particular both in a mobile communication terminal capable of operating in the aforementioned frequency range, and in a server. voicemail capable of processing HD audio content, or even within a probe being in audio stream cutoff of a communication network.
  • the current block contains data representative of a voice activity.
  • Such an optional arrangement makes it possible, in the particular case where it is a question of detecting in the coded audio signal a band situated in the high frequencies, to optimize the reduction of the complexity of the detection method by carrying out the detection, not on all the frames containing at least one set of spectral parameters representing a linear prediction filter, but only on relevant frames likely to contain high frequencies, that is to say those likely to contain voice and / or music data.
  • the criterion is calculated by comparison between:
  • Such an arrangement makes it possible to perform, from a simple calculation, if the predetermined frequency band is detected, while respecting a compromise complexity / reliability / reactivity of the detection.
  • the aforementioned criterion is calculated using a mathematical function using as parameter at least the index of the first decoded spectral parameter that was obtained at the end of the aforementioned determination step.
  • a global decision step is implemented by smoothing the result of this decision step and K decision results. previous, relating respectively to K blocks preceding the current block.
  • Such multi-block smoothing of the local detections specific to each block thus makes it possible to increase the reliability of the detection and for example to protect itself from a really narrow band audio content during a few frames (noise, for example).
  • the invention relates to a detection device for implementing the detection method according to the invention.
  • the detection device according to the invention is therefore intended to detect a predetermined frequency band in an audio data signal which has been coded according to a succession of data blocks, among which at least some blocks respectively contain at least one set of parameters.
  • spectrals representing a linear prediction filter Such a detection device is remarkable in that it comprises means for processing a current block among said at least some blocks and of which at least a plurality of spectral parameters of said set have been previously decoded, which means are able to:
  • the detection device is intended to implement all the embodiments of the detection method which have been mentioned above.
  • the detection device is adapted to be contained in a communication terminal, in a voicemail server or in a probe.
  • the invention also relates to a computer program comprising instructions for executing the steps of the detection method above, when the program is executed by a computer.
  • Such a program can use any programming language, and be in the form of source code, object code, or intermediate code between source code and object code, such as in a partially compiled form, or in any another desirable form.
  • Still another object of the invention is directed to a computer readable recording medium, and including computer program instructions as mentioned above.
  • the recording medium may be any entity or device capable of storing the program.
  • a medium may comprise storage means, such as a ROM, for example a CD ROM or a microelectronic circuit ROM, or a magnetic recording medium, for example a floppy disk or a Hard disk.
  • such a recording medium can be a transmissible medium such as an electrical or optical signal, which can be routed via an electrical or optical cable, by radio or other means.
  • the program according to the invention can be downloaded in particular on an Internet type network.
  • such a recording medium may be an integrated circuit in which the program is incorporated, the circuit being adapted to execute the method in question or to be used in the execution of the latter.
  • the aforementioned detection device and computer program have at least the same advantages as those conferred by the detection method according to the present invention.
  • FIG. 1 represents the main steps of the detection method according to the invention
  • FIG. 2 represents an embodiment of a detection device according to the invention
  • FIG. 3 represents various examples of threshold frequency values used in the method and the detection device according to the invention.
  • FIG. 4B represents a histogram of the index of the first spectral parameter greater than 4 kHz, for all the blocks coded by the AMR-WB coder, without taking into account the indication of vocal activity,
  • FIG. 5A represents a cumulative histogram of the ratio between the maximum difference and the minimum difference between two successive spectral parameters from the index of the first spectral parameter greater than 4 kHz, for the blocks encoded by the AMR-WB encoder containing data.
  • FIG. 5B represents a cumulative histogram of the ratio between the maximum difference and the minimum difference between two successive spectral parameters from the index of the first spectral parameter greater than 4 kHz, for all the blocks coded by the AMR-WB coder, without take into account the voice activity indication
  • FIG. 6A represents a mobile communication terminal able to implement the detection method as represented in FIG. 1;
  • FIG. 6B represents a voicemail server able to implement the detection method as represented in FIG. 1.
  • the frequency band detection method according to the invention is represented in the form of an algorithm comprising steps S0 to S4.
  • the aforementioned detection method is implemented in a software or hardware way in a DET detection device represented in FIG. 2, which comprises for this purpose a processing module TR specific to the detection.
  • such a detection device DET In order to detect a predetermined frequency band in a given audio signal, such a detection device DET is intended to be arranged:
  • the detection device DET is for example contained in a fixed or mobile communication terminal.
  • the detecting device DET is for example contained in an element of the transmission chain of the audio signal (ex : mail server in which audio messages are stored without decoding).
  • this signal is coded, which was first sampled at a predetermined sampling frequency Fe.
  • the coding of said signal is carried out for example in a linear prediction coder using short-term LPC spectral parameters, such as ISP coefficients or an associated representation, covering at least part of the frequency spectrum (normalized or no).
  • short-term LPC spectral parameters such as ISP coefficients or an associated representation
  • Said coder is for example the 3GPP AMR-WB encoder, as mentioned above in the description.
  • the coding of said signal could be carried out by an encoder such as, for example, that which was mentioned above in the description, which combines a frequency transformation technique of the MDCT type and a linear prediction coding technique of type CELP.
  • the sampling frequency is equal to 16 kHz, corresponding to the nominal sampling frequency of the AMR-WB encoder operating in the useful band of 50 Hz to 7 kHz.
  • a plurality Z of consecutive blocks of data Bi, B 2 , B z are obtained, as shown in FIGS. 1 and 2.
  • a plurality of consecutive blocks of data some of said blocks containing at least one set of spectral parameters representing a linear prediction filter and some others of said blocks containing at least one set of spectral parameters obtained by frequency transform.
  • the detection method according to the invention applies only to the blocks which contain at least one set of spectral parameters representing a linear prediction filter, a plurality of these parameters having been previously decoded.
  • a frequency band detection method of the prior art may for example be applied.
  • the predetermined frequency band is the HF band of an expanded band content.
  • a current block B n is processed (where n is an integer such that 1 ⁇ n ⁇ Z).
  • the current block B n contains M previously decoded spectral parameters p (i k ), having an ordered subset of M '(M' ⁇ M) spectral parameters which extends for example between the indices i min and i max , such that p (i min ) ⁇ ... ⁇ p (i k ) ⁇ ... ⁇ p (i max ), where i min represents the index of the smallest spectral parameter of said subset and i max represents the subscript of the largest spectral parameter of said subset.
  • the spectral parameters of the ordered subset satisfy the relation: p (i) ⁇ p (j) if i ⁇ j, i, j G ⁇ imin, imax ⁇ - H It is obvious to those skilled in the art that the invention also applies to other cases: for example, the case where the spectral parameters of the ordered subset satisfy the relation: p (i)> p ( j) if i ⁇ j, i, j G ⁇ imin, imax ⁇ -
  • step S1 is implemented by a first calculation software sub-module CAL1 of the detection device DET, as represented in FIG. 2.
  • the calculation sub-module CAL1 determines, among said M 'spectral parameters, the index / of the first spectral parameter which is the most close to a threshold frequency, said threshold frequency being determined from the sampling frequency F e of said audio signal.
  • FIG. 3 represents different possible values of F th according to the sampling frequency F e used and the value of the parameter a.
  • step S1 the calculation sub-module CAL1 searches for the index Î H F of the first spectral parameter p (i k ) greater than F th according to the following operation:
  • step S1 the calculation sub-module CAL1 searches for the index IBF of the last spectral parameter p (i) less than F t h according to the following operation:
  • the step S1 is preceded by a preselection step S0, during which are preselected, among the blocks Bi, B 2 , B z , only blocks that contain data representative of a voice activity.
  • VAD Voice Activity Detection
  • VAD indicator 1 in the coded block, "DTX on” mode of the discontinuous transmission module DTX (abbreviation of "Discontinuous Transmission”), classification of the block coded as containing a voice activity when the block has been encoded by an Enhanced Variable Rate CODEC (EVRC)
  • EVRC Enhanced Variable Rate CODEC
  • the preselection step S0 is implemented by a PRES preselection software module represented in FIG. 2.
  • step SO being optional, it is shown in dotted line in FIG. 1.
  • the module PRES of FIG. 2 is also represented in dashed line.
  • step S2 the calculation of at least one criterion from said index /> determined.
  • step S2 the calculation of at least one criterion from said index /> determined.
  • step S2 is implemented by a second calculation software sub-module CAL2 of the detection device DET, as represented in FIG. 2.
  • such a criterion is based on the comparison of the "distance" between two successive spectral parameters with respect to the index i F determined.
  • such a distance corresponds to the simple difference between two successive spectral parameters:
  • this criterion is the ratio p between the two distances calculated previously, such that:
  • such a criterion is based on a mathematical function F (/) using the index i F as parameter.
  • Said mathematical function F (>) consists for example of a piecewise affine function such that:
  • said function can be in four pieces, such as:
  • the criterion depends on the value of the affine function.
  • a step S3 represented in FIG. 1 consists in deciding whether the predetermined frequency band is detected in the current block B n , as a function of one of the criteria which has been calculated on the basis of FIG. step S2.
  • Such a step is implemented by a third calculation software sub-module CAL3 of the detection device DET, as represented in FIG. 2.
  • the decision is based on one or the other of the two criteria mentioned above, or a combination thereof.
  • the decision step relates to the detection of a band of high frequencies is described below. It is obvious to one skilled in the art to apply this decision step in a similar manner, with regard to the detection of another frequency band, such as for example a low frequency band.
  • the hard decision consists in comparing the criterion p with a predetermined threshold adaptive or not, noted critth.
  • the comparison is for example made according to the calculations below:
  • flag H F is a bit that is either set to indicate that the RF content has been detected, or set to 0 to indicate that the RF content has not been detected.
  • a flexible decision is for example to use the value of p bounded in the interval [1, 3]. The closer this value is to the lower bound "1" of this interval, the more HF content is considered undetected in the block of the audio signal. The closer this value is to the upper bound "3" of the interval, the more HF content is considered detected in the audio signal.
  • the hard decision consists in comparing the criterion p 'with a predetermined threshold adaptive or not, noted crit' th - The comparison being then:
  • flagHF 1 (respectively 0) indicates that the RF content has been detected, (or that the RF content has not been detected).
  • the soft decision is for example to use the value of p 'in the interval [0, 1].
  • the more the value of the criteria is close to the limits of the interval the more the decision for the block (detection or not of HF content) appears reliable, while a value of p 'close to the threshold crit'th indicates a low reliability of the decision.
  • the decision can also be flexible or hard.
  • a hard decision is for example to compare the criterion F (/ HF) to 0, according to the calculations below:
  • flag H F is a bit that is either set to indicate that the RF content has been detected, or set to 0 to indicate that the RF content has not been detected.
  • the soft decision can then consist in taking the value of the mathematical function.
  • This value is negative (respectively positive), the greater the reliability of the detection of the presence (or lack thereof) of an RF content is high.
  • a value of the mathematical function close to zero indicates that the reliability of the detection is low.
  • step S4 smoothing these K results and the result of the decision that has just been obtained for the current block B n in the above-mentioned step S3 by a possibly slippery window.
  • detection on the window may be a soft or hard decision, as the local detections for each block were obtained by soft or hard decision.
  • smoothing step S4 is implemented by a fourth calculation software sub-module CAL4 shown in FIG. 2.
  • Step S4 being optional, it is shown in dotted line in FIG.
  • the submodule CAL4 of Figure 2 is also shown in dashed line.
  • each coded data block contains 16 parameters, the first 15 of which are ordered spectral parameters covering the (normalized) spectrum between 0 and 6.4 kHz, the sixteenth parameter being the one-bit voice activity indicator (VAD).
  • VAD voice activity indicator
  • the indices are represented on the abscissa and the percentage distribution of these indices is represented on the ordinate.
  • the detection method that has been implemented comprises the step S0 of preselecting the blocks containing a voice activity.
  • Fig. 4B the detection method that has been implemented does not include step S0.
  • Four different configurations are represented by way of example in FIGS.
  • the values of the ratio p are represented on the abscissa and the distribution as a percentage of these ratios are represented on the ordinate.
  • the detection method that has been implemented comprises the preselection step SO of the blocks containing a voice activity.
  • Fig. 5B the detection method that has been implemented does not include step SO.
  • Four configurations, which respectively correspond to those of FIGS. 4A and 4B, are shown in FIGS. 5A and 5B. The four configurations of FIGS. 5A and 5B are symbolized in the same manner as in FIGS. 4A and 4B.
  • the distribution of the ratio p differs significantly according to whether the encoder is of WB or NB type.
  • Such a terminal is designated by the reference TER in FIG. 6A.
  • the TER terminal comprises:
  • an INT user interface conventionally comprising a keyboard, a screen, a microphone and a loudspeaker
  • a communication module COM1 for example of the 3G type
  • a memory MEM1 comprising an audio coding module CO1 and an audio decoding module DO1.
  • the coding module CO1 and the decoding module DO1 are of the AMR-WB type.
  • the ROM MEM1 or another memory of the mobile terminal TER further contains a DET1 device for detecting a predetermined frequency band, similar to the detecting device DET shown in FIG. 2.
  • a coded audio stream is received by the communication module COM1, then completely decoded by the decoding module D01, so that the mobile terminal TER renders the speech via the loudspeaker. speaker of its INT user interface.
  • the decoded parameters delivered by the decoder D01 to the detection device DET1 are the first 15 ISF coefficients, ordered spectral parameters covering the (normalized) spectrum between 0 and 6.4 kHz, and possibly the VAD indicator whose value is set to 1 if the encoder of the terminal that sent the coded audio stream to the terminal TER estimated that the signal of the frame was active (tone, speech, music), or zero otherwise.
  • the detection device DET1 of the terminal TER then directly implements the predetermined frequency band detection method as described in FIG. 1, with low complexity. much lower for example the complexity of the application of a time-frequency transform on the previously decoded signal.
  • a current block B n is processed (n being an integer such that 1 ⁇ n ⁇ Z).
  • the current block B n contains the fifteen / sixteen aforementioned parameters (15 spectral coefficients and possibly the VAD indicator) which have been decoded by the decoding module D01.
  • the step S1 is preceded by the preselection step S0, during which are preselected, among the blocks B ; B 2 , ..., B z , only blocks that contain data representative of a voice activity, for which the VAD flag is 1.
  • the index H H F of the first spectral parameter p (i k ) greater than F th is searched in accordance with the following operation:
  • the threshold frequency F t h is equal to 4 kHz.
  • critl_oc L_negate (critl_oc);
  • a step S3 represented in FIG. 1 consists in deciding whether the predetermined frequency band is detected in the current block B n , as a function of one of the criteria which has been calculated on the basis of FIG. step S2.
  • the decision is a flexible decision given by the local criterion calculated in the previous step.
  • the HD logo is intended to be displayed on the TER terminal screen with a higher or lower contrast which respectively corresponds to a higher or lower value of the calculated criterion.
  • the decision is a hard decision determined by the local criterion calculated in the previous step.
  • decLoc 1; move16 (); / * WB * /
  • the HD logo is intended to be displayed on the TER terminal screen if the calculated criterion is less than 0, or not to be displayed otherwise.
  • the local detections are smoothed over several blocks (nbCount> 1) by a possibly slippery window.
  • the detection on the window may be a soft or hard decGIob decision, whether the local detections were obtained by soft or hard decision.
  • critGlob L_sub (critGlob, tabDec nd]);
  • critGlob L_add (critGlob, decLoc);
  • the overall decision is made on non-overlapping windows.
  • there is no need to store a local decision array just add the local decisions to the global criterion that is reset to zero at the beginning of each processed window.
  • critGlob L_add (critGlob, decLoc);
  • Such a server is designated SER in FIG. 6B.
  • such a server conventionally comprises:
  • a communication module COM2 for example of IP type
  • a memory MEM2 which contains a GES module for managing the voice messages recorded in the inboxes of the aforementioned EBR set.
  • the memory MEM2 furthermore contains a decoding module DO2 and a coding module CO2 which are destined respectively to decode and re-encode the audio content of the voice message deposited.
  • a decoding module DO2 and a coding module CO2 which are destined respectively to decode and re-encode the audio content of the voice message deposited.
  • Such an operation is necessary for example in the case where the audio content of the voice message deposited was initially coded by an encoder which is different from the encoder contained in the terminal intended to consult said voice message or proposed by the network during the consultation of said message.
  • Such an operation may also be necessary in order to store a voice message deposited in a different coding format, which may be an operator's choice for an application such as webmail, which aims to propose the message on the mailbox of the owner of the voicemail.
  • the memory MEM2 or another memory of the SER server also contains:
  • a device DET2 for detecting a predetermined frequency band similar to the detection device DET shown in FIG. 2
  • a partial decoding module DP a partial decoding module DP.
  • the partial decoding module DP is able, prior to the detection of the RF content, to decode only part of the first 15 ISF coefficients and possibly the VAD indicator.
  • Such an arrangement is possible taking into account the vector quantization of the ISF coefficients according to two sub-vectors, as implemented in an AMR-WB type encoder.
  • the decoding module DP decodes only the second sub-vector of the ISF coefficients, that is to say the one containing the last eight highest index ISF coefficients, whose distribution is more likely to demonstrate the presence of HF content.
  • the decoding module DP decodes the VAD indicator.
  • Such an arrangement advantageously makes it possible to reduce the computational complexity of detecting the frequency band of the coded audio stream.
  • Such an arrangement also makes it possible to save the resources of the memory MEM2 by eliminating the decoding instructions of the first sub-vector of the ISF coefficients and the storage of its vector quantization dictionaries.
  • the detection device DET2 of the server SER then directly implements the predetermined frequency band detection method as described in FIG.
  • the fact of limiting the decoding to only a part of the spectral parameters advantageously makes it possible, in favor of a low processing cost, to identify on the frames coded by a linear prediction coder such as the AMR-WB, if the coded content has indeed high frequency components and therefore if it is really HD and thus have relevant information of the audio band contents at a system not performing decoding of the streams binaries (such as a voicemail server).
  • a linear prediction coder such as the AMR-WB
  • the decoding module DP then functions in the same way as the decoding module D01 which has been described with reference to FIG. 6A.
  • the method for detecting a predetermined frequency band is not necessarily limited to the contents coded by an enlarged band coder. This bandwidth can also be variable.
  • the detection method could be implemented to detect low frequency band content instead of high frequency band content.
  • the above-mentioned determination step S2 would naturally consist of searching, among at least a plurality of previously decoded spectral parameters of the set of spectral parameters, of the index of the largest spectral parameter less than a threshold frequency. .
  • the threshold frequency F t h may also vary during one of the aforementioned applications.
  • the detection method can also be implemented according to several variants, both in the choice of criteria, in the manner of possibly combining several criteria, or in the use of soft or hard decisions, both locally and globally. Depending on the variant selected, it is then possible to optimize the complexity / reliability / reactivity compromise of the detection.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

L'invention concerne un procédé de détection d'une bande de fréquence prédéterminée dans un signal de données audio qui a été préalablement codé selon une succession de blocs de données (B1; B2, ...,BZ), parmi lesquels au moins certains blocs contiennent respectivement au moins un ensemble de paramètres spectraux représentant un filtre de prédiction linéaire. Un tel procédé de détection met en œuvre, pour un bloc courant parmi lesdits au moins certains blocs et dont au moins une pluralité de paramètres spectraux dudit ensemble ont été préalablement décodés, les étapes consistant à : - déterminer (S1 ), parmi ladite pluralité de paramètres spectraux préalablement décodés, l'indice du premier paramètre spectral le plus proche d'une fréquence seuil, - calculer (S2) au moins un critère à partir dudit indice déterminé, - décider (S3) si ladite bande de fréquence prédéterminée est détectée dans ledit bloc courant, en fonction du critère calculé.

Description

PROCÉDÉ DE DÉTECTION D'UNE BANDE DE FRÉQUENCE
PRÉDÉTERMINÉE DANS UN SIGNAL DE DONNÉES AUDIO, DISPOSITIF DE DÉTECTION ET PROGRAMME D'ORDINATEUR CORRESPONDANT Domaine de l'invention
La présente invention se rapporte de manière générale au domaine du traitement de données sonores.
Ce traitement est adapté notamment à la transmission et/ou au stockage de signaux multimédias tels que les signaux audio (parole et/ou sons).
La présente invention vise plus particulièrement l'analyse d'un signal audio issu d'un tel traitement.
Plus précisément, un tel traitement comprend une phase de codage du type à prédiction linéaire LPC (abréviation anglaise de "Linear Prédictive Coding").
Arrière-plan de l'invention
Dans le domaine de la compression, les codeurs utilisent les propriétés du signal telles que sa structure harmonique, exploitée par des filtres de prédiction à long terme, ainsi que sa stationnarité locale, exploitée par des filtres de prédiction à court terme. Typiquement, le signal de parole peut être considéré comme un signal stationnaire par exemple sur des intervalles de temps de 10 à 20 ms. Il est donc possible d'analyser ce signal par blocs d'échantillons appelés trames, après un fenêtrage approprié. Les corrélations à court terme peuvent être modélisées par des filtres linéaires variant dans le temps dont les coefficients sont obtenus à l'aide d'une analyse par prédiction linéaire sur des trames, de faible durée (de 10 à 20 ms dans l'exemple précité).
Le codage par prédiction linéaire LPC est l'une des techniques de codage numérique les plus utilisées, en particulier dans le secteur de la téléphonie mobile, notamment dans le codeur 3GPP AMR-WB tel que décrit dans le document « 3GPP TS 26.190 V10.0.0 (201 1 -03) 3rd Génération Partnership Project; Technical Spécification Group Services and System Aspects; Speech codée speech processing functions; Adaptive Multi-Rate - Wideband (AMR-WB) speech codée; Transcoding functions (Release 10) ». Le codage LPC consiste à effectuer une analyse LPC du signal à coder pour déterminer un filtre LPC, puis à quantifier ce filtre, d'une part, et à modéliser et coder le signal d'excitation, d'autre part. Cette analyse LPC est effectuée en minimisant l'erreur de prédiction sur le signal à modéliser ou une version modifiée de ce signal. Le modèle autorégressif de prédiction linéaire d'ordre P consiste à déterminer un échantillon de signal à un instant n par une combinaison linéaire des P échantillons passés (principe de la prédiction). Le filtre de prédiction à court terme, noté A(z), modélise l'enveloppe spectrale du signal:
La différence entre le signal S (n) à l'instant n et sa valeur prédite S(n) est l'erreur de prédiction:
P
e (n) = S (n) - S (n) = 5(η) + α{ S (n - i)
i=l
Le calcul des coefficients de prédiction s'effectue en minimisant l'énergie E l'erreur de prédiction donnée par:
La résolution de ce système est bien connue, notamment par l'algorithme de Levinson-Durbin ou l'algorithme de Schur.
Les coefficients a, du filtre doivent être transmis au récepteur. Cependant, ces coefficients n'ayant pas de bonnes propriétés de quantification, des transformations sont préférentiellement utilisées. Parmi les plus courantes, on peut citer:
- les coefficients PARCORs (abréviation anglaise de "PARtial
CORrelation') consistant en des coefficients de réflexion ou coefficients de corrélation partielle,
- les Rapports d'Aires Logarithmiques LAR (abréviation anglaise de "Log Area Ratio") des coefficients PARCORs,
- les lignes spectrales par paires LSP (abréviation anglaise de
"Line Spectral Pairs"). Les coefficients LSP sont maintenant les plus utilisés pour la représentation du filtre LPC car ils se prêtent bien à la quantification vectorielle.
D'autres représentations équivalentes des coefficients LSP existent:
- les coefficients LSF (abréviation anglaise de "Line Spectral Frequencies"),
- les coefficients ISP (abréviation anglaise de "Immittance Spectral
Pairs"),
- ou encore les coefficients ISF (abréviation anglaise de "Immittance Spectral Frequencies").
La technique de codage par prédiction linéaire LPC permet une réduction substantielle du débit au profit d'une qualité de restitution audio élevée. Toutefois, le codage à prédiction linéaire se prête mal à certaines applications de traitement de signaux audio codés, telles que la détection d'une bande de fréquence prédéterminée dans de tels signaux codés.
II convient de rappeler qu'une telle détection peut s'avérer utile, voire nécessaire, compte tenu à l'heure actuelle, de la multiplicité croissante des formats de compression audio.
En effet, pour offrir mobilité et continuité, les services de communication multimédias modernes et innovants doivent pouvoir fonctionner dans une grande variété de conditions. Le dynamisme du secteur de la communication multimédia et l'hétérogénéité des réseaux, accès et terminaux ont engendré une prolifération de formats de compression dont la présence dans les chaînes de communication nécessite plusieurs codages soit en cascade (transcodage), soit en parallèle (codage multi-format ou codage multi-mode).
Outre la technique de codage par prédiction linéaire mentionnée ci- dessus, il existe d'autres techniques de compression audio pour réduire le débit tout en maintenant une bonne qualité, telles que par exemple :
- les techniques MIC "Modulation par Impulsions et Codage" (en anglais PCM "Puise Code Modulation"),
- et les techniques par transformée fréquentielle telles celles du type MDCT (abréviation anglaise de "Modified Discrète Cosine Transformation") ou FFT (abréviation anglaise de « Fast Fourier Transform »). Certains codeurs combinent différentes techniques de codage. Ainsi dans le document Combescure P., Schnitzler J., Fischer K., Kircherr R., Lamblin C, Le Guyader A., Massaloux D., Quinquis C, Stegmann J., Vary P., A 16, 24, 32 kbit/s wideband speech codée based on ATCELP, in IEEE international Conférence on Acoustics, Speech, and Signal Processing, 1999 (ICASSP99), Page(s): 5 - 8 vol.1 , il est proposé de combiner une technique de transformée fréquentielle de type MDCT et une technique de codage par prédiction linéaire de type CELP (abréviation anglaise de « Code Excited Linear Prédiction ») pour coder des signaux bande élargie, la commutation entre les deux technologies étant contrôlée par une classification du signal.
Le transcodage est nécessaire lorsque dans une chaîne de transmission, une trame de signal compressée émise par un codeur ne peut plus poursuivre son chemin, sous ce format. Le transcodage permet de convertir cette trame sous un autre format compatible avec la suite de la chaîne de transmission. La solution la plus élémentaire (et la plus courante à l'heure actuelle) est la mise bout à bout d'un décodeur et d'un codeur. La trame compressée arrive sous un premier format, puis elle est décompressée. Le signal décompressé est alors compressé à nouveau sous un second format accepté par la suite de la chaîne de communication. Cette mise en cascade d'un décodeur et d'un codeur est appelée un tandem.
Dans le cas particulier d'un tandem, des codeurs codant respectivement des bandes de fréquence différentes peuvent être mis en cascade. Ainsi, un codeur fonctionnant dans une bande de fréquence élargie [50Hz-7kHz], appelée également bande WB (abréviation anglaise de « WideBand ») peut être amené à coder un contenu audio fonctionnant dans une bande de fréquence plus restreinte que la bande élargie. Par exemple, le contenu à coder par un codeur 3GPP AMR-WB tel que mentionné plus haut, bien qu'échantillonné à 16 kHz, peut n'être en fait qu'en bande téléphonique si un tel contenu a été codé précédemment par un codeur fonctionnant dans une bande de fréquence étroite [300 Hz, 3400 Hz], appelée également bande NB (abréviation anglaise de « NarrowBand »). Il se peut aussi que la qualité limitée de l'acoustique du terminal émetteur ne permette pas de couvrir toute la bande élargie. Il apparaît donc que la bande audio d'un flux codé par un codeur fonctionnant sur des signaux échantillonnés à une fréquence d'échantillonnage donnée peut être bien plus restreinte que celle réellement supportée par le codeur.
Parmi les applications de traitement du signal audio exploitant avantageusement la connaissance de la bande de fréquence audio du contenu à traiter, on peut citer :
- la classification des signaux audio,
- la reconnaissance automatique de parole,
- la conversion de la parole au texte (en anglais STT "Speech To
Text") d'émissions de radio ou de télévision contenant des passages en bande étroite,
- le tatouage numérique,
- l'analyse non intrusive de flux par des sondes placées sur le plan média dans les réseaux, ce qui permet notamment de détecter le changement de bande des contenus transportés et éventuellement la durée desdits contenus dans une bande donnée, au sein du réseau suite à ce changement de bande,
- l'affichage sur un terminal mobile d'un logo « HD Voice » (abréviation anglaise de « High-Definition Voice »), tel qu'approuvé par la
GSMA en août 201 1 pour les réseaux et terminaux mobiles et tel que décrit dans le document disponible à l'adresse Internet : http://www.gsm.org/membership/industry_logos.htm,
- l'indicateur de nombres d'appels déposés en bande élargie sur une messagerie vocale mobile.
Parmi les méthodes connues de détection de la bande de fréquence d'un signal audio numérique, il y a celles opérant dans le domaine signal (original ou décodé), et celles opérant dans le domaine codé.
La détection de la bande de fréquence dans le domaine signal repose sur une analyse spectrale du signal audio numérique. A titre d'exemple, une telle détection est mise en œuvre dans le codée 3GPP2 VMR-WB tel que décrit dans le document 3GPP2 C.S0052-0 (June 1 1 , 2004) « Source-Controlled Variable-Rate Multimode Wideband Speech Codée (VMR-WB) Service Option 62 for Spread Spectrum Systems », afin de détecter un contenu audio bande étroite qui a été sur-échantillonné à la fréquence d'échantillonnage de 1 6 kHz propre à ce codée.
Le codée précité procède à une analyse spectrale du signal temporel (après sous-échantillonnage à 1 2.8 kHz, filtrage passe-haut et pré-emphase) en effectuant deux transformées fréquentielles FFT sur 256 échantillons par trame, pour obtenir deux jeux de paramètres spectraux par trame. Le spectre obtenu par l'analyse FFT est divisé en 20 bandes critiques, le nombre de bins de fréquence dans ces 20 bandes étant MCB= {2, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 5, 6, 6, 8, 9, 1 1 , 14, 1 8, 21 }. Puis, l'énergie dans chaque bande critique est calculée, selon la
i-l
l'indice y, est l'indice du premier bin de la bande i jt =∑MCB (k)+ l , et XR {k) et X7 (fc) étant les parties réelles et imaginaires du spectre FFT.
Afin de traiter correctement les signaux bande étroite sur-échantillonnés, un algorithme de détection est appliqué pour détecter de tels signaux. Il consiste à tester le niveau d'énergie lissée dans les deux dernières bandes.
En variante à la transformée FFT précitée, d'autres transformées fréquentielles peuvent être utilisées, telles que par exemple la transformée MDCT (abréviation anglaise de "Modified Discrète Cosine Transformation »).
La détection de la bande de fréquence dans le domaine codé peut reposer quant à elle sur un décodage préalable du signal codé puis sur l'application des techniques d'analyse spectrale ci-dessus telles qu'utilisées dans le domaine signal pour analyser les contenus audio originaux (non codés ou avant codage). Cependant, le décodage augmente la complexité et le retard du traitement. Dans bien des applications, il est donc souhaitable, pour éviter ces problèmes de complexité et/ou de retard, d'extraire les caractéristiques du signal sans effectuer un décodage complet du signal. Plusieurs techniques d'analyse dans le domaine codé ont été proposées. Elles concernent les codeurs par transformée ou en-sous bandes tels les codeurs MPEG (e.g. MP3, AAC, ...).
Dans de tels codeurs, le flux codé comporte en effet des coefficients spectraux codés, comme par exemple, les coefficients MDCT dans le codeur MP3. Ainsi dans le document Liaoyu Chang, Xiaoqing Yu, Haiying Tan, Wanggen Wan, Research and Application of Audio Feature in Compressed Domain, IET Conférence on Wireless, Mobile and Sensor Networks, 2007. (CCWMSN07), Page(s): 390 - 393, 2007, il est proposé, plutôt que de décoder la totalité du signal audio codé, de décoder uniquement les coefficients MDCT qui permettent à eux seuls de déterminer les caractéristiques spectrales du signal codé. La largeur de bande BW (abréviation anglaise de "Bandwidth') du contenu audio codé est ainsi déterminée à partir de ces coefficients MDCT à l'aide de l'expression suivante:
BW = TSRMS } où SMRS est la racine carrée de l'énergie de la i'eme bande
{ SMRSi = , où S représente le jieme coefficient de la iieme bande et
Nt , le nombre de coefficients dans la i bande) et TSRMS un seuil.
Les méthodes de détection de la bande de fréquence d'un signal audio numérique qui viennent d'être décrites reposent principalement sur une analyse fréquentielle du spectre du signal. Dans le cas où le contenu audio a été codé par une transformée fréquentielle, la détection de la bande de fréquence audio dans le contenu codé exploite avantageusement l'information spectrale contenue dans le flux binaire codé en ne décodant pas complètement le signal. Ceci réduit notablement la complexité de la détection en éliminant les coûteuses opérations que requièrent le décodage complet et l'analyse spectrale (à base de FFT ou de MDCT) du signal audio codé.
Or si les technologies de compression par transformée sont très répandues en codage audio (hauts débits, fréquence d'échantillonnage élevée), ce n'est pas le cas en codage de parole où les procédés de codage utilisent majoritairement les technologies de compression à prédiction linéaire telles que décrites précédemment et qui reposent pourtant sur une modélisation de l'enveloppe spectrale du signal par les coefficients de prédiction linéaire du filtre LPC à court terme et les diverses transformations (ex : LSP) utilisées pour la quantification.
Une solution pour déterminer la bande de fréquence audio d'un signal codé par un codeur à prédiction linéaire consiste à décoder le signal puis à lui appliquer une méthode de détection de bande de fréquence dans le domaine signal, telle que celle qui a été décrite ci-dessus. Cependant, une telle solution s'avère très coûteuse en complexité de calculs, entraînant de ce fait une consommation non souhaitée des ressources de l'unité centrale de traitement CPU (abréviation anglaise de « Central Processing Unit »). La complexité de calculs est engendrée par l'application des transformées fréquentielles FFT ou MDCT qui restent des opérations complexes.
De plus, si dans certaines des applications précitées de traitement du signal audio bénéficiant de la connaissance de la bande de fréquence audio, le signal décodé est disponible, telles que par exemple l'application consistant à afficher sur un terminal mobile d'un logo « HD Voice », ce n'est pas le cas de toutes les applications. Ainsi, par exemple, dans l'application d'indicateur de nombres d'appels déposés en bande élargie sur une messagerie vocale mobile, il faut alors rajouter à la complexité de la transformée temps-fréquence et de la détection de la bande audio à partir des énergies par bande, la complexité du décodage. Or, dans un codeur, tel qu'en particulier le codeur AMR-WB précité, le décodage représente 20% de la complexité totale du codeur, elle-même estimée autour de 40 WMOPS (abréviation anglaise de « Weighted Millions of Opérations Per Second »).
Comme indiqué précédemment, certains codeurs combinent des techniques de codage par prédiction linéaire avec d'autres techniques de compression telles que par exemple des techniques de codage par transformée fréquentielle de type MDCT. On pourrait alors se contenter de n'effectuer la détection que sur les blocs de signal audio codés par une technique de transformée fréquentielle en utilisant pour ces blocs une méthode de l'état de l'art. Cependant cette solution nuirait à la réactivité de la détection car selon le type du contenu et/ou le débit, le codage à prédiction linéaire peut être majoritairement utilisé.
Objet et résumé de l'invention
Un des buts de l'invention est de remédier à des inconvénients de l'état des techniques précitées.
A cet effet, un objet de la présente invention concerne un procédé de détection d'une bande de fréquence prédéterminée dans un signal de données audio qui a été codé selon une succession de blocs de données, parmi lesquels au moins certains blocs contiennent respectivement au moins un ensemble de paramètres spectraux représentant un filtre de prédiction linéaire.
Le procédé selon l'invention est remarquable en ce qu'il met en œuvre, pour un bloc courant parmi lesdits au moins certains blocs et dont au moins une pluralité de paramètres spectraux dudit ensemble ont été préalablement décodés, les étapes consistant à :
- déterminer, parmi la pluralité de paramètres spectraux préalablement décodés, l'indice du premier paramètre spectral le plus proche d'une fréquence seuil,
- calculer au moins un critère à partir de l'indice déterminé, - décider si la bande de fréquence prédéterminée est détectée dans le bloc courant, en fonction du critère calculé.
Une telle disposition permet d'identifier, avec un faible coût de calculs, si la bande de fréquence audio d'un contenu préalablement codé par un codeur à prédiction linéaire est plus restreinte ou non que la bande de fréquence audio dans laquelle fonctionne un tel codeur.
Dans le cas par exemple du codeur AMR-WB pour lequel le signal est échantillonné à 16 kHz, puis sous-échantillonné à 1 2.8 kHz en vue de l'analyse LPC de ce dernier, l'invention permet de déterminer par exemple la présence d'un contenu audio de fréquence supérieure à 4 kHz.
Une telle disposition est particulièrement avantageuse en ce sens qu'elle n'impose pas nécessairement un décodage complet du signal audio. Ainsi, l'invention peut être avantageusement mise en œuvre dans certaines applications de détection de bandes de fréquences qui n'ont pas besoin de réaliser un décodage du signal audio codé, telles que par exemple l'indicateur de nombres d'appels déposés en bande élargie sur une messagerie vocale mobile.
Grâce à la simplicité d'une telle détection basée principalement sur l'analyse des différences dans les distributions d'une partie seulement des paramètres spectraux de prédiction linéaire décodés, les performances de cette détection s'en trouvent optimisées. En outre, la complexité des calculs effectués pour la mise en œuvre d'une telle détection est nettement réduite en comparaison de la complexité de calculs engendrée par l'application de transformées fréquentielles FFT ou MDCT sur des signaux décodés des méthodes de détection de bande de fréquence de l'art antérieur.
Dans un mode de réalisation particulier, tous les paramètres spectraux de l'ensemble de paramètres spectraux précité sont préalablement décodés.
Une telle disposition permet de détecter de façon simple la bande de fréquence d'un contenu audio décodé, par un accès direct aux paramètres de prédiction linéaire décodés associés à ce contenu, et sans ajouter de complexité supplémentaire (décodage complet, transformée temps-fréquence).
Ainsi, par exemple, l'invention est particulièrement adaptée à sa mise en œuvre dans un terminal de communication, fixe ou mobile, qui comprend par nature un codeur et un décodeur audio, et plus précisément à l'application dans ce terminal qui consiste à afficher sur l'écran de ce dernier un logo « HD Voice ».
Dans encore un autre mode de réalisation, dans le cas où parmi la succession de blocs de données, certains blocs contiennent chacun un ensemble de paramètres spectraux représentant un filtre de prédiction linéaire et certains autres blocs contiennent chacun un ensemble de paramètres spectraux obtenus par transformation fréquentielle, seuls sont considérés, en vue de la détection selon l'invention, les blocs contenant chacun un ensemble de paramètres spectraux représentant un filtre de prédiction linéaire.
S'agissant des blocs contenant chacun un ensemble de paramètres spectraux obtenus par transformation fréquentielle, une méthode de détection de bande de fréquence de l'art antérieur pourra par exemple être appliquée. Dans un autre mode de réalisation particulier, lorsque la bande de fréquence prédéterminée à détecter est la bande des hautes fréquences, l'étape de détermination consiste à rechercher préférentiellement l'indice du premier paramètre spectral supérieur à une fréquence seuil.
Selon l'invention, on entend par bande des hautes fréquences, la bande des fréquences supérieures à un certain seuil. Par exemple, en bande élargie, on peut considérer que la bande haute fréquence correspond aux fréquences supérieures à 4 kHz (ou 3,4 kHz). Plus généralement, pour un signal échantillonné à une fréquence d'échantillonnage Fe et de largeur de bande inférieure ou égal à 0,5 Fe, la bande des hautes fréquences sera la bande des fréquences supérieures à a'0.5Fe (0<a'<1 ), a' étant ajustable.
De même, on entend par bande des basses fréquences, la bande des fréquences inférieures à un certain seuil. Lorsque la bande de fréquence prédéterminée à détecter est la bande des basses fréquences, ladite étape de détermination consiste à rechercher préférentiellement l'indice du dernier paramètre spectral inférieur à une fréquence seuil.
Une telle disposition permet ainsi de mettre en œuvre l'invention par exemple dans des applications de traitement de la voix en qualité HD, en particulier aussi bien dans un terminal de communication mobile capable de fonctionner dans la plage de fréquences précitée, que dans un serveur de messagerie vocale capable de traiter des contenus audio HD, voire au sein d'une sonde se trouvant en coupure de flux audio d'un réseau de communication.
Dans encore un autre mode de réalisation particulier, le bloc courant contient des données représentatives d'une activité vocale.
Une telle disposition optionnelle permet, dans le cas particulier où il s'agit de détecter dans le signal audio codé une bande située dans les hautes fréquences, d'optimiser la réduction de la complexité du procédé de détection en effectuant la détection, non pas sur toutes les trames contenant au moins un ensemble de paramètres spectraux représentant un filtre de prédiction linéaire, mais seulement sur des trames pertinentes susceptibles de contenir des hautes fréquences, c'est-à-dire celles susceptibles de contenir des données voix et/ou musique. Dans encore un autre mode de réalisation particulier, le critère est calculé par comparaison entre :
- la valeur maximale de la distance entre deux paramètres spectraux décodés voisins, estimée par rapport à la valeur de l'indice du premier paramètre spectral décodé qui a été obtenu à l'issue de l'étape de détermination,
- la valeur minimale de la distance entre deux paramètres spectraux décodés voisins, estimée par rapport à la valeur de l'indice du premier paramètre spectral décodé qui a été obtenu à l'issue de l'étape de détermination.
Une telle disposition permet de réaliser, à partir d'un calcul simple, si la bande de fréquence prédéterminée est détectée, tout en respectant un compromis complexité/fiabilité/réactivité de la détection.
En variante, le critère précité est calculé à l'aide d'une fonction mathématique utilisant comme paramètre au moins l'indice du premier paramètre spectral décodé qui a été obtenu à l'issue de l'étape de détermination précitée.
Dans encore un autre mode de réalisation particulier, à la suite de l'étape de décision mise en œuvre pour le bloc courant, une étape de décision globale est mise en œuvre par lissage du résultat de cette étape de décision et de K résultats de décision antérieurs, relatifs respectivement à K blocs précédant le bloc courant. Un tel lissage sur plusieurs blocs des détections locales propres à chaque bloc permet ainsi d'augmenter la fiabilité de la détection et par exemple de se prémunir d'un contenu audio réellement bande étroite pendant quelques trames (bruit par ex.).
Corrélativement, l'invention concerne un dispositif de détection destiné à mettre en œuvre le procédé de détection selon l'invention. Le dispositif de détection selon l'invention est donc destiné à détecter une bande de fréquence prédéterminée dans un signal de données audio qui a été codé selon une succession de blocs de données, parmi lesquels au moins certains blocs contiennent respectivement au moins un ensemble de paramètres spectraux représentant un filtre de prédiction linéaire. Un tel dispositif de détection est remarquable en ce qu'il comprend des moyens de traitement d'un bloc courant parmi lesdits au moins certains blocs et dont au moins une pluralité de paramètres spectraux dudit ensemble ont été préalablement décodés, lesquels moyens sont aptes à :
- déterminer parmi la pluralité de paramètres spectraux préalablement décodés, l'indice du premier paramètre spectral le plus proche d'une fréquence seuil,
- calculer au moins un critère à partir de l'indice déterminé,
- décider si la bande de fréquence prédéterminée est détectée dans le bloc courant, en fonction du critère calculé.
En particulier, un tel dispositif de détection est destiné à mettre en œuvre tous les modes de réalisation du procédé de détection qui ont été mentionnés ci-dessus. Dans d'autres modes de réalisation particuliers, le dispositif de détection est apte à être contenu dans un terminal de communication, dans un serveur de messagerie vocale ou bien dans une sonde.
L'invention vise également un programme d'ordinateur comportant des instructions pour l'exécution des étapes du procédé de détection ci-dessus, lorsque le programme est exécuté par un ordinateur.
Un tel programme peut utiliser n'importe quel langage de programmation, et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet, tel que dans une forme partiellement compilée, ou dans n'importe quelle autre forme souhaitable.
Encore un autre objet de l'invention vise aussi un support d'enregistrement lisible par un ordinateur, et comportant des instructions de programme d'ordinateur tel que mentionné ci-dessus.
Le support d'enregistrement peut être n'importe quelle entité ou dispositif capable de stocker le programme. Par exemple, un tel support peut comporter un moyen de stockage, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple une disquette (floppy dise) ou un disque dur.
D'autre part, un tel support d'enregistrement peut être un support transmissible tel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Le programme selon l'invention peut être en particulier téléchargé sur un réseau de type Internet.
Alternativement, un tel support d'enregistrement peut être un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter le procédé en question ou pour être utilisé dans l'exécution de ce dernier.
Le dispositif de détection et le programme d'ordinateur précités présentent au moins les mêmes avantages que ceux conférés par le procédé de détection selon la présente invention.
Brève description des dessins
D'autres caractéristiques et avantages apparaîtront à la lecture de modes de réalisation préférés décrits en référence aux figures dans lesquelles:
- la figure 1 représente les principales étapes du procédé de détection selon l'invention,
- la figure 2 représente un mode de réalisation d'un dispositif de détection selon l'invention,
- la figure 3 représente différents exemples de valeurs de fréquence seuil utilisées dans le procédé et le dispositif de détection selon l'invention,
- la figure 4A représente un histogramme de l'indice du premier paramètre spectral supérieur à 4kHz, pour les blocs codés par le codeur AMR- WB contenant des données représentatives d'une activité vocale (flagVAD=1 ),
- la figure 4B représente un histogramme de l'indice du premier paramètre spectral supérieur à 4kHz, pour tous les blocs codés par le codeur AMR-WB, sans tenir compte de l'indication d'activité vocale,
- la figure 5A représente un histogramme cumulé du rapport entre la différence maximum et la différence minimum entre deux paramètres spectraux successifs à partir de l'indice du premier paramètre spectral supérieur à 4kHz, pour les blocs codés par le codeur AMR-WB contenant des données représentatives d'une activité vocale (flagVAD=1 ), - la figure 5B représente un histogramme cumulé du rapport entre la différence maximum et la différence minimum entre deux paramètres spectraux successifs à partir de l'indice du premier paramètre spectral supérieur à 4kHz, pour tous les blocs codés par le codeur AMR-WB, sans tenir compte de l'indication d'activité vocale,
- la figure 6A représente un terminal de communication mobile apte à mettre en œuvre le procédé de détection tel que représenté sur la figure 1 ,
- la figure 6B représente un serveur de messagerie vocale apte à mettre en œuvre le procédé de détection tel que représenté sur la figure 1 .
Principe général du procédé de détection
Le principe général de l'invention va maintenant être décrit en référence aux figures 1 et 2.
Sur la figure 1 , le procédé de détection de bande de fréquence selon l'invention est représenté sous la forme d'un algorithme comportant des étapes S0 à S4.
Sur la figure 2, le procédé de détection précité est implémenté de manière logicielle ou matérielle dans un dispositif de détection DET représenté sur la figure 2, qui comprend à cet effet un module de traitement TR spécifique à la détection.
En vue de la détection d'une bande de fréquence prédéterminée dans un signal audio considéré, un tel dispositif de détection DET est destiné à être agencé :
- soit associé à un décodeur audio de façon à récupérer certains paramètres décodés associés audit signal audio décodé, lesquels seront décrits plus loin dans la description,
- soit de façon indépendante du décodeur de façon à lire le signal audio codé puis à effectuer un décodage partiel de certains paramètres codés associés audit signal audio codé, lesquels seront décrits plus loin dans la description,
- soit en coupure d'un signal audio codé de façon à lire ledit signal puis à effectuer un décodage partiel de certains paramètres codés associés audit signal audio codé, lesquels seront décrits plus loin dans la description.
Dans le cas d'un agencement du dispositif de détection DET dans un décodeur audio, le dispositif de détection DET est par exemple contenu dans un terminal de communication fixe ou mobile.
Dans le cas d'un agencement du dispositif de détection DET de façon indépendante du décodeur ou bien en coupure d'un signal audio codé, le dispositif de détection DET est par exemple contenu dans un élément de la chaîne de transmission du signal audio (ex : serveur de messagerie dans lequel les messages audio sont stockés sans décodage).
Préalablement à la mise en œuvre du procédé de détection d'une bande de fréquence prédéterminée dans un signal audio, il est procédé au codage de ce signal, lequel a été dans un premier temps échantillonné à une fréquence d'échantillonnage prédéterminée Fe.
Selon l'invention, le codage dudit signal est effectué par exemple dans un codeur à prédiction linéaire utilisant des paramètres spectraux LPC à court terme, tels que des coefficients ISP ou une représentation associée, couvrant au moins une partie du spectre en fréquences (normalisées ou non).
Ledit codeur est par exemple le codeur 3GPP AMR-WB, tel que mentionné plus haut dans la description.
A titre d'alternative, le codage dudit signal pourrait être effectué par un codeur tel que par exemple celui qui a été mentionné plus haut dans la description, lequel combine une technique de transformée fréquentielle de type MDCT et une technique de codage par prédiction linéaire de type CELP.
Dans l'exemple représenté, la fréquence d'échantillonnage est égale à 16 kHz, correspondant à la fréquence d'échantillonnage nominale du codeur AMR-WB fonctionnant dans la bande utile de 50 Hz à 7 kHz.
A l'issue de l'étape de codage à prédiction linéaire réalisée dans le codeur AMR-WB, est obtenue une pluralité Z de blocs consécutifs de données B-i , B2, Bz, comme représenté sur les figures 1 et 2. Chaque bloc contient au moins un ensemble de paramètres spectraux représentant un filtre de prédiction linéaire.
Dans le cas de l'alternative précitée, à l'issue de l'étape de codage est obtenue une pluralité de blocs consécutifs de données, certains desdits blocs contenant au moins un ensemble de paramètres spectraux représentant un filtre de prédiction linéaire et certains autres desdits blocs contenant au moins un ensemble de paramètres spectraux obtenus par transformée fréquentielle.
Puis est mis en œuvre le procédé de détection d'une bande de fréquence prédéterminée du signal audio qui vient d'être codé, à partir d'une analyse de chacun des blocs précités.
Le procédé de détection selon l'invention s'applique uniquement sur les blocs qui contiennent au moins un ensemble de paramètres spectraux représentant un filtre de prédiction linéaire, une pluralité de ces paramètres ayant été préalablement décodés.
Dans le cas de l'alternative précitée, s'agissant des blocs contenant chacun un ensemble de paramètres spectraux obtenus par transformée fréquentielle, une méthode de détection de bande de fréquence de l'art antérieur pourra par exemple être appliquée.
Conformément au mode de réalisation, la bande de fréquence prédéterminée est la bande HF d'un contenu bande élargie.
Au cours d'une étape S1 représentée à la figure 1 , il est procédé au traitement d'un bloc courant Bn (n étant un entier tel que 1 <n≤Z). Le bloc courant Bn contient M paramètres spectraux p(ik) préalablement décodés, ayant un sous-ensemble ordonné de M' (M'≤M) paramètres spectraux qui s'étend par exemple entre les indices imin et imax, tel que p(imin)<...<p(ik)<...<p(imax), où imin représente l'indice du plus petit paramètre spectral dudit sous-ensemble et imax représente l'indice du plus grand paramètre spectral dudit sous-ensemble.
Par souci de concision, on décrit dans la suite le cas où les paramètres spectraux du sous-ensemble ordonné vérifient la relation: p(i)<p(j) si i<j, i, j G {imin, imax}- H est évident pour l'homme de l'art que l'invention s'applique aussi à d'autres cas: comme par exemple, le cas où les paramètres spectraux du sous-ensemble ordonné vérifient la relation: p(i)>p(j) si i<j, i, j G {imin, imax}-
L'étape S1 précitée est mise en œuvre par un premier sous-module logiciel de calcul CAL1 du dispositif de détection DET, tel que représenté sur la figure 2.
A cet effet, le sous-module de calcul CAL1 détermine, parmi lesdits M' paramètres spectraux, l'indice / du premier paramètre spectral qui est le plus proche d'une fréquence seuil, ladite fréquence seuil étant déterminée à partir de la fréquence d'échantillonnage Fe dudit signal audio.
Dans l'exemple représenté, Fth= aFe (a<0.5), où a est un paramètre ajustable. La figure 3 représente différentes valeurs possibles de Fth selon la fréquence d'échantillonnage Fe utilisée et la valeur du paramètre a.
Plus particulièrement, au cours de l'étape S1 , le sous-module de calcul CAL1 recherche l'indice ÎHF du premier paramètre spectral p(ik) supérieur à Fth conformément à l'opération suivante :
Ou inversement, au cours de l'étape S1 , le sous-module de calcul CAL1 recherche l'indice ÎBF du dernier paramètre spectral p(i) inférieur à Fth conformément à l'opération suivante :
Préférentiellement, l'étape S1 est précédée d'une étape de présélection S0, au cours de laquelle sont présélectionnés, parmi les blocs B-i , B2, Bz, uniquement des blocs qui contiennent des données représentatives d'une activité vocale.
La détection d'activité vocale de tels blocs est effectuée classiquement lors du codage de ces derniers par un module de détection d'activité vocale VAD (abréviation anglaise de « Voice Activity Détection »), lequel :
- soit utilise l'information disponible dans le bloc (ex : indicateur VAD=1 dans le bloc codé, mode « DTX on » du module de transmission discontinue DTX (abréviation anglaise de « Discontinuous Transmission »), classification du bloc codé comme contenant une activité vocale lorsque le bloc a été codé par un codeur EVRC (abréviation anglaise de « Enhanced Variable Rate CODEC »)),
- soit calcule dans le signal audio codé un critère d'activité vocale. L'étape de présélection S0 est mise en œuvre par un module logiciel de présélection PRES représenté sur la figure 2.
L'étape SO étant optionnelle, elle est représentée en pointillé sur la figure 1. De façon correspondante, le module PRES de la figure 2 est également représenté en pointillé.
Il est ensuite procédé, au cours d'une étape S2 représentée à la figure 1 , au calcul d'au moins un critère à partir dudit indice /> déterminé. Une telle étape est mise en œuvre par un deuxième sous-module logiciel de calcul CAL2 du dispositif de détection DET, tel que représenté sur la figure 2.
Selon une première variante de réalisation, un tel critère est basé sur la comparaison de la « distance » entre deux paramètres spectraux successifs par rapport à l'indice iF déterminé.
Une telle distance est évaluée conformément à la relation ci-dessous :
d(i) = dist(p(i), p(i - Y))
Préférentiellement, une telle distance correspond à la simple différence entre deux paramètres spectraux successifs:
d(i) = dist ( p(i), p(i - 1)) = ((p(i) - p(i - 1))
Plus précisément, le sous-module logiciel CAL2 calcule d'abord respectivement :
- la valeur maximale dmax de la distance entre deux paramètres spectraux voisins, estimée par rapport à l'indice iF déterminé, et
- la valeur minimale dmin de la distance entre deux paramètres spectraux voisins, estimée par rapport à l'indice iF déterminé.
Un tel calcul est effectué selon les relations suivantes ci-dessous :
dm!1K = max (d(ik )) = max ((p(ik) - p(ik - 1))) et . m™ , (<*¾)) = . min ((p(ik ) - p(ik - 1))) ou bien
max (d(ik )) = max (p{ik ) - p{ik - \)) et
. min (d(ik )) = min (p(ik ) - p(ik - 1)) Puis le sous-module logiciel de calcul CAL2 calcule un critère en fonction des deux distances calculées dmax et dmin pour détecter la présence d'un contenu audio H F (ou BF). Ce critère est noté par exemple crit(dmi dmax).
Préférentiellement, ce critère est le rapport p entre les deux distances calculées précédemment, tel que:
= cnY( min , max ) = max / min (ou cnY( min , max ) = min / max )
Selon une deuxième variante de réalisation, un tel critère est basé sur une fonction mathématique F(/ ) utilisant comme paramètre l'indice iF .
Ladite fonction mathématique F(/>) consiste par exemple en une fonction affine par morceaux telle que:
F (iF ) = a0iF + b0 si ilmn < iF < l0
F (iF ) = axiF + bx si l0 < iF < lx + ≤
En particulier, ladite fonction peut être en quatre morceaux, telle que:
si /™N≤/F <8, F(/F) = 4* /F -36
si 8</F <10, F(/F) = 3* iF -30
si 10≤/F <13, F(/F) = 2* /F -21
Si 13≤/F< imax, F(/F) = 3* /F -30
Ainsi, selon cette variante, le critère dépend de la valeur de la fonction affine.
D'autres fonctions peuvent bien entendu être utilisées. On citera par exemple, la fonction suivante :
F(/»= sign(/ -c) *(/'F-C)2 , où sign(x) = -1 si x<0,=1 sign(x) = 1 sinon, où c est une variable ou une constante égale à environ 10,5.
A la suite de l'étape S2 précitée, une étape S3 représentée à la figure 1 consiste à décider si la bande de fréquence prédéterminée est détectée dans le bloc courant Bn, en fonction de l'un des critères qui a été calculé à l'étape S2. Une telle étape est mise en œuvre par un troisième sous-module logiciel de calcul CAL3 du dispositif de détection DET, tel que représenté sur la figure 2.
A titre d'alternative, la décision est fonction de l'un ou de l'autre des deux critères mentionnés ci-dessus, ou bien encore d'une combinaison de ces derniers. Dans le cas où le critère calculé est conforme à la première variante précitée, à savoir p = dmax /dmin , la décision peut être souple ou dure.
Par souci de concision, on décrit dans la suite le cas où l'étape de décision est relative à la détection d'une bande de hautes fréquences. Il est évident pour l'homme de l'art d'appliquer cette étape de décision de façon similaire, s'agissant de la détection d'une autre bande de fréquence, telle que par exemple une bande de basses fréquences.
La décision dure consiste à comparer le critère p à un seuil prédéterminé adaptatif ou non, noté critth. La comparaison est par exemple effectuée selon les calculs ci-dessous :
Si p > critth , flagHF = 1
Sinon flagHF = 0
où flagHF est un bit qui est soit mis à 1 pour indiquer que le contenu HF a été détecté, soit mis à 0 pour indiquer que le contenu HF n'a pas été détecté.
Une décision souple consiste par exemple à utiliser la valeur de p bornée dans l'intervalle [1 ,3]. Plus cette valeur est proche de la borne inférieure « 1 » de cet intervalle, plus un contenu HF est considéré non détecté dans le bloc du signal audio. Plus cette valeur est proche de la borne supérieure « 3 » de l'intervalle, plus un contenu HF est considéré détecté dans le signal audio.
Considérons maintenant le cas où le critère est * p'= mm . I dm mmd .
La décision dure consiste à comparer le critère p' à un seuil prédéterminé adaptatif ou non, noté crit'th- La comparaison étant alors:
Si p' > crit'th , flagHF =
Sinon flagHF = 1
où flagHF égal 1 (respectivement 0) indique que le contenu HF a été détecté, (resp. que le contenu HF n'a pas été détecté).
La décision souple consiste par exemple à utiliser la valeur de p' dans l'intervalle [0, 1 ]. Plus cette valeur est proche de la borne inférieure « 0 » de cet intervalle, plus un contenu HF est considéré comme détecté dans le bloc du signal audio. Plus cette valeur est proche de la borne supérieure « 1 » de l'intervalle, plus un contenu HF est considéré comme non détecté dans le signal audio. Plus la valeur des critères est proche des bornes de l'intervalle plus la décision pour le bloc (détection ou non de contenu HF) apparaît fiable, tandis qu'une valeur de p' proche du seuil crit'th indique une faible fiabilité de la décision.
Dans le cas où le critère calculé est conforme à la deuxième variante précitée, à savoir une fonction mathématique F(/>), la décision peut être également souple ou dure.
Prenons par exemple le cas où la fonction mathématique F(iF)= sign(iF-c) *(iF-c)2 sert à détecter si un contenu HF est présent.
Une décision dure consiste par exemple à comparer le critère F(/HF) à 0, selon les calculs ci-dessous :
Si F{iHF) < , flagHF = 1
Sinon flagHF = 0
où flagHF est un bit qui est soit mis à 1 pour indiquer que le contenu HF a été détecté, soit mis à 0 pour indiquer que le contenu HF n'a pas été détecté.
Dans ce cas, la décision souple peut alors consister à prendre la valeur de la fonction mathématique. Plus cette valeur est négative (respectivement positive), plus la fiabilité de la détection de la présence (respectivement de l'absence) d'un contenu HF est élevée. Par contre, une valeur de la fonction mathématique proche de zéro indique que la fiabilité de la détection est faible.
Dans le cas où le dispositif de détection DET détient déjà K résultats de décision relatifs respectivement à K blocs précédant le bloc courant Bn, il est avantageux, pour augmenter la fiabilité de la détection, de procéder, au cours d'une étape suivante S4 représentée à la figure 1 , à un lissage de ces K résultats et du résultat de la décision qui vient d'être obtenu pour le bloc courant Bn à l'étape S3 précitée, par une fenêtre éventuellement glissante. Là encore, la détection sur la fenêtre peut être une décision souple ou dure, que les détections locales relatives à chaque bloc aient été obtenues par décision souple ou dure. Une telle étape de lissage S4 est mise en œuvre par un quatrième sous-module logiciel de calcul CAL4 représenté à la figure 2.
L'étape S4 étant optionnelle, elle est représentée en pointillé sur la figure 1 . De façon correspondante, le sous-module CAL4 de la figure 2 est également représenté en pointillé. Dans le mode de réalisation représenté, où le codeur audio est le codeur 3GPP AMR-WB, chaque bloc de données codées contient 16 paramètres dont les 15 premiers sont des paramètres spectraux ordonnés couvrant le spectre (normalisé) entre 0 et 6.4 kHz, le seizième paramètre étant l'indicateur d'activité vocale (VAD) codé sur un bit.
Les figures 4A et 4B représentent chacune un histogramme de l'indice ÎHF du paramètre spectral p(i) supérieur à Fth=4 kHz du codée AMR-WB. Les indices sont représentés en abscisse et la distribution en pourcentage de ces indices est représentée en ordonnée. Sur la figure 4A, le procédé de détection qui a été mis en œuvre comprend l'étape S0 de présélection des blocs contenant une activité vocale. Sur la figure 4B, le procédé de détection qui a été mis en œuvre ne comprend pas l'étape S0. Quatre configurations différentes sont représentées à titre d'exemple sur les figures 4A et 4B: celle représentée en trait plein gras qui correspond au codée AMR-WB seul, celle représentée en trait pointillé qui correspond au codeur AMR-WB disposé en tandem après un autre codeur WB, tel que par exemple le codeur HD fixe G.722 à 64 kbit/s, celle représentée en trait fin qui correspond au codeur AMR- WB disposé en tandem après un codeur NB tel que par exemple le codeur pivot G.71 1 , et celle représentée en trait mixte qui correspond au codeur AMR- WB disposé en tandem après un codeur NB, tel que le codeur mobile FR (abréviation anglaise de "Full Rate ').
Les histogrammes ont été obtenus sur des longs fichiers de parole avec différents bruits de fond (trafic routier, cafétéria, brouhaha), en tenant compte de trois rapports signal-à-bruit RSB différents (RSB= 5, 10, 20 dB).
Comme le montrent les figures 4A et 4B, la distribution de l'indice du premier paramètre spectral supérieur à 4 kHz diffère nettement selon que le premier codeur est de type WB ou NB. En particulier pour les codeurs WB, un pic est obtenu pour un indice /'HF =10.
De façon correspondante, les figures 5A et 5B représentent chacune un histogramme cumulé du rapport p entre la différence maximum et la différence minimum entre deux paramètres spectraux successifs à partir de l'indice /Hpdu paramètre spectral supérieur à Fth=4 kHz du codée AMR-WB. Les valeurs du rapport p sont représentées en abscisse et la distribution en pourcentage de ces rapports est représentée en ordonnée. Sur la figure 5A, le procédé de détection qui a été mis en œuvre comprend l'étape SO de présélection des blocs contenant une activité vocale. Sur la figure 5B, le procédé de détection qui a été mis en œuvre ne comprend pas l'étape SO. Quatre configurations, qui correspondent respectivement à celles des figures 4A et 4B, sont représentées sur les figures 5A et 5B. Les quatre configurations des figures 5A et 5B sont symbolisées de la même façon que sur les figures 4A et 4B.
Comme le montrent les figures 5A et 5B, la distribution du rapport p diffère nettement selon que le codeur est de type WB ou NB. En particulier, les distributions du rapport p relatif aux codeurs WB et les distributions du rapport p relatif aux codeurs NB s'écartent l'une de l'autre à partir de p=1 ,9.
De tels exemples de distributions sont ainsi exploités avantageusement par l'invention pour détecter si un signal audio codé par un codeur à prédiction linéaire tel que le codeur AMR-WB contient des hautes fréquences, une telle détection étant avantageusement effectuée :
- avec une faible complexité algorithmique,
- sans décodage complet du signal audio pour certaines applications audio ne proposant pas de décodage audio,
- sans appliquer une coûteuse transformée fréquentielle.
On va maintenant décrire une première application du procédé de détection qui vient d'être décrit ci-dessus en vue de l'affichage d'un logo HD sur un terminal de communication mobile HD.
Un tel terminal est désigné par la référence TER sur la figure 6A.
De façon connue en soi, le terminal TER comprend :
- une interface utilisateur INT comprenant classiquement un clavier, un écran, un micro et un haut parleur,
- un module de communication COM1 , par exemple de type 3G,
- une mémoire morte MEM1 comprenant un module de codage audio CO1 et un module de décodage audio DO1 .
Dans l'exemple représenté, le module de codage CO1 et le module de décodage DO1 sont du type AMR-WB. Conformément à l'invention, la mémoire morte MEM1 ou bien une autre mémoire du terminal mobile TER contient en outre un dispositif DET1 de détection d'une bande de fréquence prédéterminée, similaire au dispositif de détection DET représenté sur la figure 2.
Dans cette application, de façon classique, un flux audio codé est reçu par le module de communication COM1 , puis entièrement décodé par le module de décodage D01 , de façon à ce que le terminal mobile TER restitue la parole par l'intermédiaire du haut-parleur de son interface utilisateur INT. Parmi les paramètres décodés délivrés par le décodeur D01 au dispositif de détection DET1 figurent les 15 premiers coefficients ISF, paramètres spectraux ordonnés couvrant le spectre (normalisé) entre 0 et 6.4 kHz, et éventuellement l'indicateur VAD dont la valeur est mise à 1 si l'encodeur du terminal ayant émis le flux audio codé à destination du terminal TER a estimé que le signal de la trame était actif (tonalité, parole, musique), ou à zéro sinon.
Sur la base desdits 15 premiers coefficients ISF et éventuellement de l'indicateur VAD, le dispositif de détection DET1 du terminal TER met alors en œuvre directement le procédé de détection de bande de fréquence prédéterminée tel que décrit à la figure 1 , avec une faible complexité bien inférieure par exemple à la complexité de l'application d'une transformée temps-fréquence sur le signal préalablement décodé.
A cet effet, préalablement à la mise en œuvre de l'étape S0 précitée, il est procédé, dans le cas où l'étape de lissage S4 optionnelle est mise en œuvre, à l'initialisation à zéro des quatre valeurs suivantes:
- un critère global critGlob,
- un indice ind , pour indexer une table de critères locaux,
- un compteur de trames nbFrm pour lesquelles une décision a été prise,
- un tableau tabDec ôe décisions locales.
A l'issue de l'étape d'initialisation, les valeurs suivantes sont obtenues: critGlob =0;
ind =0;
nbFrm = 0;
tabDec ] = 0; avec i=0, ... ,nbCount, où nbCount est le nombre de décisions locales à partir desquelles une décision globale {0<nbCount) est prise.
Au cours de l'étape S1 représentée à la figure 1 , il est procédé au traitement d'un bloc courant Bn (n étant un entier tel que 1 <n≤Z). Le bloc courant Bn contient les quinze/seize paramètres précités (15 coefficients spectraux et éventuellement l'indicateur VAD) qui ont été décodés par le module de décodage D01 .
Préférentiellement, l'étape S1 est précédée de l'étape de présélection S0, au cours de laquelle sont présélectionnés, parmi les blocs B ; B2,..., Bz, uniquement des blocs qui contiennent des données représentatives d'une activité vocale, pour lesquels l'indicateur VAD est à 1 .
Au cours du traitement dudit bloc courant Bn, il est procédé à la recherche de l'indice ÎHF du premier paramètre spectral p(ik) supérieur à Fth conformément à l'opération suivante :
On peut évidemment choisir comme intervalle de recherche i0=0 et =15. Avantageusement, on réduit cet intervalle de recherche, entraînant de ce fait une détection plus rapide et moins complexe. Par exemple, en choisissant i0=8 au lieu de i0=0.
De même, l'intervalle de recherche pourrait être limité un peu plus en choisissant =12 au lieu de =15.
Dans l'exemple représenté, la fréquence seuil Fth est égale à 4 kHz. La valeur de cette fréquence exprimée en fréquence normalisée par rapport à 0.5 (correspondant à 6.4 kHz) vaut alors 0.3125 (soit 1 0240 =0.3125*32768 en virgule fixe Q15).
Un exemple de pseudo-code en langage informatique C de cette étape est donné ci-dessous. iHF= il ; move16(); FOR(i=i1 -1 ; i>= iO; i~) if(sub(p(i), Fth) >=0) iHF = i; move16();
}
}
Il est ensuite procédé, au cours d'une étape S2 représentée à la figure 1 , au calcul d'au moins un critère local sur le bloc courant Bn, à partir dudit paramètre spectral d'indice /'HF-
Le critère choisi dans ce mode de réalisation est:
F(/'HF)= sign(/HF-c) *{2iHrcf ,
où sign(x) = -1 si x<0, et sign(x) = 1 sinon, avec c= 21 .
Un exemple de pseudo-code C de cette étape est donné ci-dessous: diff = shl(iHF, 1 );
diff = sub(diff, c);
critLoc = L_multO(diff, diff);
if (diff < 0) {
critl_oc= L_negate(critl_oc);
}
A la suite de l'étape S2 précitée, une étape S3 représentée à la figure 1 consiste à décider si la bande de fréquence prédéterminée est détectée dans le bloc courant Bn, en fonction de l'un des critères qui a été calculé à l'étape S2.
Préférentiellement, la décision est une décision souple donnée par le critère local calculé à l'étape précédente.
Un exemple de pseudo-code C de cette étape est donné ci-dessous: decLoc = critLoc; move16();
En pratique, à l'issue de cette étape, le logo HD est destiné à s'afficher sur l'écran du terminal TER avec un contraste plus ou moins élevé qui correspond respectivement à une valeur plus ou moins élevée du critère calculé.
A titre d'alternative la décision est une décision dure déterminée par le critère local calculé à l'étape précédente. Un exemple de pseudo-code C de cette étape alternative est donné ci- dessous: decLoc = 1 ; move16(); /* NB */
if (critl_oc<0)
{
decLoc = 1 ; move16();/* WB */
} En pratique, à l'issue de cette étape alternative, le logo HD est destiné à s'afficher sur l'écran du terminal TER si le critère calculé est inférieur à 0, ou à ne pas s'afficher sinon.
Avantageusement, au cours de l'étape S4 optionnelle représentée à la figure 1 , pour augmenter la fiabilité de la détection, les détections locales sont lissées sur plusieurs blocs (nbCount > 1 ) par une fenêtre éventuellement glissante. Là encore, de façon similaire à l'étape précédente, la détection sur la fenêtre peut être une décision decGIob souple ou dure, que les détections locales aient été obtenues par décision souple ou dure.
Pour cela, les décisions locales (souples ou dures) sont stockées dans le tableau de décisions locales et sont utilisées pour mettre à jour le critère global critGlob.
Un exemple de pseudo-code C de cette étape est donné ci-dessous dans le cas où les décisions locales sont souples (decLoc = critLoc) et la décision globale dure:
Après une étape d'initialisation - mise à zéro des variables critGlob et ind, et du tableau tabDec[nbCount], pour chaque bloc de données pour lequel une décision locale decLoc a été déterminée : critGlob = L_sub(critGlob, tabDec nd]);
critGlob = L_add(critGlob, decLoc);
tabDec[ind]= decLoc; move32();
ind = add(ind, 1 );
if(sub(ind, nbCount) == 0) {
ind = 0; move16();
}
flagWB = 1 ; /* assume WB 7
if(critGlob > 0) {
flagWB = 0; /* NB détecté 7
}
La décision globale est ici prise sur une fenêtre glissante.
Dans une variante de réalisation, la décision globale est prise sur des fenêtres ne se recouvrant pas. Dans ce cas, il est inutile de stocker un tableau de décisions locales, il suffit d'ajouter les décisions locales au critère global qui est réinitialisé à zéro au début de chaque fenêtre traitée. Un exemple de pseudo-code C de cette variante est donné ci-dessous dans le cas où les décisions locales sont souples (decLoc = critLoc) et la décision globale dure: Après une étape d'initialisation - mise à zéro des variables critGlob et ind, pour chaque bloc de données pour lequel une décision locale decLoc a été déterminée :
critGlob = L_add(critGlob, decLoc);
ind = add(ind, 1 );
IF (sub(ind, nbCount) == 0)
{
ind = 0; move16();
flagWB = 1 ; move16();
/* assume WB 7
if(critGlob > 0) {
flagWB = 0; move16();/* NB détecté 7
}
critGlob = 0; move32();
}
L'application qui vient d'être décrite ci-dessus réalise ainsi un compromis entre le temps de réactivité de l'affichage ou non du logo HD et la fiabilité de la détection. En outre la complexité des calculs est relativement faible comme le montre la table ci-dessous qui indique le poids de certaines des instructions mentionnées ci-dessus :
On va maintenant décrire une deuxième application du procédé de détection qui a été décrit plus haut en référence à la figure 1 , en vue de l'indication du nombre d'appels déposés en bande élargie sur un serveur de messagerie vocale mobile.
Un tel serveur est désigné par la référence SER sur la figure 6B.
En particulier, un tel serveur comprend de façon classique :
- un ensemble EBR de boîtes de réception de messages,
- un module de communication COM2, par exemple de type IP,
- une mémoire morte MEM2 qui contient un module GES de gestion des messages vocaux enregistrés dans les boîtes de réception de l'ensemble EBR précité.
La mémoire MEM2 contient en outre un module de décodage DO2 et un module d'encodage CO2 qui sont destinés si besoin respectivement à décoder, puis réencoder le contenu audio du message vocal déposé. Une telle opération s'avère nécessaire par exemple dans le cas où le contenu audio du message vocal déposé a été codé initialement par un codeur qui est différent du codeur contenu dans le terminal destiné à consulter ledit message vocal ou proposé par le réseau lors de la consultation dudit message.
Une telle opération peut également s'avérer nécessaire en vue de stocker un message vocal déposé dans un format de codage différent, ce qui peut être un choix de l'opérateur pour une application de type webmail par exemple qui vise à proposer le message sur la boite mail du propriétaire de la messagerie vocale.
Conformément à l'invention, la mémoire morte MEM2 ou bien une autre mémoire du serveur SER contient en outre :
- un dispositif DET2 de détection d'une bande de fréquence prédéterminée, similaire au dispositif de détection DET représenté sur la figure 2
- un module de décodage partiel DP.
Dans le cas où les messages vocaux déposés dans le serveur SER sont des flux codés qui n'ont pas besoin d'être immédiatement décodés puis réencodés par le module de décodage D02 et le module d'encodage C02 respectivement, parce que par exemple, l'application de webmail n'est pas disponible chez l'opérateur, le module de décodage partiel DP est apte, préalablement à la détection du contenu HF, à décoder une partie seulement des 15 premiers coefficients ISF et éventuellement l'indicateur VAD. Une telle disposition est possible compte tenu de la quantification vectorielle des coefficients ISF selon deux sous-vecteurs, telle que mise en œuvre dans un codeur du type AMR-WB. Il convient de rappeler qu'une telle quantification est mise en œuvre à l'aide d'une combinaison bien connue de l'Homme du métier d'une méthode de quantification de type codes-produits SVQ (abréviation anglaise de "Split Vector Quantization") et d'une méthode de quantification de type multi-étages MSVQ (abréviation anglaise de « Multi Stage Vector Quantization »).
Ainsi, conformément à l'invention, le module de décodage DP ne décode que le deuxième sous-vecteur des coefficients ISF, c'est-à-dire celui qui contient les huit derniers coefficients ISF d'indice les plus élevés, dont la distribution est plus susceptible de démontrer la présence de contenu HF. Eventuellement, le module de décodage DP décode l'indicateur VAD.
Une telle disposition permet avantageusement de réduire la complexité calculatoire de la détection de la bande de fréquence du flux audio codé. Une telle disposition permet en outre d'économiser les ressources de la mémoire MEM2 par élimination des instructions de décodage du premier sous-vecteur des coefficients ISF et du stockage de ses dictionnaires de quantification vectorielle.
Sur la base d'une partie des coefficients spectraux décodés ainsi obtenus, le dispositif de détection DET2 du serveur SER met alors en œuvre directement le procédé de détection de bande de fréquence prédéterminée tel que décrit à la figure 1.
Les étapes S0 à S4 de ce procédé sont similaires à celles qui viennent d'être décrites ci-dessus en liaison avec le terminal TER de la figure 6A. Elles ne seront donc pas décrites à nouveau.
Dans cette deuxième application plus particulièrement, le fait de limiter le décodage à une partie seulement des paramètres spectraux permet avantageusement, au profit d'un coût de traitement faible, d'identifier sur les trames codées par un codeur à prédiction linéaire tel que l'AMR-WB, si le contenu codé a bien des composantes hautes fréquences et donc s'il est réellement HD et ainsi d'avoir des informations pertinentes de la bande audio des contenus au niveau d'un système n'effectuant pas de décodage des flux binaires (tel qu'un serveur de messagerie vocale).
Selon une alternative qui correspond au cas où les messages vocaux déposés dans le serveur SER sont des flux codés qui ont besoin d'être décodés puis réencodés par le module de décodage D02 et le module d'encodage C02 respectivement (ex : application webmail), le module de décodage DP fonctionne alors de la même façon que le module de décodage D01 qui a été décrit en référence à la figure 6A.
II va de soi que les modes de réalisation qui ont été décrits ci-dessus ont été donnés à titre purement indicatif et nullement limitatif, et que de nombreuses modifications peuvent être facilement apportées par l'homme de l'art sans pour autant sortir du cadre de l'invention. Ainsi par exemple, le procédé de détection d'une bande de fréquence prédéterminée, au lieu d'être utilisé dans un serveur de messagerie en mode décodage partiel, pourrait être utilisé de façon similaire dans une sonde se trouvant en coupure d'un flux audio.
En outre, le procédé de détection d'une bande de fréquence prédéterminée n'est pas obligatoirement limité aux contenus codés par un codeur bande élargie. Cette largeur de bande peut aussi être variable.
De même le procédé de détection pourrait être mis en œuvre pour détecter un contenu en bande de basses fréquences au lieu d'un contenu en bande de hautes fréquences. Dans ce cas, comme mentionné précédemment l'étape de détermination S2 précitée consisterait naturellement à rechercher, parmi au moins une pluralité de paramètres spectraux préalablement décodés de l'ensemble de paramètres spectraux, l'indice du plus grand paramètre spectral inférieur à une fréquence seuil.
La fréquence seuil Fth pourrait par ailleurs varier au cours de l'une des applications précitées.
Le procédé de détection peut être également mis en œuvre selon plusieurs variantes, tant dans le choix des critères, dans la manière de combiner éventuellement plusieurs critères, ou bien dans l'utilisation de décisions souples ou dures, tant localement que globalement. Selon la variante sélectionnée, il est alors possible d'optimiser le compromis complexité/fiabilité/réactivité de la détection.
Enfin, bien que l'invention ait été décrite en liaison avec un réseau de communication mobile, cette dernière peut bien entendu être mise en œuvre en liaison avec d'autres types de réseaux de communication (réseau fixe de type RTC, VoIP mobile, etc ..) dans lesquels est susceptible d'être utilisé un codeur à prédiction linéaire.

Claims

REVENDICATIONS
1 . Procédé de détection d'une bande de fréquence prédéterminée dans un signal de données audio qui a été préalablement codé selon une succession de blocs de données (B ; B2, ...,BZ), parmi lesquels au moins certains blocs contiennent respectivement au moins un ensemble de paramètres spectraux représentant un filtre de prédiction linéaire,
ledit procédé de détection étant caractérisé en ce qu'il met en œuvre, pour un bloc courant (Bn) parmi lesdits au moins certains blocs et dont au moins une pluralité de paramètres spectraux dudit ensemble ont été préalablement décodés, les étapes consistant à :
- déterminer (S1 ), parmi ladite pluralité de paramètres spectraux préalablement décodés, l'indice du premier paramètre spectral le plus proche d'une fréquence seuil,
- calculer (S2) au moins un critère à partir dudit indice déterminé,
- décider (S3) si ladite bande de fréquence prédéterminée est détectée dans ledit bloc courant, en fonction du critère calculé.
2. Procédé de détection selon la revendication 1 , au cours duquel tous les paramètres spectraux dudit ensemble sont préalablement décodés.
3. Procédé selon la revendication 1 ou la revendication 2, au cours duquel dans le cas où parmi ladite succession de blocs de données, certains blocs contiennent chacun un ensemble de paramètres spectraux représentant un filtre de prédiction linéaire et certains autres blocs contiennent chacun un ensemble de paramètres spectraux obtenus par transformation fréquentielle, seuls sont considérés en vue de ladite détection les blocs contenant chacun un ensemble de paramètres spectraux représentant un filtre de prédiction linéaire.
4. Procédé de détection selon l'une quelconque des revendications 1 à 3, au cours duquel lorsque ladite bande de fréquence prédéterminée à détecter est la bande des hautes fréquences, ladite étape de détermination consiste à rechercher l'indice du premier paramètre spectral supérieur à une fréquence seuil.
5. Procédé de détection selon l'une quelconque des revendications 1 à 3, au cours duquel lorsque ladite bande de fréquence prédéterminée à détecter est la bande des basses fréquences, ladite étape de détermination consiste à rechercher l'indice du dernier paramètre spectral inférieur à une fréquence seuil.
6. Procédé de détection selon l'une quelconque des revendications 1 à
4, au cours duquel le bloc courant contient des données représentatives d'une activité vocale.
7. Procédé de détection selon l'une quelconque des revendications 1 à 6, au cours duquel ledit critère est calculé par comparaison entre :
- la valeur maximale {dmax) de la distance entre deux paramètres spectraux décodés voisins, estimée par rapport à la valeur de l'indice du premier paramètre spectral décodé qui a été obtenu à l'issue de ladite étape de détermination,
- la valeur minimale {dmm) de la distance entre deux paramètres spectraux décodés voisins, estimée par rapport à la valeur de l'indice du premier paramètre spectral décodé qui a été obtenu à l'issue de ladite étape de détermination.
8. Procédé de détection selon l'une quelconque des revendications 1 à
6, au cours duquel ledit critère est calculé à l'aide d'une fonction mathématique {F{ÎHF) ; F{ÎBF)) utilisant comme paramètre au moins l'indice du premier paramètre spectral décodé qui a été obtenu à l'issue de ladite étape de détermination.
9. Procédé de détection selon l'une quelconque des revendications 1 à 8, au cours duquel, à la suite de ladite étape de décision mise en œuvre pour ledit bloc courant, une étape de décision globale (S4) est mise en œuvre par lissage du résultat de ladite étape de décision et de K résultats de décision antérieurs, relatifs respectivement à K blocs précédant ledit bloc courant.
10. Dispositif de détection destiné à mettre en œuvre le procédé de détection selon l'une quelconque des revendications 1 à 9, ledit dispositif étant caractérisé en ce qu'il comprend des moyens (TR) de traitement d'un bloc courant (Bn) parmi lesdits au moins certains blocs et dont au moins une pluralité de paramètres spectraux dudit ensemble ont été préalablement décodés, lesquels moyens sont aptes à :
- déterminer, parmi ladite pluralité de paramètres spectraux préalablement décodés, l'indice du premier paramètre spectral le plus proche d'une fréquence seuil,
- calculer au moins un critère à partir dudit indice déterminé,
- décider si ladite bande de fréquence prédéterminée est détectée dans ledit bloc courant, en fonction du critère calculé.
1 1 . Dispositif de détection selon la revendication 10, ledit dispositif étant apte à être contenu dans un terminal de communication (TER) ou bien dans un serveur de messagerie vocale (SER).
12. Programme d'ordinateur comportant des instructions pour mettre en œuvre le procédé de détection selon l'une quelconque des revendications 1 à 9, lorsque ledit procédé de détection est exécuté sur un ordinateur.
13. Support d'enregistrement lisible par un ordinateur sur lequel est enregistré un programme d'ordinateur comprenant des instructions pour l'exécution des étapes du procédé de détection selon l'une quelconque des revendications 1 à 9, lorsque ledit programme est exécuté par un ordinateur.
EP12816709.5A 2011-12-20 2012-12-11 Procédé de détection d'une bande de fréquence prédéterminée dans un signal de données audio, dispositif de détection et programme d'ordinateur correspondant Active EP2795618B1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1161992A FR2984580A1 (fr) 2011-12-20 2011-12-20 Procede de detection d'une bande de frequence predeterminee dans un signal de donnees audio, dispositif de detection et programme d'ordinateur correspondant
PCT/FR2012/052882 WO2013093291A1 (fr) 2011-12-20 2012-12-11 Procédé de détection d'une bande de fréquence prédéterminée dans un signal de données audio, dispositif de détection et programme d'ordinateur correspondant

Publications (2)

Publication Number Publication Date
EP2795618A1 true EP2795618A1 (fr) 2014-10-29
EP2795618B1 EP2795618B1 (fr) 2017-11-01

Family

ID=47599055

Family Applications (1)

Application Number Title Priority Date Filing Date
EP12816709.5A Active EP2795618B1 (fr) 2011-12-20 2012-12-11 Procédé de détection d'une bande de fréquence prédéterminée dans un signal de données audio, dispositif de détection et programme d'ordinateur correspondant

Country Status (5)

Country Link
US (2) US9431030B2 (fr)
EP (1) EP2795618B1 (fr)
CN (1) CN104137179B (fr)
FR (1) FR2984580A1 (fr)
WO (1) WO2013093291A1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106228991A (zh) * 2014-06-26 2016-12-14 华为技术有限公司 编解码方法、装置及系统

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105761723B (zh) * 2013-09-26 2019-01-15 华为技术有限公司 一种高频激励信号预测方法及装置
CN103905129B (zh) * 2014-01-22 2015-09-30 中国人民解放军理工大学 基于谱型分析的信号检测及信号信息判读方法
CN105096958B (zh) 2014-04-29 2017-04-12 华为技术有限公司 音频编码方法及相关装置
WO2020253941A1 (fr) * 2019-06-17 2020-12-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codeur audio avec un nombre dépendant du signal et une commande de précision, décodeur audio, et procédés et programmes informatiques associés
CN110796644B (zh) * 2019-10-23 2023-09-19 腾讯音乐娱乐科技(深圳)有限公司 一种音频文件的缺陷检测方法及相关设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3739959B2 (ja) * 1999-03-23 2006-01-25 株式会社リコー デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
EP2273494A3 (fr) * 2004-09-17 2012-11-14 Panasonic Corporation Appareil de codage extensible, appareil de decodage extensible
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
US20100324708A1 (en) * 2007-11-27 2010-12-23 Nokia Corporation encoder

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106228991A (zh) * 2014-06-26 2016-12-14 华为技术有限公司 编解码方法、装置及系统
US10339945B2 (en) 2014-06-26 2019-07-02 Huawei Technologies Co., Ltd. Coding/decoding method, apparatus, and system for audio signal
CN106228991B (zh) * 2014-06-26 2019-08-20 华为技术有限公司 编解码方法、装置及系统
US10614822B2 (en) 2014-06-26 2020-04-07 Huawei Technologies Co., Ltd. Coding/decoding method, apparatus, and system for audio signal

Also Published As

Publication number Publication date
CN104137179A (zh) 2014-11-05
US20150179190A1 (en) 2015-06-25
EP2795618B1 (fr) 2017-11-01
FR2984580A1 (fr) 2013-06-21
US20160171986A1 (en) 2016-06-16
US9431030B2 (en) 2016-08-30
WO2013093291A1 (fr) 2013-06-27
US9928852B2 (en) 2018-03-27
CN104137179B (zh) 2018-08-28

Similar Documents

Publication Publication Date Title
EP2795618B1 (fr) Procédé de détection d&#39;une bande de fréquence prédéterminée dans un signal de données audio, dispositif de détection et programme d&#39;ordinateur correspondant
EP2727107B1 (fr) Fenêtres de pondération en codage/décodage par transformée avec recouvrement, optimisées en retard
EP2415047A1 (fr) Procede et dispositif de classification du bruit de fond contenu dans un signal audio
FR2929466A1 (fr) Dissimulation d&#39;erreur de transmission dans un signal numerique dans une structure de decodage hierarchique
WO2008096084A1 (fr) Synthèse de blocs perdus d&#39;un signal audionumérique, avec correction de période de pitch
WO2010119216A1 (fr) Procede et dispositif d&#39;evaluation objective de la qualite vocale d&#39;un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal
FR3001593A1 (fr) Correction perfectionnee de perte de trame au decodage d&#39;un signal.
EP2080194B1 (fr) Attenuation du survoisement, notamment pour la generation d&#39;une excitation aupres d&#39;un decodeur, en absence d&#39;information
EP1836699B1 (fr) Procédé et dispositif de codage audio optimisé entre deux modèles de prediction à long terme
WO2005066936A1 (fr) Transcodage entre indices de dictionnaires multi-impulsionnels utilises en codage en compression de signaux numeriques
WO1998047134A1 (fr) Procede et dispositif de codage d&#39;un signal audiofrequence par analyse lpc &#39;avant&#39; et &#39;arriere&#39;
FR2884989A1 (fr) Procede d&#39;adaptation pour une interoperabilite entre modeles de correlation a court terme de signaux numeriques.
EP3138095B1 (fr) Correction de perte de trame perfectionnée avec information de voisement
WO2009047461A1 (fr) Dissimulation d&#39;erreur de transmission dans un signal numerique avec repartition de la complexite
EP2589045B1 (fr) Codage/décodage prédictif linéaire adaptatif
WO2014064379A1 (fr) Detection d&#39;une bande de frequence predeterminee dans un contenu audio code par sous-bandes selon un codage de type modulation par impulsions
FR2980620A1 (fr) Traitement d&#39;amelioration de la qualite des signaux audiofrequences decodes
WO2001091106A1 (fr) Fenetres d&#39;analyse adaptatives pour la reconnaissance de la parole

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20140704

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

DAX Request for extension of the european patent (deleted)
17Q First examination report despatched

Effective date: 20151007

REG Reference to a national code

Ref country code: DE

Ref legal event code: R079

Ref document number: 602012039309

Country of ref document: DE

Free format text: PREVIOUS MAIN CLASS: G10L0025780000

Ipc: G10L0019060000

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

RIC1 Information provided on ipc code assigned before grant

Ipc: G10L 19/02 20130101ALN20170424BHEP

Ipc: G10L 25/78 20130101ALI20170424BHEP

Ipc: G10L 19/06 20130101AFI20170424BHEP

INTG Intention to grant announced

Effective date: 20170523

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE PATENT HAS BEEN GRANTED

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

Ref country code: AT

Ref legal event code: REF

Ref document number: 942766

Country of ref document: AT

Kind code of ref document: T

Effective date: 20171115

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: FRENCH

REG Reference to a national code

Ref country code: DE

Ref legal event code: R096

Ref document number: 602012039309

Country of ref document: DE

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 6

REG Reference to a national code

Ref country code: NL

Ref legal event code: MP

Effective date: 20171101

REG Reference to a national code

Ref country code: LT

Ref legal event code: MG4D

REG Reference to a national code

Ref country code: AT

Ref legal event code: MK05

Ref document number: 942766

Country of ref document: AT

Kind code of ref document: T

Effective date: 20171101

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20171101

Ref country code: NL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20171101

Ref country code: NO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20180201

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20171101

Ref country code: LT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20171101

Ref country code: ES

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20171101

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20180202

Ref country code: BG

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20180201

Ref country code: RS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20171101

Ref country code: AT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20171101

Ref country code: IS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20180301

Ref country code: LV

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20171101

Ref country code: HR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20171101

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20171101

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20171101

Ref country code: EE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20171101

Ref country code: SK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20171101

Ref country code: CZ

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20171101

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

REG Reference to a national code

Ref country code: DE

Ref legal event code: R097

Ref document number: 602012039309

Country of ref document: DE

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20171101

Ref country code: SM

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20171101

Ref country code: RO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20171101

Ref country code: PL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20171101

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

REG Reference to a national code

Ref country code: IE

Ref legal event code: MM4A

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LU

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20171211

Ref country code: MT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20171101

26N No opposition filed

Effective date: 20180802

REG Reference to a national code

Ref country code: BE

Ref legal event code: MM

Effective date: 20171231

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20171211

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20171231

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20171231

Ref country code: SI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20171101

Ref country code: BE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20171231

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MC

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20171101

Ref country code: HU

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT; INVALID AB INITIO

Effective date: 20121211

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20171101

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: TR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20171101

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20171101

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20171101

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20231121

Year of fee payment: 12

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20231122

Year of fee payment: 12

Ref country code: DE

Payment date: 20231121

Year of fee payment: 12