EP2795618B1

EP2795618B1 - Procédé de détection d'une bande de fréquence prédéterminée dans un signal de données audio, dispositif de détection et programme d'ordinateur correspondant

Info

Publication number: EP2795618B1
Application number: EP12816709.5A
Authority: EP
Inventors: Arnault Nagle; Claude Lamblin
Original assignee: Orange SA
Current assignee: Orange SA
Priority date: 2011-12-20
Filing date: 2012-12-11
Publication date: 2017-11-01
Anticipated expiration: 2032-12-11
Also published as: US9431030B2; FR2984580A1; US9928852B2; CN104137179B; US20150179190A1; CN104137179A; WO2013093291A1; EP2795618A1; US20160171986A1

Description

Domaine de l'invention

La présente invention se rapporte de manière générale au domaine du traitement de données sonores.
Ce traitement est adapté notamment à la transmission et/ou au stockage de signaux multimédias tels que les signaux audio (parole et/ou sons).
La présente invention vise plus particulièrement l'analyse d'un signal audio issu d'un tel traitement.
Plus précisément, un tel traitement comprend une phase de codage du type à prédiction linéaire LPC (abréviation anglaise de "Linear Predictive Coding").

Arrière-plan de l'invention

Dans le domaine de la compression, les codeurs utilisent les propriétés du signal telles que sa structure harmonique, exploitée par des filtres de prédiction à long terme, ainsi que sa stationnarité locale, exploitée par des filtres de prédiction à court terme. Typiquement, le signal de parole peut être considéré comme un signal stationnaire par exemple sur des intervalles de temps de 10 à 20 ms. Il est donc possible d'analyser ce signal par blocs d'échantillons appelés trames, après un fenêtrage approprié. Les corrélations à court terme peuvent être modélisées par des filtres linéaires variant dans le temps dont les coefficients sont obtenus à l'aide d'une analyse par prédiction linéaire sur des trames, de faible durée (de 10 à 20 ms dans l'exemple précité). Le document US 2008/0059166 décrit un codeur scalable d'un signal audio.
Le codage par prédiction linéaire LPC est l'une des techniques de codage numérique les plus utilisées, en particulier dans le secteur de la téléphonie mobile, notamment dans le codeur 3GPP AMR-WB tel que décrit dans le document « 3GPP TS 26.190 V10.0.0 (2011-03) 3rd Generation Partnership Project; Technical Specification Group Services and System Aspects; Speech codec speech processing functions; Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding functions (Release 10) ». Le codage LPC consiste à effectuer une analyse LPC du signal à coder pour déterminer un filtre LPC, puis à quantifier ce filtre, d'une part, et à modéliser et coder le signal d'excitation, d'autre part. Cette analyse LPC est effectuée en minimisant l'erreur de prédiction sur le signal à modéliser ou une version modifiée de ce signal. Le modèle autorégressif de prédiction linéaire d'ordre P consiste à déterminer un échantillon de signal à un instant n par une combinaison linéaire des P échantillons passés (principe de la prédiction). Le filtre de prédiction à court terme, noté A(z), modélise l'enveloppe spectrale du signal: $A (z) = \sum_{i = 0}^{P} - a_{i} \times z^{- i}$
La différence entre le signal S(n) à l'instant n et sa valeur prédite S̃(n) est l'erreur de prédiction: $e (n) = S (n) - \tilde{S} (n) = S (n) + \sum_{i = 1}^{P} a_{i} S (n - i)$
Le calcul des coefficients de prédiction s'effectue en minimisant l'énergie E de l'erreur de prédiction donnée par: $E = \sum_{n} e {(n)}^{2} = \sum_{n} {(S (n) + \sum_{i = 1}^{P} a_{i} S (n - i))}^{2}$
La résolution de ce système est bien connue, notamment par l'algorithme de Levinson-Durbin ou l'algorithme de Schur.
Les coefficients a_i du filtre doivent être transmis au récepteur. Cependant, ces coefficients n'ayant pas de bonnes propriétés de quantification, des transformations sont préférentiellement utilisées. Parmi les plus courantes, on peut citer:

les coefficients PARCORs (abréviation anglaise de "PARtial CORrelation") consistant en des coefficients de réflexion ou coefficients de corrélation partielle,
les Rapports d'Aires Logarithmiques LAR (abréviation anglaise de "Log Area Ratio") des coefficients PARCORs,
les lignes spectrales par paires LSP (abréviation anglaise de "Line Spectral Pairs").

Les coefficients LSP sont maintenant les plus utilisés pour la représentation du filtre LPC car ils se prêtent bien à la quantification vectorielle.
D'autres représentations équivalentes des coefficients LSP existent:

les coefficients LSF (abréviation anglaise de "Line Spectral Frequencies"),
les coefficients ISP (abréviation anglaise de "Immittance Spectral Pairs"),
ou encore les coefficients ISF (abréviation anglaise de "Immittance Spectral Frequencies").

La technique de codage par prédiction linéaire LPC permet une réduction substantielle du débit au profit d'une qualité de restitution audio élevée. Toutefois, le codage à prédiction linéaire se prête mal à certaines applications de traitement de signaux audio codés, telles que la détection d'une bande de fréquence prédéterminée dans de tels signaux codés.
Il convient de rappeler qu'une telle détection peut s'avérer utile, voire nécessaire, compte tenu à l'heure actuelle, de la multiplicité croissante des formats de compression audio.
En effet, pour offrir mobilité et continuité, les services de communication multimédias modernes et innovants doivent pouvoir fonctionner dans une grande variété de conditions. Le dynamisme du secteur de la communication multimédia et l'hétérogénéité des réseaux, accès et terminaux ont engendré une prolifération de formats de compression dont la présence dans les chaînes de communication nécessite plusieurs codages soit en cascade (transcodage), soit en parallèle (codage multi-format ou codage multi-mode).
Outre la technique de codage par prédiction linéaire mentionnée ci-dessus, il existe d'autres techniques de compression audio pour réduire le débit tout en maintenant une bonne qualité, telles que par exemple :

les techniques MIC "Modulation par Impulsions et Codage" (en anglais PCM "Pulse Code Modulation"),
et les techniques par transformée fréquentielle telles celles du type MDCT (abréviation anglaise de "Modified Discrete Cosine Transformation") ou FFT (abréviation anglaise de « Fast Fourier Transform »).

Certains codeurs combinent différentes techniques de codage. Ainsi dans le document Combescure P., Schnitzler J., Fischer K., Kircherr R., Lamblin C., Le Guyader A., Massaloux D., Quinquis C., Stegmann J., Vary P., A 16, 24, 32 kbit/s wideband speech codec based on ATCELP, in IEEE International Conference on Acoustics, Speech, and Signal Processing, 1999 (ICASSP99), Page(s): 5 - 8 vol.1, il est proposé de combiner une technique de transformée fréquentielle de type MDCT et une technique de codage par prédiction linéaire de type CELP (abréviation anglaise de « Code Excited Linear Prediction ») pour coder des signaux bande élargie, la commutation entre les deux technologies étant contrôlée par une classification du signal.
Le transcodage est nécessaire lorsque dans une chaîne de transmission, une trame de signal compressée émise par un codeur ne peut plus poursuivre son chemin, sous ce format. Le transcodage permet de convertir cette trame sous un autre format compatible avec la suite de la chaîne de transmission. La solution la plus élémentaire (et la plus courante à l'heure actuelle) est la mise bout à bout d'un décodeur et d'un codeur. La trame compressée arrive sous un premier format, puis elle est décompressée. Le signal décompressé est alors compressé à nouveau sous un second format accepté par la suite de la chaîne de communication. Cette mise en cascade d'un décodeur et d'un codeur est appelée un tandem.
Dans le cas particulier d'un tandem, des codeurs codant respectivement des bandes de fréquence différentes peuvent être mis en cascade. Ainsi, un codeur fonctionnant dans une bande de fréquence élargie [50Hz-7kHz], appelée également bande WB (abréviation anglaise de « WideBand ») peut être amené à coder un contenu audio fonctionnant dans une bande de fréquence plus restreinte que la bande élargie. Par exemple, le contenu à coder par un codeur 3GPP AMR-WB tel que mentionné plus haut, bien qu'échantillonné à 16 kHz, peut n'être en fait qu'en bande téléphonique si un tel contenu a été codé précédemment par un codeur fonctionnant dans une bande de fréquence étroite [300 Hz, 3400 Hz], appelée également bande NB (abréviation anglaise de « NarrowBand »). Il se peut aussi que la qualité limitée de l'acoustique du terminal émetteur ne permette pas de couvrir toute la bande élargie.
Il apparaît donc que la bande audio d'un flux codé par un codeur fonctionnant sur des signaux échantillonnés à une fréquence d'échantillonnage donnée peut être bien plus restreinte que celle réellement supportée par le codeur.
Parmi les applications de traitement du signal audio exploitant avantageusement la connaissance de la bande de fréquence audio du contenu à traiter, on peut citer :

la classification des signaux audio,
la reconnaissance automatique de parole,
la conversion de la parole au texte (en anglais STT "Speech To Text") d'émissions de radio ou de télévision contenant des passages en bande étroite,
le tatouage numérique,
l'analyse non intrusive de flux par des sondes placées sur le plan média dans les réseaux, ce qui permet notamment de détecter le changement de bande des contenus transportés et éventuellement la durée desdits contenus dans une bande donnée, au sein du réseau suite à ce changement de bande,
l'affichage sur un terminal mobile d'un logo « HD Voice » (abréviation anglaise de « High-Definition Voice »), tel qu'approuvé par la GSMA en août 2011 pour les réseaux et terminaux mobiles et tel que décrit dans le document disponible à l'adresse Internet : http://www.gsm.org/membership/industry_logos.htm,
l'indicateur de nombres d'appels déposés en bande élargie sur une messagerie vocale mobile.

Parmi les méthodes connues de détection de la bande de fréquence d'un signal audio numérique, il y a celles opérant dans le domaine signal (original ou décodé), et celles opérant dans le domaine codé.
La détection de la bande de fréquence dans le domaine signal repose sur une analyse spectrale du signal audio numérique. A titre d'exemple, une telle détection est mise en oeuvre dans le codec 3GPP2 VMR-WB tel que décrit dans le document 3GPP2 C.S0052-0 (June 11, 2004) « Source-Controlled Variable-Rate Multimode Wideband Speech Codec (VMR-WB) Service Option 62 for Spread Spectrum Systems », afin de détecter un contenu audio bande étroite qui a été sur-échantillonné à la fréquence d'échantillonnage de 16 kHz propre à ce codec.
Le codec précité procède à une analyse spectrale du signal temporel (après sous-échantillonnage à 12.8 kHz, filtrage passe-haut et pré-emphase) en effectuant deux transformées fréquentielles FFT sur 256 échantillons par trame, pour obtenir deux jeux de paramètres spectraux par trame. Le spectre obtenu par l'analyse FFT est divisé en 20 bandes critiques, le nombre de bins de fréquence dans ces 20 bandes étant M_CB= {2, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 5, 6, 6, 8, 9, 11, 14, 18, 21}. Puis, l'énergie dans chaque bande critique est calculée, selon la formule: $E_{CB} (i) = \frac{1}{{({}^{L_{FFT}}{/_{2}})}^{2} M_{CB} (i)} \sum_{k = 0}^{M_{CB} (i) - 1} (X_{R}^{2} (k + j_{i}) + X_{I}^{2} (k + j_{i})), i = 0, \dots, 19$
l'indice j_i est l'indice du premier bin de la bande $i (j_{i} = \sum_{k = 0}^{i - 1} M_{CB} (k) + 1),$
et X_R (k) et X_I (k) étant les parties réelles et imaginaires du spectre FFT.
Afin de traiter correctement les signaux bande étroite sur-échantillonnés, un algorithme de détection est appliqué pour détecter de tels signaux. Il consiste à tester le niveau d'énergie lissée dans les deux dernières bandes.
En variante à la transformée FFT précitée, d'autres transformées fréquentielles peuvent être utilisées, telles que par exemple la transformée MDCT (abréviation anglaise de "Modified Discrete Cosine Transformation »).
La détection de la bande de fréquence dans le domaine codé peut reposer quant à elle sur un décodage préalable du signal codé puis sur l'application des techniques d'analyse spectrale ci-dessus telles qu'utilisées dans le domaine signal pour analyser les contenus audio originaux (non codés ou avant codage). Cependant, le décodage augmente la complexité et le retard du traitement. Dans bien des applications, il est donc souhaitable, pour éviter ces problèmes de complexité et/ou de retard, d'extraire les caractéristiques du signal sans effectuer un décodage complet du signal.
Plusieurs techniques d'analyse dans le domaine codé ont été proposées. Elles concernent les codeurs par transformée ou en-sous bandes tels les codeurs MPEG (e.g. MP3, AAC, ...).
Dans de tels codeurs, le flux codé comporte en effet des coefficients spectraux codés, comme par exemple, les coefficients MDCT dans le codeur MP3. Ainsi dans le document Liaoyu Chang, Xiaoqing Yu, Haiying Tan, Wanggen Wan, Research and Application of Audio Feature in Compressed Domain, IET Conference on Wireless, Mobile and Sensor Networks, 2007. (CCWMSN07), Page(s): 390 - 393, 2007 , il est proposé, plutôt que de décoder la totalité du signal audio codé, de décoder uniquement les coefficients MDCT qui permettent à eux seuls de déterminer les caractéristiques spectrales du signal codé. La largeur de bande BW (abréviation anglaise de "Bandwidth") du contenu audio codé est ainsi déterminée à partir de ces coefficients MDCT à l'aide de l'expression suivante: $BW = Max \{i | {SMRS}_{i} \geq T_{SRMS}\} - Min \{i | {SMRS}_{i} \leq T_{SRMS}\}$
où SMRS_i est la racine carrée de l'énergie de la i^eme bande ( ${SMRS}_{i} = \sqrt{\frac{1}{N_{i}} \sum_{j} S_{i, j}^{2}},$
où S_i,j représente le j^ieme coefficient de la i^ieme bande et N_i, le nombre de coefficients dans la i^ieme bande) et T_SRMS un seuil.
Les méthodes de détection de la bande de fréquence d'un signal audio numérique qui viennent d'être décrites reposent principalement sur une analyse fréquentielle du spectre du signal. Dans le cas où le contenu audio a été codé par une transformée fréquentielle, la détection de la bande de fréquence audio dans le contenu codé exploite avantageusement l'information spectrale contenue dans le flux binaire codé en ne décodant pas complètement le signal. Ceci réduit notablement la complexité de la détection en éliminant les coûteuses opérations que requièrent le décodage complet et l'analyse spectrale (à base de FFT ou de MDCT) du signal audio codé.
Or si les technologies de compression par transformée sont très répandues en codage audio (hauts débits, fréquence d'échantillonnage élevée), ce n'est pas le cas en codage de parole où les procédés de codage utilisent majoritairement les technologies de compression à prédiction linéaire telles que décrites précédemment et qui reposent pourtant sur une modélisation de l'enveloppe spectrale du signal par les coefficients de prédiction linéaire du filtre LPC à court terme et les diverses transformations (ex : LSP) utilisées pour la quantification.
Une solution pour déterminer la bande de fréquence audio d'un signal codé par un codeur à prédiction linéaire consiste à décoder le signal puis à lui appliquer une méthode de détection de bande de fréquence dans le domaine signal, telle que celle qui a été décrite ci-dessus. Cependant, une telle solution s'avère très coûteuse en complexité de calculs, entraînant de ce fait une consommation non souhaitée des ressources de l'unité centrale de traitement CPU (abréviation anglaise de « Central Processing Unit »). La complexité de calculs est engendrée par l'application des transformées fréquentielles FFT ou MDCT qui restent des opérations complexes.
De plus, si dans certaines des applications précitées de traitement du signal audio bénéficiant de la connaissance de la bande de fréquence audio, le signal décodé est disponible, telles que par exemple l'application consistant à afficher sur un terminal mobile un logo « HD Voice », ce n'est pas le cas de toutes les applications. Ainsi, par exemple, dans l'application d'indicateur de nombres d'appels déposés en bande élargie sur une messagerie vocale mobile, il faut alors rajouter à la complexité de la transformée temps-fréquence et de la détection de la bande audio à partir des énergies par bande, la complexité du décodage. Or, dans un codeur, tel qu'en particulier le codeur AMR-WB précité, le décodage représente 20% de la complexité totale du codeur, elle-même estimée autour de 40 WMOPS (abréviation anglaise de « Weighted Millions of Operations Per Second »).
Comme indiqué précédemment, certains codeurs combinent des techniques de codage par prédiction linéaire avec d'autres techniques de compression telles que par exemple des techniques de codage par transformée fréquentielle de type MDCT. On pourrait alors se contenter de n'effectuer la détection que sur les blocs de signal audio codés par une technique de transformée fréquentielle en utilisant pour ces blocs une méthode de l'état de l'art. Cependant cette solution nuirait à la réactivité de la détection car selon le type du contenu et/ou le débit, le codage à prédiction linéaire peut être majoritairement utilisé.

Objet et résumé de l'invention

Un des buts de l'invention est de remédier à des inconvénients de l'état des techniques précitées.
A cet effet, un objet de la présente invention concerne un procédé de détection selon la revendication 1. Une telle disposition permet d'identifier, avec un faible coût de calculs, si la bande de fréquence audio d'un contenu préalablement codé par un codeur à prédiction linéaire est plus restreinte ou non que la bande de fréquence audio dans laquelle fonctionne un tel codeur.
Dans le cas par exemple du codeur AMR-WB pour lequel le signal est échantillonné à 16 kHz, puis sous-échantillonné à 12.8 kHz en vue de l'analyse LPC de ce dernier, l'invention permet de déterminer par exemple la présence d'un contenu audio de fréquence supérieure à 4 kHz.
Une telle disposition est particulièrement avantageuse en ce sens qu'elle n'impose pas nécessairement un décodage complet du signal audio. Ainsi, l'invention peut être avantageusement mise en oeuvre dans certaines applications de détection de bandes de fréquences qui n'ont pas besoin de réaliser un décodage du signal audio codé, telles que par exemple l'indicateur de nombres d'appels déposés en bande élargie sur une messagerie vocale mobile.
Grâce à la simplicité d'une telle détection basée principalement sur l'analyse des différences dans les distributions d'une partie seulement des paramètres spectraux de prédiction linéaire décodés, les performances de cette détection s'en trouvent optimisées. En outre, la complexité des calculs effectués pour la mise en oeuvre d'une telle détection est nettement réduite en comparaison de la complexité de calculs engendrée par l'application de transformées fréquentielles FFT ou MDCT sur des signaux décodés des méthodes de détection de bande de fréquence de l'art antérieur.
Dans un mode de réalisation particulier, tous les paramètres spectraux de l'ensemble de paramètres spectraux précité sont préalablement décodés.
Une telle disposition permet de détecter de façon simple la bande de fréquence d'un contenu audio décodé, par un accès direct aux paramètres de prédiction linéaire décodés associés à ce contenu, et sans ajouter de complexité supplémentaire (décodage complet, transformée temps-fréquence).
Ainsi, par exemple, l'invention est particulièrement adaptée à sa mise en oeuvre dans un terminal de communication, fixe ou mobile, qui comprend par nature un codeur et un décodeur audio, et plus précisément à l'application dans ce terminal qui consiste à afficher sur l'écran de ce dernier un logo « HD Voice ».
Dans encore un autre mode de réalisation, dans le cas où parmi la succession de blocs de données, certains blocs contiennent chacun un ensemble de paramètres spectraux représentant un filtre de prédiction linéaire et certains autres blocs contiennent chacun un ensemble de paramètres spectraux obtenus par transformation fréquentielle, seuls sont considérés, en vue de la détection selon l'invention, les blocs contenant chacun un ensemble de paramètres spectraux représentant un filtre de prédiction linéaire.
S'agissant des blocs contenant chacun un ensemble de paramètres spectraux obtenus par transformation fréquentielle, une méthode de détection de bande de fréquence de l'art antérieur pourra par exemple être appliquée.
Dans un autre mode de réalisation particulier, lorsque la bande de fréquence prédéterminée à détecter est la bande des hautes fréquences, l'étape de détermination consiste à rechercher préférentiellement l'indice du premier paramètre spectral supérieur à une fréquence seuil.
Selon l'invention, on entend par bande des hautes fréquences, la bande des fréquences supérieures à un certain seuil. Par exemple, en bande élargie, on peut considérer que la bande haute fréquence correspond aux fréquences supérieures à 4 kHz (ou 3,4 kHz). Plus généralement, pour un signal échantillonné à une fréquence d'échantillonnage Fe et de largeur de bande inférieure ou égal à 0,5 Fe, la bande des hautes fréquences sera la bande des fréquences supérieures à α'0.5Fe (0<α'<1 ), α' étant ajustable.
De même, on entend par bande des basses fréquences, la bande des fréquences inférieures à un certain seuil. Lorsque la bande de fréquence prédéterminée à détecter est la bande des basses fréquences, ladite étape de détermination consiste à rechercher préférentiellement l'indice du dernier paramètre spectral inférieur à une fréquence seuil.
Une telle disposition permet ainsi de mettre en oeuvre l'invention par exemple dans des applications de traitement de la voix en qualité HD, en particulier aussi bien dans un terminal de communication mobile capable de fonctionner dans la plage de fréquences précitée, que dans un serveur de messagerie vocale capable de traiter des contenus audio HD, voire au sein d'une sonde se trouvant en coupure de flux audio d'un réseau de communication.
Dans encore un autre mode de réalisation particulier, le bloc courant contient des données représentatives d'une activité vocale.
Une telle disposition optionnelle permet, dans le cas particulier où il s'agit de détecter dans le signal audio codé une bande située dans les hautes fréquences, d'optimiser la réduction de la complexité du procédé de détection en effectuant la détection, non pas sur toutes les trames contenant au moins un ensemble de paramètres spectraux représentant un filtre de prédiction linéaire, mais seulement sur des trames pertinentes susceptibles de contenir des hautes fréquences, c'est-à-dire celles susceptibles de contenir des données voix et/ou musique.
Dans encore un autre mode de réalisation particulier, le critère est calculé par comparaison entre :

la valeur maximale de la distance entre deux paramètres spectraux décodés voisins, estimée par rapport à la valeur de l'indice du premier paramètre spectral décodé qui a été obtenu à l'issue de l'étape de détermination,
la valeur minimale de la distance entre deux paramètres spectraux décodés voisins, estimée par rapport à la valeur de l'indice du premier paramètre spectral décodé qui a été obtenu à l'issue de l'étape de détermination.

Une telle disposition permet de réaliser, à partir d'un calcul simple, si la bande de fréquence prédéterminée est détectée, tout en respectant un compromis complexité/fiabilité/réactivité de la détection.
En variante, le critère précité est calculé à l'aide d'une fonction mathématique utilisant comme paramètre au moins l'indice du premier paramètre spectral décodé qui a été obtenu à l'issue de l'étape de détermination précitée.
Dans encore un autre mode de réalisation particulier, à la suite de l'étape de décision mise en oeuvre pour le bloc courant, une étape de décision globale est mise en oeuvre par lissage du résultat de cette étape de décision et de K résultats de décision antérieurs, relatifs respectivement à K blocs précédant le bloc courant. Un tel lissage sur plusieurs blocs des détections locales propres à chaque bloc permet ainsi d'augmenter la fiabilité de la détection et par exemple de se prémunir d'un contenu audio réellement bande étroite pendant quelques trames (bruit par ex.).
Corrélativement, l'invention concerne un dispositif de détection selon la revendication 9. En particulier, un tel dispositif de détection est destiné à mettre en oeuvre tous les modes de réalisation du procédé de détection qui ont été mentionnés ci-dessus. Dans d'autres modes de réalisation particuliers, le dispositif de détection est apte à être contenu dans un terminal de communication, dans un serveur de messagerie vocale ou bien dans une sonde.
L'invention vise également un programme d'ordinateur selon la revendication 11. Un tel programme peut utiliser n'importe quel langage de programmation, et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet, tel que dans une forme partiellement compilée, ou dans n'importe quelle autre forme souhaitable.
Encore un autre objet de l'invention vise aussi un support d'enregistrement lisible par un ordinateur, selon la revendication 12. Le support d'enregistrement peut être n'importe quelle entité ou dispositif capable de stocker le programme. Par exemple, un tel support peut comporter un moyen de stockage, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple une disquette (floppy disc) ou un disque dur.
D'autre part, un tel support d'enregistrement peut être un support transmissible tel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Le programme selon l'invention peut être en particulier téléchargé sur un réseau de type Internet.
Alternativement, un tel support d'enregistrement peut être un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter le procédé en question ou pour être utilisé dans l'exécution de ce dernier.
Le dispositif de détection et le programme d'ordinateur précités présentent au moins les mêmes avantages que ceux conférés par le procédé de détection selon la présente invention.

Brève description des dessins

D'autres caractéristiques et avantages apparaîtront à la lecture de modes de réalisation préférés décrits en référence aux figures dans lesquelles:

la figure 1 représente les principales étapes du procédé de détection selon l'invention,
la figure 2 représente un mode de réalisation d'un dispositif de détection selon l'invention,
la figure 3 représente différents exemples de valeurs de fréquence seuil utilisées dans le procédé et le dispositif de détection selon l'invention,
la figure 4A représente un histogramme de l'indice du premier paramètre spectral supérieur à 4kHz, pour les blocs codés par le codeur AMR-WB contenant des données représentatives d'une activité vocale (flagVAD=1),
la figure 4B représente un histogramme de l'indice du premier paramètre spectral supérieur à 4kHz, pour tous les blocs codés par le codeur AMR-WB, sans tenir compte de l'indication d'activité vocale,
la figure 5A représente un histogramme cumulé du rapport entre la différence maximum et la différence minimum entre deux paramètres spectraux successifs à partir de l'indice du premier paramètre spectral supérieur à 4kHz, pour les blocs codés par le codeur AMR-WB contenant des données représentatives d'une activité vocale (flagVAD=1),
la figure 5B représente un histogramme cumulé du rapport entre la différence maximum et la différence minimum entre deux paramètres spectraux successifs à partir de l'indice du premier paramètre spectral supérieur à 4kHz, pour tous les blocs codés par le codeur AMR-WB, sans tenir compte de l'indication d'activité vocale,
la figure 6A représente un terminal de communication mobile apte à mettre en oeuvre le procédé de détection tel que représenté sur la figure 1,
la figure 6B représente un serveur de messagerie vocale apte à mettre en oeuvre le procédé de détection tel que représenté sur la figure 1.

Principe général du procédé de détection

Le principe général de l'invention va maintenant être décrit en référence aux figures 1 et 2 .
Sur la figure 1 , le procédé de détection de bande de fréquence selon l'invention est représenté sous la forme d'un algorithme comportant des étapes S0 à S4.
Sur la figure 2 , le procédé de détection précité est implémenté de manière logicielle ou matérielle dans un dispositif de détection DET représenté sur la figure 2 , qui comprend à cet effet un module de traitement TR spécifique à la détection.
En vue de la détection d'une bande de fréquence prédéterminée dans un signal audio considéré, un tel dispositif de détection DET est destiné à être agencé :

soit associé à un décodeur audio de façon à récupérer certains paramètres décodés associés audit signal audio décodé, lesquels seront décrits plus loin dans la description,
soit de façon indépendante du décodeur de façon à lire le signal audio codé puis à effectuer un décodage partiel de certains paramètres codés associés audit signal audio codé, lesquels seront décrits plus loin dans la description,
soit en coupure d'un signal audio codé de façon à lire ledit signal puis à effectuer un décodage partiel de certains paramètres codés associés audit signal audio codé, lesquels seront décrits plus loin dans la description.

Dans le cas d'un agencement du dispositif de détection DET dans un décodeur audio, le dispositif de détection DET est par exemple contenu dans un terminal de communication fixe ou mobile.
Dans le cas d'un agencement du dispositif de détection DET de façon indépendante du décodeur ou bien en coupure d'un signal audio codé, le dispositif de détection DET est par exemple contenu dans un élément de la chaine de transmission du signal audio (ex : serveur de messagerie dans lequel les messages audio sont stockés sans décodage).
Préalablement à la mise en oeuvre du procédé de détection d'une bande de fréquence prédéterminée dans un signal audio, il est procédé au codage de ce signal, lequel a été dans un premier temps échantillonné à une fréquence d'échantillonnage prédéterminée Fe.
Selon l'invention, le codage dudit signal est effectué par exemple dans un codeur à prédiction linéaire utilisant des paramètres spectraux LPC à court terme, tels que des coefficients ISP ou une représentation associée, couvrant au moins une partie du spectre en fréquences (normalisées ou non).
Ledit codeur est par exemple le codeur 3GPP AMR-WB, tel que mentionné plus haut dans la description.
A titre d'alternative, le codage dudit signal pourrait être effectué par un codeur tel que par exemple celui qui a été mentionné plus haut dans la description, lequel combine une technique de transformée fréquentielle de type MDCT et une technique de codage par prédiction linéaire de type CELP.
Dans l'exemple représenté, la fréquence d'échantillonnage est égale à 16 kHz, correspondant à la fréquence d'échantillonnage nominale du codeur AMR-WB fonctionnant dans la bande utile de 50 Hz à 7 kHz.
A l'issue de l'étape de codage à prédiction linéaire réalisée dans le codeur AMR-WB, est obtenue une pluralité Z de blocs consécutifs de données B₁, B₂, ..., B_Z, comme représenté sur les figures 1 et 2 . Chaque bloc contient au moins un ensemble de paramètres spectraux représentant un filtre de prédiction linéaire.
Dans le cas de l'alternative précitée, à l'issue de l'étape de codage est obtenue une pluralité de blocs consécutifs de données, certains desdits blocs contenant au moins un ensemble de paramètres spectraux représentant un filtre de prédiction linéaire et certains autres desdits blocs contenant au moins un ensemble de paramètres spectraux obtenus par transformée fréquentielle.
Puis est mis en oeuvre le procédé de détection d'une bande de fréquence prédéterminée du signal audio qui vient d'être codé, à partir d'une analyse de chacun des blocs précités.
Le procédé de détection selon l'invention s'applique uniquement sur les blocs qui contiennent au moins un ensemble de paramètres spectraux représentant un filtre de prédiction linéaire, une pluralité de ces paramètres ayant été préalablement décodés.
Dans le cas de l'alternative précitée, s'agissant des blocs contenant chacun un ensemble de paramètres spectraux obtenus par transformée fréquentielle, une méthode de détection de bande de fréquence de l'art antérieur pourra par exemple être appliquée.
Conformément au mode de réalisation, la bande de fréquence prédéterminée est la bande HF d'un contenu bande élargie.
Au cours d'une étape S1 représentée à la figure 1 , il est procédé au traitement d'un bloc courant B_n (n étant un entier tel que 1≤n≤Z). Le bloc courant B_n contient M paramètres spectraux p(i_k) préalablement décodés, ayant un sous-ensemble ordonné de M' (M'≤M) paramètres spectraux qui s'étend par exemple entre les indices i_min et i_max, tel que p(i_min)<...<p(i_k)<...<p(i_max), où i_min représente l'indice du plus petit paramètre spectral dudit sous-ensemble et i_max représente l'indice du plus grand paramètre spectral dudit sous-ensemble.
Par souci de concision, on décrit dans la suite le cas où les paramètres spectraux du sous-ensemble ordonné vérifient la relation: p(i)<p(j) si i<j, i, j ∈ {i_min...,i_max}. Il est évident pour l'homme de l'art que l'invention s'applique aussi à d'autres cas: comme par exemple, le cas où les paramètres spectraux du sous-ensemble ordonné vérifient la relation: p(i)>p(j) si i<j, i, j ∈ {i_min,...,i_max}.
L'étape S1 précitée est mise en oeuvre par un premier sous-module logiciel de calcul CAL1 du dispositif de détection DET, tel que représenté sur la figure 2 .
A cet effet, le sous-module de calcul CAL1 détermine, parmi lesdits M' paramètres spectraux, l'indice i_F du premier paramètre spectral qui est le plus proche d'une fréquence seuil, ladite fréquence seuil étant déterminée à partir de la fréquence d'échantillonnage F_e dudit signal audio. $i_{F} = \arg (\min_{i \in \{i_{\min}, \dots, i_{\max}\}} |p (i) - F_{th}|)$
Dans l'exemple représenté, F_th= αF_e (α<0.5), où α est un paramètre ajustable. La figure 3 représente différentes valeurs possibles de F_th selon la fréquence d'échantillonnage F_e utilisée et la valeur du paramètre α.
Plus particulièrement, au cours de l'étape S1, le sous-module de calcul CAL1 recherche l'indice i_HF du premier paramètre spectral p(i_k) supérieur à F_th conformément à l'opération suivante : $i_{HF} = \min (\underset{i \in \{i_{\min}, \dots, i_{\max}\}}{\arg} (p (i) \geq F_{th}))$
Ou inversement, au cours de l'étape S1, le sous-module de calcul CAL1 recherche l'indice i_BF du dernier paramètre spectral p(i) inférieur à F_th conformément à l'opération suivante : $i_{BF} = \max (\underset{i \in \{i_{\min}, \dots, i_{\max}\}}{\arg} (p (i) \leq F_{th}))$
Préférentiellement, l'étape S1 est précédée d'une étape de présélection S0, au cours de laquelle sont présélectionnés, parmi les blocs B₁, B₂, ..., B_Z, uniquement des blocs qui contiennent des données représentatives d'une activité vocale.
La détection d'activité vocale de tels blocs est effectuée classiquement lors du codage de ces derniers par un module de détection d'activité vocale VAD (abréviation anglaise de « Voice Activity Detection »), lequel :

soit utilise l'information disponible dans le bloc (ex : indicateur VAD=1 dans le bloc codé, mode « DTX on » du module de transmission discontinue DTX (abréviation anglaise de « Discontinuous Transmission »), classification du bloc codé comme contenant une activité vocale lorsque le bloc a été codé par un codeur EVRC (abréviation anglaise de « Enhanced Variable Rate CODEC »)),
soit calcule dans le signal audio codé un critère d'activité vocale.

L'étape de présélection S0 est mise en oeuvre par un module logiciel de présélection PRES représenté sur la figure 2 .
L'étape S0 étant optionnelle, elle est représentée en pointillé sur la figure 1 . De façon correspondante, le module PRES de la figure 2 est également représenté en pointillé.
Il est ensuite procédé, au cours d'une étape S2 représentée à la figure 1 , au calcul d'au moins un critère à partir dudit indice i_F déterminé. Une telle étape est mise en oeuvre par un deuxième sous-module logiciel de calcul CAL2 du dispositif de détection DET, tel que représenté sur la figure 2 .
Selon une première variante de réalisation, un tel critère est basé sur la comparaison de la « distance » entre deux paramètres spectraux successifs par rapport à l'indice i_F déterminé.
Une telle distance est évaluée conformément à la relation ci-dessous : $d (i) = dist (p (i), p (i - 1))$
Préférentiellement, une telle distance correspond à la simple différence entre deux paramètres spectraux successifs: $d (i) = dist (p (i), p (i - 1)) = ((p (i) - p (i - 1))$
Plus précisément, le sous-module logiciel CAL2 calcule d'abord respectivement :

la valeur maximale d_max de la distance entre deux paramètres spectraux voisins, estimée par rapport à l'indice i_F déterminé, et
la valeur minimale d_min de la distance entre deux paramètres spectraux voisins, estimée par rapport à l'indice i_F déterminé.

Un tel calcul est effectué selon les relations suivantes ci-dessous : $d_{\max} = \max_{i_{k} \in [i_{HF}, i_{\max}]} (d (i_{k})) = \max_{i_{k} \in [i_{HF}, i_{\max}]} ((p (i_{k}) - p (i_{k} - 1)))$
et $d_{\min} = \min_{i_{k} \in [i_{HF}, i_{\max}]} (d (i_{k})) = \min_{i_{k} \in [i_{HF}, i_{\max}]} ((p (i_{k}) - p (i_{k} - 1)))$
ou bien $d_{\max} = \max_{i_{k} \in] i_{\min}, i_{BF}]} (d (i_{k})) = \max_{i_{k} \in] i_{\min}, i_{BF}]} (p (i_{k}) - p (i_{k} - 1))$
et $d_{\min} = \min_{i_{k} \in] i_{\min}, i_{BF}]} (d (i_{k})) = \min_{i_{k} \in] i_{\min}, i_{BF}]} (p (i_{k}) - p (i_{k} - 1))$
Puis le sous-module logiciel de calcul CAL2 calcule un critère en fonction des deux distances calculées d_max et d_min pour détecter la présence d'un contenu audio HF (ou BF). Ce critère est noté par exemple crit(d_min , d_max ).
Préférentiellement, ce critère est le rapport ρ entre les deux distances calculées précédemment, tel que: $ρ = crit (d_{\min}, d_{\max}) = d_{\max} / d_{\min} (ou crit (d_{\min}, d_{\max}) = d_{\min} / d_{\max})$
Selon une deuxième variante de réalisation, un tel critère est basé sur une fonction mathématique F(i_F ) utilisant comme paramètre l'indice i_F.
Ladite fonction mathématique F(i_F ) consiste par exemple en une fonction affine par morceaux telle que: $F (i_{F}) = a_{0} i_{F} + b_{0} {si i}_{\min} \leq i_{F} < l_{0}$
$F (i_{F}) = a_{1} i_{F} + b_{1} {si l}_{0} \leq i_{F} < l_{1}$
$F (i_{F}) = a_{N - 1} i_{F} + b_{N - 1} {si l}_{N - 2} \leq i_{F} \leq i_{\max}$
En particulier, ladite fonction peut être en quatre morceaux, telle que: ${si i}_{\min} \leq i_{F} < 8, F (i_{F}) = 4 * i_{F} - 36$
$si 8 \leq i_{F} < 10, F (i_{F}) = 3 * i_{F} - 30$
$si 10 \leq i_{F} < 13, F (i_{F}) = 2 * i_{F} - 21$
$si 13 \leq i_{F} \leq i_{\max}, F (i_{F}) = 3 * i_{F} - 30$
Ainsi, selon cette variante, le critère dépend de la valeur de la fonction affine.
D'autres fonctions peuvent bien entendu être utilisées. On citera par exemple, la fonction suivante : $F (i_{F}) = sign (i_{F} - c) * {(i_{F} - c)}^{2}, où sign (x) = - 1 si x < 0, 1 sign (x) = 1$
sinon,
où c est une variable ou une constante égale à environ 10,5.
A la suite de l'étape S2 précitée, une étape S3 représentée à la figure 1 consiste à décider si la bande de fréquence prédéterminée est détectée dans le bloc courant B_n, en fonction de l'un des critères qui a été calculé à l'étape S2. Une telle étape est mise en oeuvre par un troisième sous-module logiciel de calcul CAL3 du dispositif de détection DET, tel que représenté sur la figure 2 .
A titre d'alternative, la décision est fonction de l'un ou de l'autre des deux critères mentionnés ci-dessus, ou bien encore d'une combinaison de ces derniers.
Dans le cas où le critère calculé est conforme à la première variante précitée, à savoir ρ = d _max/d _min, la décision peut être souple ou dure.
Par souci de concision, on décrit dans la suite le cas où l'étape de décision est relative à la détection d'une bande de hautes fréquences. Il est évident pour l'homme de l'art d'appliquer cette étape de décision de façon similaire, s'agissant de la détection d'une autre bande de fréquence, telle que par exemple une bande de basses fréquences.
La décision dure consiste à comparer le critère ρ à un seuil prédéterminé adaptatif ou non, noté crit_th. La comparaison est par exemple effectuée selon les calculs ci-dessous : $Si ρ > {crit}_{th}, {flag}_{HF} = 1$
Sinon flag_HF = 0
où flag_HF est un bit qui est soit mis à 1 pour indiquer que le contenu HF a été détecté, soit mis à 0 pour indiquer que le contenu HF n'a pas été détecté.
Une décision souple consiste par exemple à utiliser la valeur de ρ bornée dans l'intervalle [1,3]. Plus cette valeur est proche de la borne inférieure « 1 » de cet intervalle, plus un contenu HF est considéré non détecté dans le bloc du signal audio. Plus cette valeur est proche de la borne supérieure « 3 » de l'intervalle, plus un contenu HF est considéré détecté dans le signal audio.
Considérons maintenant le cas où le critère est ρ'=d _min/d _max.
La décision dure consiste à comparer le critère ρ' à un seuil prédéterminé adaptatif ou non, noté crit'_th. La comparaison étant alors: $Si ρ' > crit'_{th}, {flag}_{HF} = 0$
Sinon flag_HF = 1
où flag_HF égal 1 (respectivement 0) indique que le contenu HF a été détecté, (resp. que le contenu HF n'a pas été détecté).
La décision souple consiste par exemple à utiliser la valeur de ρ' dans l'intervalle [0,1]. Plus cette valeur est proche de la borne inférieure « 0 » de cet intervalle, plus un contenu HF est considéré comme détecté dans le bloc du signal audio. Plus cette valeur est proche de la borne supérieure « 1 » de l'intervalle, plus un contenu HF est considéré comme non détecté dans le signal audio. Plus la valeur des critères est proche des bornes de l'intervalle plus la décision pour le bloc (détection ou non de contenu HF) apparaît fiable, tandis qu'une valeur de ρ' proche du seuil crit'_th indique une faible fiabilité de la décision.
Dans le cas où le critère calculé est conforme à la deuxième variante précitée, à savoir une fonction mathématique F(i_F ), la décision peut être également souple ou dure.
Prenons par exemple le cas où la fonction mathématique F(i_F)= sign(i_F-c) *(i_F-c)² sert à détecter si un contenu HF est présent.
Une décision dure consiste par exemple à comparer le critère F(i_HF ) à 0, selon les calculs ci-dessous : $Si F (i_{HF}) < 0, {flag}_{HF} = 1$
Sinon flag_HF = 0
où flag_HF est un bit qui est soit mis à 1 pour indiquer que le contenu HF a été détecté, soit mis à 0 pour indiquer que le contenu HF n'a pas été détecté.
Dans ce cas, la décision souple peut alors consister à prendre la valeur de la fonction mathématique. Plus cette valeur est négative (respectivement positive), plus la fiabilité de la détection de la présence (respectivement de l'absence) d'un contenu HF est élevée. Par contre, une valeur de la fonction mathématique proche de zéro indique que la fiabilité de la détection est faible.
Dans le cas où le dispositif de détection DET détient déjà K résultats de décision relatifs respectivement à K blocs précédant le bloc courant B_n, il est avantageux, pour augmenter la fiabilité de la détection, de procéder, au cours d'une étape suivante S4 représentée à la figure 1 , à un lissage de ces K résultats et du résultat de la décision qui vient d'être obtenu pour le bloc courant B_n à l'étape S3 précitée, par une fenêtre éventuellement glissante. Là encore, la détection sur la fenêtre peut être une décision souple ou dure, que les détections locales relatives à chaque bloc aient été obtenues par décision souple ou dure. Une telle étape de lissage S4 est mise en oeuvre par un quatrième sous-module logiciel de calcul CAL4 représenté à la figure 2 .
L'étape S4 étant optionnelle, elle est représentée en pointillé sur la figure 1 . De façon correspondante, le sous-module CAL4 de la figure 2 est également représenté en pointillé.
Dans le mode de réalisation représenté, où le codeur audio est le codeur 3GPP AMR-WB, chaque bloc de données codées contient 16 paramètres dont les 15 premiers sont des paramètres spectraux ordonnés couvrant le spectre (normalisé) entre 0 et 6.4 kHz, le seizième paramètre étant l'indicateur d'activité vocale (VAD) codé sur un bit.
Les figures 4A et 4B représentent chacune un histogramme de l'indice i_HF du paramètre spectral p(i) supérieur à F_th =4 kHz du codec AMR-WB. Les indices sont représentés en abscisse et la distribution en pourcentage de ces indices est représentée en ordonnée. Sur la figure 4A , le procédé de détection qui a été mis en oeuvre comprend l'étape S0 de présélection des blocs contenant une activité vocale. Sur la figure 4B , le procédé de détection qui a été mis en oeuvre ne comprend pas l'étape S0. Quatre configurations différentes sont représentées à titre d'exemple sur les figures 4A et 4B : celle représentée en trait plein gras qui correspond au codec AMR-WB seul, celle représentée en trait pointillé qui correspond au codeur AMR-WB disposé en tandem après un autre codeur WB, tel que par exemple le codeur HD fixe G.722 à 64 kbit/s, celle représentée en trait fin qui correspond au codeur AMR-WB disposé en tandem après un codeur NB tel que par exemple le codeur pivot G.711, et celle représentée en trait mixte qui correspond au codeur AMR-WB disposé en tandem après un codeur NB, tel que le codeur mobile FR (abréviation anglaise de "Full Rate ").
Les histogrammes ont été obtenus sur des longs fichiers de parole avec différents bruits de fond (trafic routier, cafétéria, brouhaha), en tenant compte de trois rapports signal-à-bruit RSB différents (RSB= 5, 10, 20 dB).
Comme le montrent les figures 4A et 4B , la distribution de l'indice du premier paramètre spectral supérieur à 4 kHz diffère nettement selon que le premier codeur est de type WB ou NB. En particulier pour les codeurs WB, un pic est obtenu pour un indice i_HF =10.
De façon correspondante, les figures 5A et 5B représentent chacune un histogramme cumulé du rapport ρ entre la différence maximum et la différence minimum entre deux paramètres spectraux successifs à partir de l'indice i_HF du paramètre spectral supérieur à F_th =4 kHz du codec AMR-WB. Les valeurs du rapport ρ sont représentées en abscisse et la distribution en pourcentage de ces rapports est représentée en ordonnée. Sur la figure 5A , le procédé de détection qui a été mis en oeuvre comprend l'étape S0 de présélection des blocs contenant une activité vocale. Sur la figure 5B , le procédé de détection qui a été mis en oeuvre ne comprend pas l'étape S0. Quatre configurations, qui correspondent respectivement à celles des figures 4A et 4B , sont représentées sur les figures 5A et 5B . Les quatre configurations des figures 5A et 5B sont symbolisées de la même façon que sur les figures 4A et 4B .
Comme le montrent les figures 5A et 5B , la distribution du rapport ρ diffère nettement selon que le codeur est de type WB ou NB. En particulier, les distributions du rapport ρ relatif aux codeurs WB et les distributions du rapport ρ relatif aux codeurs NB s'écartent l'une de l'autre à partir de ρ=1,9.
De tels exemples de distributions sont ainsi exploités avantageusement par l'invention pour détecter si un signal audio codé par un codeur à prédiction linéaire tel que le codeur AMR-WB contient des hautes fréquences, une telle détection étant avantageusement effectuée :

avec une faible complexité algorithmique,
sans décodage complet du signal audio pour certaines applications audio ne proposant pas de décodage audio,
sans appliquer une coûteuse transformée fréquentielle.

On va maintenant décrire une première application du procédé de détection qui vient d'être décrit ci-dessus en vue de l'affichage d'un logo HD sur un terminal de communication mobile HD.
Un tel terminal est désigné par la référence TER sur la figure 6A .
De façon connue en soi, le terminal TER comprend :

une interface utilisateur INT comprenant classiquement un clavier, un écran, un micro et un haut parleur,
un module de communication COM1, par exemple de type 3G,
une mémoire morte MEM1 comprenant un module de codage audio CO1 et un module de décodage audio DO1.

Dans l'exemple représenté, le module de codage CO1 et le module de décodage DO1 sont du type AMR-WB.
Conformément à l'invention, la mémoire morte MEM1 ou bien une autre mémoire du terminal mobile TER contient en outre un dispositif DET1 de détection d'une bande de fréquence prédéterminée, similaire au dispositif de détection DET représenté sur la figure 2 .
Dans cette application, de façon classique, un flux audio codé est reçu par le module de communication COM1, puis entièrement décodé par le module de décodage DO1, de façon à ce que le terminal mobile TER restitue la parole par l'intermédiaire du haut-parleur de son interface utilisateur INT. Parmi les paramètres décodés délivrés par le décodeur DO1 au dispositif de détection DET1 figurent les 15 premiers coefficients ISF, paramètres spectraux ordonnés couvrant le spectre (normalisé) entre 0 et 6.4 kHz, et éventuellement l'indicateur VAD dont la valeur est mise à 1 si l'encodeur du terminal ayant émis le flux audio codé à destination du terminal TER a estimé que le signal de la trame était actif (tonalité, parole, musique), ou à zéro sinon.
Sur la base desdits 15 premiers coefficients ISF et éventuellement de l'indicateur VAD, le dispositif de détection DET1 du terminal TER met alors en oeuvre directement le procédé de détection de bande de fréquence prédéterminée tel que décrit à la figure 1 , avec une faible complexité bien inférieure par exemple à la complexité de l'application d'une transformée temps-fréquence sur le signal préalablement décodé.
A cet effet, préalablement à la mise en oeuvre de l'étape S0 précitée, il est procédé, dans le cas où l'étape de lissage S4 optionnelle est mise en oeuvre, à l'initialisation à zéro des quatre valeurs suivantes:

un critère global critGlob,
un indice ind , pour indexer une table de critères locaux,
un compteur de trames nbFrm pour lesquelles une décision a été prise,
un tableau tabDec de décisions locales.

A l'issue de l'étape d'initialisation, les valeurs suivantes sont obtenues: critGlob =0;

 ind =0;
 nbFrm = 0;
 tabDec[i] = 0; avec i=0,... ,nbCount,
 où nbCount est le nombre de décisions locales à partir desquelles une décision
 globale (0<nbCount) est prise.

Au cours de l'étape S1 représentée à la figure 1 , il est procédé au traitement d'un bloc courant B_n (n étant un entier tel que 1≤n≤Z). Le bloc courant B_n contient les quinze/seize paramètres précités (15 coefficients spectraux et éventuellement l'indicateur VAD) qui ont été décodés par le module de décodage DO1.

Préférentiellement, l'étape S1 est précédée de l'étape de présélection S0, au cours de laquelle sont présélectionnés, parmi les blocs B₁, B₂,..., B_Z, uniquement des blocs qui contiennent des données représentatives d'une activité vocale, pour lesquels l'indicateur VAD est à 1.

Au cours du traitement dudit bloc courant B_n, il est procédé à la recherche de l'indice i_HF du premier paramètre spectral p(i_k) supérieur à F_th conformément à l'opération suivante :

i_{HF} = \min (\underset{i_{k} \in [i_{o}, i_{1}]}{\arg} (p (i_{k}) \geq F_{th}))

On peut évidemment choisir comme intervalle de recherche i₀=0 et i₁=15. Avantageusement, on réduit cet intervalle de recherche, entraînant de ce fait une détection plus rapide et moins complexe. Par exemple, en choisissant i₀=8 au lieu de i₀=0.

De même, l'intervalle de recherche pourrait être limité un peu plus en choisissant i₁=12 au lieu de i₁=15.

Dans l'exemple représenté, la fréquence seuil F_th est égale à 4 kHz. La valeur de cette fréquence exprimée en fréquence normalisée par rapport à 0.5 (correspondant à 6.4 kHz) vaut alors 0.3125 (soit 10240 =0.3125*32768 en virgule fixe Q15).

Un exemple de pseudo-code en langage informatique C de cette étape est donné ci-dessous.

 iHF= i1; move 16();
 FOR(i=i1-1; i>= i0; i--)
 {
   if(sub(p(i), Fth) >=0)
   {
       iHF = i; move16();
   }
   }

Il est ensuite procédé, au cours d'une étape S2 représentée à la figure 1 , au calcul d'au moins un critère local sur le bloc courant B_n, à partir dudit paramètre spectral d'indice i_HF .

Le critère choisi dans ce mode de réalisation est:

F (i_{HF}) = sign (i_{HF} - c) * {(2 i_{HF} - c)}^{2},

où sign(x) = -1 si x<0, et sign(x) = 1 sinon, avec c= 21.

Un exemple de pseudo-code C de cette étape est donné ci-dessous:

 diff = shl(iHF, 1);
 diff = sub(diff, c);
 critLoc = L_mult0(diff, diff);
 if(diff < 0) {
   critLoc= L_negate(critLoc);
   }

A la suite de l'étape S2 précitée, une étape S3 représentée à la figure 1 consiste à décider si la bande de fréquence prédéterminée est détectée dans le bloc courant B_n, en fonction de l'un des critères qui a été calculé à l'étape S2.

Préférentiellement, la décision est une décision souple donnée par le critère local calculé à l'étape précédente.

Un exemple de pseudo-code C de cette étape est donné ci-dessous:

decLoc = critLoc; move 16 ();

En pratique, à l'issue de cette étape, le logo HD est destiné à s'afficher sur l'écran du terminal TER avec un contraste plus ou moins élevé qui correspond respectivement à une valeur plus ou moins élevée du critère calculé.

A titre d'alternative la décision est une décision dure déterminée par le critère local calculé à l'étape précédente.

Un exemple de pseudo-code C de cette étape alternative est donné ci-dessous:

   decLoc = 1; movel 16(); /* NB */
   if (critLoc<0)
   {
       decLoc = 1; move160();/* WB */
   }

En pratique, à l'issue de cette étape alternative, le logo HD est destiné à s'afficher sur l'écran du terminal TER si le critère calculé est inférieur à 0, ou à ne pas s'afficher sinon.

Avantageusement, au cours de l'étape S4 optionnelle représentée à la figure 1 , pour augmenter la fiabilité de la détection, les détections locales sont lissées sur plusieurs blocs (nbCount > 1) par une fenêtre éventuellement glissante. Là encore, de façon similaire à l'étape précédente, la détection sur la fenêtre peut être une décision decGlob souple ou dure, que les détections locales aient été obtenues par décision souple ou dure.

Pour cela, les décisions locales (souples ou dures) sont stockées dans le tableau de décisions locales et sont utilisées pour mettre à jour le critère global critGlob.

Un exemple de pseudo-code C de cette étape est donné ci-dessous dans le cas où les décisions locales sont souples (decLoc = critLoc) et la décision globale dure:

Après une étape d'initialisation - mise à zéro des variables critGlob et ind, et du tableau tabDec[nbCount], pour chaque bloc de données pour lequel une décision locale decLoc a été déterminée :

       critGlob = L_sub(critGlob, tabDec[ind]);
       critGlob = L_add(critGlob, decLoc);
       tabDec[ind]= decLoc; move32();
       ind = add(ind, 1);
       if(sub(ind, nbCount) == 0)
       {
           ind = 0; move 16();
       }
       flagWB = 1; /* assume WB */
       if(critGlob > 0) {
           flagWB = 0; /* NB détecté */
       }

La décision globale est ici prise sur une fenêtre glissante.

Dans une variante de réalisation, la décision globale est prise sur des fenêtres ne se recouvrant pas. Dans ce cas, il est inutile de stocker un tableau de décisions locales, il suffit d'ajouter les décisions locales au critère global qui est réinitialisé à zéro au début de chaque fenêtre traitée. Un exemple de pseudo-code C de cette variante est donné ci-dessous dans le cas où les décisions locales sont souples (decLoc = critLoc) et la décision globale dure: Après une étape d'initialisation - mise à zéro des variables critGlob et ind, pour chaque bloc de données pour lequel une décision locale decLoc a été déterminée :

       critGlob = L_add(critGlob, decLoc);
       ind = add(ind, 1);
       IF (sub(ind, nbCount)==0)
       {
           ind = 0; movel 16();
           flagWB = 1; movel 16();
           /* assume WB */
           if(critGlob > 0) {
               flagWB = 0; move16();/* NB détecté */
           }
           critGlob = 0; move32();
       }

L'application qui vient d'être décrite ci-dessus réalise ainsi un compromis entre le temps de réactivité de l'affichage ou non du logo HD et la fiabilité de la détection.

En outre la complexité des calculs est relativement faible comme le montre la table ci-dessous qui indique le poids de certaines des instructions mentionnées ci-dessus :

Instructions	Poids en complexité	Label de l'instruction
Accès en mémoire (écriture ou lecture) mot sur 16 bits	1	move16()
Accès en mémoire (écriture ou lecture) mot sur 32 bits	2	move32()
Addition/soustraction de 2 mots de 16 bits	1	add()/sub()
Addition/soustraction de 2 mots de 32	1	L_add()/L_sub()
Décalage binaire à gauche (multiplication par une puissance de 2)	1	shl()
Multiplication de 2 mots de 16 bits	1	L_mult0()
Test "simple" (suivi d'un seul opérateur de base simple)	0	if
Boucle effectuée un nombre de fois N constant	4	FOR

On va maintenant décrire une deuxième application du procédé de détection qui a été décrit plus haut en référence à la figure 1 , en vue de l'indication du nombre d'appels déposés en bande élargie sur un serveur de messagerie vocale mobile.

Un tel serveur est désigné par la référence SER sur la figure 6B .

En particulier, un tel serveur comprend de façon classique :

un ensemble EBR de boîtes de réception de messages,
un module de communication COM2, par exemple de type IP,
une mémoire morte MEM2 qui contient un module GES de gestion des messages vocaux enregistrés dans les boîtes de réception de l'ensemble EBR précité.

La mémoire MEM2 contient en outre un module de décodage DO2 et un module d'encodage CO2 qui sont destinés si besoin respectivement à décoder, puis réencoder le contenu audio du message vocal déposé.

Une telle opération s'avère nécessaire par exemple dans le cas où le contenu audio du message vocal déposé a été codé initialement par un codeur qui est différent du codeur contenu dans le terminal destiné à consulter ledit message vocal ou proposé par le réseau lors de la consultation dudit message.

Une telle opération peut également s'avérer nécessaire en vue de stocker un message vocal déposé dans un format de codage différent, ce qui peut être un choix de l'opérateur pour une application de type webmail par exemple qui vise à proposer le message sur la boite mail du propriétaire de la messagerie vocale.

Conformément à l'invention, la mémoire morte MEM2 ou bien une autre mémoire du serveur SER contient en outre :

un dispositif DET2 de détection d'une bande de fréquence prédéterminée, similaire au dispositif de détection DET représenté sur la figure 2 ,
un module de décodage partiel DP.

Dans le cas où les messages vocaux déposés dans le serveur SER sont des flux codés qui n'ont pas besoin d'être immédiatement décodés puis réencodés par le module de décodage DO2 et le module d'encodage CO2 respectivement, parce que par exemple, l'application de webmail n'est pas disponible chez l'opérateur, le module de décodage partiel DP est apte, préalablement à la détection du contenu HF, à décoder une partie seulement des 15 premiers coefficients ISF et éventuellement l'indicateur VAD. Une telle disposition est possible compte tenu de la quantification vectorielle des coefficients ISF selon deux sous-vecteurs, telle que mise en oeuvre dans un codeur du type AMR-WB. Il convient de rappeler qu'une telle quantification est mise en oeuvre à l'aide d'une combinaison bien connue de l'Homme du métier d'une méthode de quantification de type codes-produits SVQ (abréviation anglaise de "Split Vector Quantization") et d'une méthode de quantification de type multi-étages MSVQ (abréviation anglaise de « Multi Stage Vector Quantization »).

Ainsi, conformément à l'invention, le module de décodage DP ne décode que le deuxième sous-vecteur des coefficients ISF, c'est-à-dire celui qui contient les huit derniers coefficients ISF d'indice les plus élevés, dont la distribution est plus susceptible de démontrer la présence de contenu HF. Eventuellement, le module de décodage DP décode l'indicateur VAD.

Une telle disposition permet avantageusement de réduire la complexité calculatoire de la détection de la bande de fréquence du flux audio codé. Une telle disposition permet en outre d'économiser les ressources de la mémoire MEM2 par élimination des instructions de décodage du premier sous-vecteur des coefficients ISF et du stockage de ses dictionnaires de quantification vectorielle.

Sur la base d'une partie des coefficients spectraux décodés ainsi obtenus, le dispositif de détection DET2 du serveur SER met alors en oeuvre directement le procédé de détection de bande de fréquence prédéterminée tel que décrit à la figure 1 .

Les étapes S0 à S4 de ce procédé sont similaires à celles qui viennent d'être décrites ci-dessus en liaison avec le terminal TER de la figure 6A . Elles ne seront donc pas décrites à nouveau.

Dans cette deuxième application plus particulièrement, le fait de limiter le décodage à une partie seulement des paramètres spectraux permet avantageusement, au profit d'un coût de traitement faible, d'identifier sur les trames codées par un codeur à prédiction linéaire tel que l'AMR-WB, si le contenu codé a bien des composantes hautes fréquences et donc s'il est réellement HD et ainsi d'avoir des informations pertinentes de la bande audio des contenus au niveau d'un système n'effectuant pas de décodage des flux binaires (tel qu'un serveur de messagerie vocale).

Selon une alternative qui correspond au cas où les messages vocaux déposés dans le serveur SER sont des flux codés qui ont besoin d'être décodés puis réencodés par le module de décodage DO2 et le module d'encodage CO2 respectivement (ex : application webmail), le module de décodage DP fonctionne alors de la même façon que le module de décodage DO1 qui a été décrit en référence à la figure 6A .

Il va de soi que les modes de réalisation qui ont été décrits ci-dessus ont été donnés à titre purement indicatif et nullement limitatif, et que de nombreuses modifications peuvent être facilement apportées par l'homme de l'art sans pour autant sortir du cadre de l'invention, telle que définie par les revendications ci-jointes. Ainsi par exemple, le procédé de détection d'une bande de fréquence prédéterminée, au lieu d'être utilisé dans un serveur de messagerie en mode décodage partiel, pourrait être utilisé de façon similaire dans une sonde se trouvant en coupure d'un flux audio.

En outre, le procédé de détection d'une bande de fréquence prédéterminée n'est pas obligatoirement limité aux contenus codés par un codeur bande élargie. Cette largeur de bande peut aussi être variable.

De même le procédé de détection pourrait être mis en oeuvre pour détecter un contenu en bande de basses fréquences au lieu d'un contenu en bande de hautes fréquences. Dans ce cas, comme mentionné précédemment l'étape de détermination S2 précitée consisterait naturellement à rechercher, parmi au moins une pluralité de paramètres spectraux préalablement décodés de l'ensemble de paramètres spectraux, l'indice du plus grand paramètre spectral inférieur à une fréquence seuil.

La fréquence seuil F_th pourrait par ailleurs varier au cours de l'une des applications précitées.

Le procédé de détection peut être également mis en oeuvre selon plusieurs variantes, tant dans le choix des critères, dans la manière de combiner éventuellement plusieurs critères, ou bien dans l'utilisation de décisions souples ou dures, tant localement que globalement. Selon la variante sélectionnée, il est alors possible d'optimiser le compromis complexité/fiabilité/réactivité de la détection.

Enfin, bien que l'invention ait été décrite en liaison avec un réseau de communication mobile, cette dernière peut bien entendu être mise en oeuvre en liaison avec d'autres types de réseaux de communication (réseau fixe de type RTC, VoIP mobile, etc...) dans lesquels est susceptible d'être utilisé un codeur à prédiction linéaire.

Claims

Procédé de détection d'une bande de fréquence prédéterminée dans un signal de données audio qui a été préalablement codé selon une succession de blocs de données (B1, B2, ..., Bz), parmi lesquels au moins certains blocs contiennent respectivement au moins un ensemble de paramètres spectraux représentant un filtre de prédiction linéaire, la bande de fréquence prédéterminée à détecter étant la bande des basses fréquences ou la bande des hautes fréquences, ledit procédé de détection mettant en oeuvre, pour unbloc courant (Bn) parmi lesdits au moins certains blocs et dont au moins une pluralité de paramètres spectraux dudit ensemble ont été préalablement décodés, lesdits paramètres spectraux décodés ayant un sous-ensemble ordonné de paramètres spectraux qui s'étend sur un spectre de fréquence prédéterminé les étapes consistant à :
- déterminer (S1) parmi ledit sous-ensemble de paramètres spectraux préalablement décodés et ordonnés, l'indice du premier paramètre spectral le plus proche d'une fréquence seuil,

- calculer (S2) un critère de détection de bande de fréquence prédéterminée à partir dudit indice déterminé, le critère étant basé sur la comparaison de la distance entre deux paramètres successifs parmi ledit sous-ensemble de paramètres spectraux préalablement décodés et ordonnés par rapport audit indice déterminé et/ou sur une fonction mathématique utilisant comme paramètre ledit indice déterminé,

- décider (S3) si ladite bande de fréquence prédéterminée est détectée dans ledit bloc courant, en fonction du critère calculé.
Procédé de détection selon la revendication 1, au cours duquel tous les paramètres spectraux dudit ensemble sont préalablement décodés.
Procédé selon la revendication 1 ou la revendication 2, au cours duquel dans le cas où parmi ladite succession de blocs de données, certains blocs contiennent chacun un ensemble de paramètres spectraux représentant un filtre de prédiction linéaire et certains autres blocs contiennent chacun un ensemble de paramètres spectraux obtenus par transformation fréquentielle, seuls sont considérés en vue de ladite détection les blocs contenant chacun un ensemble de paramètres spectraux représentant un filtre de prédiction linéaire.
Procédé de détection selon l'une quelconque des revendications 1 à 3, au cours duquel lorsque ladite bande de fréquence prédéterminée à détecter est la bande des hautes fréquences, ladite étape de détermination consiste à rechercher l'indice du premier paramètre spectral supérieur à une fréquence seuil.
Procédé de détection selon l'une quelconque des revendications 1 à 3, au cours duquel lorsque ladite bande de fréquence prédéterminée à détecter est la bande des basses fréquences, ladite étape de détermination consiste à rechercher l'indice du dernier paramètre spectral inférieur à une fréquence seuil.
Procédé de détection selon l'une quelconque des revendications 1 à 4, au cours duquel le bloc courant contient des données représentatives d'une activité vocale.
Procédé de détection selon l'une quelconque des revendications 1 à 6, au cours duquel ledit critère est calculé par comparaison entre :
- la valeur maximale (d_max ) de la distance entre deux paramètres spectraux décodés voisins, estimée par rapport à la valeur de l'indice du premier paramètre spectral décodé qui a été obtenu à l'issue de ladite étape de détermination,

- la valeur minimale (d_min ) de la distance entre deux paramètres spectraux décodés voisins, estimée par rapport à la valeur de l'indice du premier paramètre spectral décodé qui a été obtenu à l'issue de ladite étape de détermination.
Procédé de détection selon l'une quelconque des revendications 1 à 7, au cours duquel, à la suite de ladite étape de décision mise en oeuvre pour ledit bloc courant, une étape de décision globale (S4) est mise en oeuvre par lissage du résultat de ladite étape de décision et de K résultats de décision antérieurs, relatifs respectivement à K blocs précédant ledit bloc courant.
Dispositif de détection adapté pour mettre en oeuvre le procédé de détection selon l'une quelconque des revendications 1 à 8.
Dispositif de détection selon la revendication 9, ledit dispositif étant apte à être contenu dans un terminal de communication (TER) ou bien dans un serveur de messagerie vocale (SER).
Programme d'ordinateur comportant des instructions adaptées pour mettre en oeuvre le procédé de détection selon l'une quelconque des revendications 1 à 8, lorsque ledit procédé de détection est exécuté sur un ordinateur.
Support d'enregistrement lisible par un ordinateur sur lequel est enregistré un programme d'ordinateur comprenant des instructions adaptées pour l'exécution des étapes du procédé de détection selon l'une quelconque des revendications 1 à 8, lorsque ledit programme est exécuté par un ordinateur.