EP1554878A2

EP1554878A2 - Embrouillage adaptatif et progressif de flux audio

Info

Publication number: EP1554878A2
Application number: EP03767936A
Authority: EP
Inventors: Daniel Lecomte; Daniela Parayre-Mitzova
Original assignee: Medialive SA
Current assignee: Medialive SA
Priority date: 2002-10-21
Filing date: 2003-10-21
Publication date: 2005-07-20
Also published as: AU2003292364A8; CN1706192A; FR2846179A1; BR0315332A; JP2013041661A; WO2004039053A2; JP5265075B2; US9008306B2; US20050289063A1; WO2004039053A3; AU2003292364A1; FR2846179B1; US20120201384A1; JP5678020B2; JP2006504212A; US8184809B2

Abstract

La présente invention se rapporte à un procédé pour la distribution de séquences audio numériques selon un format de flux nominal constituées par une succession de trames comprenant chacune au moins un bloc regroupant une pluralité de coefficients correspondant à des éléments auditifs simples codés numériquement, le procédé comportant une étape de modification d'au moins un bloc du flux originel caractérisé en ce que ladite étape de modification agit de façon adaptative sur ledit flux originel en fonction d'une partie au moins des caractéristiques représentatives de la structure, du contenu et des paramètres du flux audio originel, du profil du destinataire, et d'événements externes. Dans un mode de réalisation particulier, l'étape de modification consiste à remplacer une partie desdits coefficients pour produire d'une part un flux audio principal au format nominal et d'autre part une information complémentaire de modification permettant la reconstruction du flux originel par un décodeur de l'équipement destinataire, la portée des modifications étant variable et déterminée par lesdites caractéristiques représentatives. La présente invention se rapporte également à un système pour la mise en oeuvre du procédé.

Description

EMBROUILIAGE ADAPTATIF ET PROGRESSIF DE FLUX AUDIO

La présente invention se rapporte au domaine du traitement des flux audio numériques . On se propose dans la présente invention de fournir un système permettant d'embrouiller auditivement et de recomposer un contenu audio numérique.

La présente invention se rapporte plus particulièrement à un dispositif capable de transmettre de façon sécurisée un ensemble de flux audio de haute qualité auditive vers un lecteur (« player ») musical ou de parole pour être enregistré dans la mémoire ou sur le disque dur d'un boîtier décodeur reliant le réseau de télétransmission au lecteur audio, tout en préservant la qualité auditive, mais en évitant toute utilisation frauduleuse comme la possibilité de faire des copies pirates de programmes audio enregistrés dans la mémoire ou sur le disque dur du boîtier décodeur.

L'invention concerne un procédé pour la distribution de séquences audio numériques selon un format de flux nominal constitué par une succession de trames comprenant chacune au moins un bloc audio numérique regroupant un certain nombre de coefficients correspondant à des éléments audio simples codés numériquement selon un mode précisé à l'intérieur du flux concerné et utilisé par tous les décodeurs audio capables de le jouer afin de pouvoir le décoder correctement. Ce procédé comporte :

• une étape préparatoire consistant à modifier au moins un desdits coef icients, • une étape de transmission

- d'un flux principal conforme au format nominal, constitué par des trames contenant les blocs modifiés au cours de l'étape préparatoire et - par une voie séparée dudit flux principal d'une information numérique complémentaire permettant de reconstituer le flux originel à partir du calcul, sur l'équipement destinataire, en fonction dudit flux principal et de ladite information complémentaire. On définit ladite information complémentaire en tant qu'un ensemble constitué de données (par exemple des coefficients décrivant le flux numérique originel ou des extraits du flux originel) et de fonctions (par exemple, la fonction substitution ou permutation) . Une fonction est définie comme contenant au moins une instruction mettant en rapport des données et des opérateurs. Ladite information numérique complémentaire décrit les opérations à effectuer pour récupérer le flux originel à partir du flux modifié.

La reconstitution du flux originel s'effectue sur l'équipement destinataire à partir du flux principal modifié déjà présent ou envoyé en temps réel sur l'équipement destinataire et de l'in ormation complémentaire, envoyée en temps réel au moment de l'écoute, comprenant des données et des fonctions exécutées à l'aide de routines (ensemble d'instructions) numériques.

L'art antérieur connaît déjà par la demande de brevet internationale WO 0058963 (Liquid Audio) un système de sécurité pour les lecteurs de musique portables. Des données comme un morceau musical sont sauvegardées en tant que morceau portable sécurisé (SPT : secure portable trac ) , qui peut être lié à un ou plusieurs lecteurs (« players ») et peut être lié à un moyen de sauvegarde particulier, restreignant ainsi la lecture du SPT à des players spécifiques et assurant que la lecture est seulement effectuée à partir du moyen de sauvegarde original . Le SPT est lié à un player par encryptage de données du SPT en utilisant une clé de sauvegarde qui est unique au player, difficile à changer et est gardée par le lecteur dans des conditions de sécurité strictes. Le SPT est lié à un moyen particulier de sauvegarde en incluant des données identifiant uniquement le moyen de sauvegarde dans une forme résistante à la falsification, c'est-à-dire signée de façon cryptée .

On connaît également, par le brevet américain US 4600941 (Sony), un système d'embrouillage pour les signaux audio dans lequel un signal audio est divisé en blocs, chaque bloc étant formé d'une pluralité de trames, la pluralité de trames étant réarrangée sur une base de temps dans un ordre prédéterminé à chaque bloc de façon à être encodée, et le signal encodé est ré-arrangé sur une base de temps dans un ordre original de façon à être décodé. Dans ce système sont fournis un premier circuit de traitement du signal pour insérer une portion redondante dans une portion entre des trames contiguës et comprimer en temps de base les trames en réponse aux portions redondantes lors de l'encodage, un circuit générant un signal pour insérer un signal de contrôle autre qu'une information audio dans les portions redondantes, un circuit de détection de signal de contrôle pour détecter le signal de contrôle lors du décodage et un deuxième circuit de traitement du signal pour enlever les portions redondantes en synchronisme avec le signal de contrôle détecté et décompressant en temps de base les trames en réponse aux portions redondantes.

On cpnnaît également, par le brevet américain US 5058159 (Macrovision corporation) , une méthode et un système pour embrouiller et désembrouiller des signaux d'information audio. Les signaux audio sont embrouillés en inversant le spectre de fréquence original de telle sorte que les portions de fréquence qui sont à l'origine en bas dans la bande de fréquence audio sont déplacées en haut tandis que les portions à l'origine en haut de la bande sont déplacées en bas. Un son pilote d'une fréquence connue est enregistré avec les signaux audio aux fréquences déplacées . Lors de la reproduction, chaque variation en phase et en fréquence sont recherchées par le son pilote, qui est utilisé pour générer le signal de démodulation pour reconstituer le contenu original en fréquences des signaux audio.

L'art antérieur connaît également par la demande de brevet internationale WO 99/55089 « Multimedia Adaptive Scrambling System » (« Système Adaptatif d'E brouillage Multimédia ») un système pour l'embrouillage d'échantillons numériques représentant des données multimédias (audio et vidéo) , de manière à ce que le contenu de ces échantillons soit dégradé, mais reconnaissable, ou sinon fourni avec la qualité requise. Le niveau de qualité est relié à un rapport signal / bruit associé, et est déterminé à l'aide de tests objectifs et subjectifs. Un nombre donné de LSBs (« Least Significant Bits », bits de poids le plus faible) est embrouillé trame par trame, de manière adaptative en fonction de la dynamique des valeurs possibles. Toutes les clefs de cryptage sont incluses dans le flux audio/vidéo et utilisées par le décodeur pour désembrouiller et restituer le flux. Après le désembrouillage, la clef de cryptage n'est pas récupérable, car elle est elle-même embrouillée par le décodeur. L'état de l'art fait preuve de beaucoup de systèmes de protection de flux audio, essentiellement basés sur le cryptage des données, en rajoutant des clefs de cryptage indépendantes du contenu du flux audio, et qui donc modifient le format du flux structuré. Une réalisation particulière et différente est celle de la société Coding Technologies, qui consiste à protéger par embrouillage une partie sélectionnée du bitstream (on appelle « bitstream » le flux binaire à la sortie de l'encodeur audio) et non pas le bitstream entier. Les parties protégées représentent les valeurs spectrales du signal audio, menant à ce que lors du décodage sans décrypter, le flux audio est distordu et désagréable à l'écoute.

La présente invention entend remédier aux inconvénients de l'art antérieur en proposant d'appliquer un embrouillage adaptatif et progressif en fonction de la structure du flux audio, du profil du client et d'événements extérieurs .

Dans la présente invention, on entend sous le terme « embrouillage » la modification d'un flux audio numérique par des méthodes appropriées de manière à ce que ce flux reste conforme à la norme ou au standard avec lequel il a été encodé numériquement, tout en le rendant audible par un lecteur audio (ou player) , mais altéré du point de vue de la perception auditive humaine.

Dans la présente invention, on entend sous le terme « désembrouillage » le processus de restitution par des méthodes appropriées du flux initial, le flux audio restitué après le désembrouillage étant identique au flux audio originel initial. La reconstitution du flux originel s'effectue sur l'équipement destinataire à partir du flux principal modifié déjà présent ou envoyé en temps réel sur l'équipement destinataire et de l'information complémentaire, envoyée en temps réel au moment de l'écoute, comprenant des données et des fonctions exécutées à l' aide de routines (ensemble d'instructions) numériques. La totalité ou une sous-partie de l'information complémentaire est envoyée en fonction du profil et des droits du client. On définit comme quantité d' informations contenues dans ladite sous-partie de l'information complémentaire le nombre de données et/ou des fonctions appartenant à l'information complémentaire envoyée au destinataire pendant la connexion. Le type d'informations contenues dans ladite sous- partie, correspond à un niveau de scalabilité déterminé en fonction du profil du destinataire. On définit comme type, la nature des données et/ou fonctions appartenant à l'information complémentaire envoyée au destinataire pendant la connexion. Par exemple, le type de données est relatif aux habitudes du destinataire (heure de connexion, durée de la connexion, régularité de la connexion et des paiements) , de son environnement (habite une grande ville, le temps qu'il fait en ce moment) et à ses caractéristiques (âge, sexe, religion, communauté) . Ladite information complémentaire est composée au moins de fonctions, qui sont personnalisées pour chaque destinataire par rapport à la session de connexion. On définit une session à partir de l'heure de connexion, la durée, le type dudit flux modifié écouté et les éléments connectés (destinataires, serveurs) .

Ladite information complémentaire est subdivisée en au moins deux sous-parties, chacune des sous-parties pouvant être distribuée par différents médias, ou par le même média. Par exemple, dans le cas de distribution de l'information complémentaire par plusieurs médias, on peut assurer une gestion plus complexe des droits des destinataires.

On entend par « profil » de l'utilisateur, un fichier numérique comprenant des descripteurs et informations spécifiques à l'utilisateur, par exemple ses préférences culturelles et ses caractéristiques sociales et culturelles, ses habitudes d'utilisation telles que la périodicité de l'utilisation des moyens audio, la durée moyenne de l'écoute d'une séquence audio embrouillée, la fréquence d'écoute d'une séquence embrouillée, le prix que l'utilisateur est prêt à payer ou toute autre caractéristique comportementale au regard de l'exploitation de séquences audio. Ce profil se formalise par un fichier numérique ou une table numérique exploitable par des moyens informatiques . Beaucoup de systèmes d' embrouillage ont un effet immédiat, soit le flux initial est totalement embrouillé, soit le flux initial n'est pas du tout embrouillé, aussi généralement différentes séquences audio peuvent être embrouillées avec le même algorithme et les mêmes paramètres de réglage. De nombreuses protections utilisées ne changent pas l'embrouillage d'un flux audio en fonction de son contenu.

Dans la présente invention, on applique un embrouillage adaptatif et progressif en fonction de la structure du flux (bitstream) audio et/ou de son contenu, en changeant les algorithmes et/ou les paramètres de 1' embrouillage en fonction des caractéristiques du flux audio et de l'application utilisateur, et cela dans le but de réaliser une protection fiable, du point de vue de la détérioration du lux d' origine et de la résistance au piratage, pour un coût minimal, tout en assurant à la fin la qualité de service requise par le destinataire ou le client. On applique différentes adaptations de l'embrouillage, comme par exemple celles citées ci-dessous.

L'invention concerne dans son acception la plus générale un procédé pour la distribution de séquences audio numériques selon un format de flux nominal constituées par une succession de trames comprenant chacune au moins un bloc audio numérique regroupant une pluralité de coefficients correspondant à des éléments audio simples codés numériquement, le procédé comportant une étape de modification d'au moins un bloc du flux originel caractérisé en ce que ladite étape de modification agit de façon adaptative sur ledit flux originel en fonction d'une partie au moins des caractéristiques représentatives de la structure, du contenu et des paramètres du flux audio originel, du profil du destinataire, et d'événements externes. De préférence, l'étape de modification consiste à remplacer une partie desdits coefficients pour produire d'une part un flux audio principal au format nominal et d'autre part une information complémentaire de modification permettant la reconstruction du flux originel par un décodeur de l'équipement destinataire, la portée des modifications étant variable et déterminée par lesdites caractéristiques représentatives .

Selon une variante, le flux principal modifié est enregistré sur l'équipement destinataire préalablement à la transmission de l'information complémentaire sur l'équipement destinataire.

Selon une variante, le flux principal modifié est enregistré sur un support physique pour être transmis à l'équipement destinataire préalablement à la transmission de l'information complémentaire sur l'équipement destinataire.

Selon une autre variante, le flux principal modifié et l'information complémentaire sont transmis ensemble en temps réel. Avantageusement, ladite information complémentaire de modification comprend au moins une routine numérique apte à exécuter une fonction.

Selon un mode de mise en œuvre particulier, ladite information complémentaire de modification est subdivisée en au moins deux sous-parties.

Selon une variante, lesdites sous-parties de l'information complémentaire de modification sont distribuées par différents médias.

Selon une autre variante, lesdites sous-parties de l'information complémentaire de modification sont distribuées par le même média.

Selon un mode de mise en œuvre particulier, l'information complémentaire est transmise sur un vecteur physique. Selon une variante, l'information complémentaire est transmise en ligne.

Avantageusement, lesdites séquences audio numériques sont modifiées de façon différenciée en fonction de leur contenu audio.

Avantageusement, lesdites séquences audio numériques sont modifiées de façon différenciée en fonction de la couche de scalabilité modifiée.

Avantageusement, lesdites séquences audio numériques sont modifiées de façon différenciée en fonction du débit en kilo bits par seconde (kbits/s) du flux originel.

Selon une variante, lesdites séquences audio numériques sont modifiées de façon différenciée en fonction du profil et du niveau numérique défini par la norme ou le standard avec laquelle ou lequel elles ont été encodées.

Selon une autre variante, lesdites séquences audio numériques sont modifiées de façon différenciée en fonction du nombre de canaux audio présents dans le flux.

Avantageusement, lesdites séquences audio numériques sont modifiées de façon différenciée en fonction du couplage et du multiplexage entre les différents canaux audio présents dans le flux.

Selon une variante, lesdites séquences audio numériques sont modifiées de façon différenciée en fonction de la fréquence d'échantillonnage avec laquelle a été encodé le flux audio.

Selon une autre variante, lesdites séquences audio numériques sont modifiées de façon différenciée en fonction du modèle psycho acoustique utilisé. Selon un mode de mise en œuvre particulier, lesdites séquences audio numériques sont modifiées de manière différenciée en fonction de leur scalabilité granulaire. Avantageusement, lesdites séquences audio numériques sont modifiées d'une manière progressive augmentant l'effet de dégradation jusqu'à l'embrouillage complet du flux audio.

De préférence, lesdites séquences audio numériques sont modifiées avec une génération aléatoire des paramètres et configurations d' embrouillage.

Selon une variante, le procédé comporte une étape préalable de conversion analogique/numérique sous un format structuré, le procédé étant appliqué à un signal audio analogique.

La présente invention se rapporte également à un système pour la distribution de séquences audio numériques comportant un serveur audio comprenant des moyens pour diffuser un flux modifié conformément à l'un quelconque des procédés précédents, et une pluralité d'équipements munis d'un circuit d' embrouillage, caractérisé en ce que le serveur comprend en outre un moyen d' enregistrement du profil numérique de chaque destinataire et un moyen d'asservissement des moyens de modification en fonction de variables d'entrée correspondant à une partie au moins des caractéristiques représentatives de la structure, du contenu et des paramètres du flux audio originel, du profil du destinataire, et d'événements externes.

Un flux audio numérique est généralement composé de séquences constituées de trames ou de blocs, organisés selon un format numérique spécifique pour chaque codeur audio, incluant les en-têtes des trames avec les différents paramètres d'encodage et des coefficients relatifs à une représentation spécifique des échantillons audio numériques. Connaissant la manière dont sont effectués la modélisation, la compression et l'encodage du signal audio pour le codeur audio et/ou le standard ou la norme donnés, il est toujours possible d'extraire à partir du bitstream les paramètres principaux qui le décrivent et qui sont envoyés au décodeur. Une fois ces paramètres identifiés, ils sont modifiés de manière à ce que le flux audio généré par le codeur et/ou le standard donnés soit conforme à ce codeur et/ou ce standard. De plus, la modification assure la stabilité du signal sonore, mais le rend inexploitable par l'utilisateur, car il est embrouillé. Cependant, il peut être compris et interprété dans le décodeur correspondant à son encodage et joué par un player sans que ce dernier ne soit perturbé.

La modification d'une ou de plusieurs des composantes dudit signal audio (enveloppe spectrale, fondamental ou harmoniques, modèle psycho-acoustique, évolution temporelle, Rapport Signal/Bruit, composition, compression, quantification, transformation) va provoquer sa dégradation du point de vue auditif et le transformer en un signal complètement incompréhensible et désagréable du point de vue de la perception auditive subjective. La partie du signal audio ou la composante le décrivant qui sera modifiée dépend de son encodage, pour chaque codeur-décodeur donné, et ceci que ce soit pour la parole, la musique, le bruit ou les effets spéciaux, les sons synthétiques ou tout signal audio du même type. Selon la manière dont sont réalisés l'encodage et la transmission des paramètres résultants, on peut avoir une information directe ou indirecte sur les principales caractéristiques du signal audio et donc les modifier. Ce principe est applicable pour tous les types de codeurs numériques ainsi que pour toutes leurs couches, de base ou d' amélioration (« base and enhancement layers ») ou la combinaison des deux.

On applique une adaptation des paramètres d' embrouillage en fonction du contenu du flux audio : parole naturelle ou synthétique, musique, bruits, sons naturels ou synthétiques ou composés, effets spéciaux. Par exemple, l'encodeur HVXC (Harmonie Vector excitation Coding) pour la parole, et l'encodeur HILN (Harmonie and Individual Lines plus Noise) pour la musique, définis par la norme MPEG-4 sont des codeurs paramétriques qui codent le signal audio séparément ou conjointement en fonction de son contenu. Par exemple dans le cas où la parole est prédominante, le bitstream provenant du HVXC contient les valeurs des LSP (Line Spectral Pairs) reflétant les paramètres LPC (Linear Prédictive Coding) . Les valeurs des LSP de la trame courante sont quantifiées vectoriellement en deux étapes, sont stabilisées dans une valeur afin d'assurer la stabilité du filtre de synthèse LPC et sont ensuite rangées dans un bitstream en ordre ascendant, avec un minimum de distance entre coefficients adjacents. Les indices des paires LSP quantifiées vectoriellement sont transmis au décodeur, qui restitue à partir de tables standards les valeurs des LSP et donc des LPC. En remplaçant les indices originels avec d' autres valeurs prises à partir de tables prédéfinies dans la norme, le bitstream restera conforme, mais les valeurs LSP décodées ne correspondront pas aux paramètres LPC originels. Par conséquent, l'enveloppe spectrale sera modifiée et la parole détériorée.

Beaucoup de codeurs audio se caractérisent par la scalabilité. On définit la notion de « scalabilité » à partir du mot anglais « scalability » qui caractérise un encodeur capable d'encoder ou un décodeur capable de décoder, un ensemble ordonné de flux binaires de façon à produire ou reconstituer une séquence multi couches. En fonction de la configuration de l'encodeur audio, on applique un embrouillage adaptatif par rapport à la couche de base ou aux couches d'amélioration. Par exemple, les encodeurs HVXC et HILN, possèdent chacun une couche de base et une couche d'amélioration, ce qui permet plusieurs 04/039053

13 configurations possibles. En fonction du degré d' embrouillage souhaité, on modifie les paramètres pour la couche de base, pour la couche d'amélioration ou pour les deux couches . On applique également une adaptation en fonction du débit en nombre de kilo bits par seconde (kbits/s) du flux audio, qu'il soit constant ou variable. Pour certains flux audio plus complexes (comme ceux du type MPEG-4, qui ont un débit variable dans de très larges proportions (de 2 kbits/s à 64 its/s), on choisit les paramètres de l'embrouillage en fonction du débit, étant donné qu'un embrouillage pour un faible débit de l'ordre de 2 kbits/s s'avère moins efficace pour des débits plus élevés, où la précision de l'encodage est beaucoup plus grande. On applique également une adaptation des paramètres de l'embrouillage en fonction de la scalabilité granulaire fine, provenant du terme anglais « fine granular scalability » caractérisant certains flux audio. On définit la notion de « scalabilité granulaire » à partir de l'expression en anglais « granular scalability » utilisée dans la norme MPEG-4 qui caractérise un encodeur capable d' encoder ou un décodeur capable de décoder un ensemble ordonné de flux binaires de façon à produire ou reconstituer une séquence multi couches. On définit la granularité comme la quantité d'informations susceptible d'être transmise par couche d'un système caractérisé par une scalabilité quelconque, le système est alors aussi granulaire. Par exemple, le schéma d'encodage AAC (Advanced Audio Coding) avec BSAC (Bit Sliced Arithmetic Coding) procure la possibilité d'un encodage avec réduction du bruit d'un bitstream AAC en un bitstream avec une scalabilité granulaire fine entre 16 kbits/s et 64 kbits/s par canal, dont le débit binaire est modulable avec un pas de 1 kbits/s . Pour certains flux audio plus complexes (comme ceux définis par la norme MPEG-4) , on applique un embrouillage adaptatif en fonction des types d'objets contenus dans le flux, du profil (« profile ») , du niveau (« level ») , désignant la complexité et les options utilisées lors de la construction du flux audio. En effet, dans le cadre de MPEG- 4 audio, on a une multitude d'objets et de profils audio. Par exemple, pour les objets audio naturels, un des profils est le « Simple scalable » qui contient les outils CELP (Code Excited Linear Prédiction) et AAC (Advanced Audio Coding) . L'embrouillage est effectué en fonction des paramètres de ces deux codeurs. La modification adaptative des éléments du flux audio est effectuée en fonction des types d'objets audio que contient chaque profil et level. On applique également une adaptation des paramètres de l'embrouillage en fonction du nombre de canaux audio présents dans le flux.

On applique une adaptation des paramètres de l'embrouillage en fonction du couplage et du multiplexage entre les différents canaux audio présents dans le flux.

On applique une adaptation des paramètres de l'embrouillage en fonction de la fréquence d'échantillonnage avec laquelle a été encodé le flux audio.

On applique une adaptation des paramètres de l'embrouillage en fonction du modèle psycho acoustique utilisé, caractérisant certains encodeurs audio.

Par exemple, dans la norme MPEG-4 AAC, le modèle psycho-acoustique estime les seuils déterminant l'erreur maximale de quantification qui peut être admise lors de la compression tout en préservant la qualité audio. Les données spectrales sont quantifiées et codées en fonction de ces seuils estimés. La quantification est choisie en fonction des seuils estimés, par exemple la quantification peut être uniforme ou non uniforme, et elle est effectuée à l'aide de facteurs d'échelle (« scale factors » en anglais) . En modifiant les valeurs de ces facteurs d'échelle, codés en différentiel dans le flux binaire, on introduit une erreur de quantification, car les facteurs d'échelle ne correspondent plus à ceux définis par les estimations du modèle psycho-acoustique. On adapte l'embrouillage en fonction de la dégradation auditive souhaitée, dans le cas où on souhaiterait un léger embrouillage, on modifie les derniers facteurs d'échelle. Avantageusement, lorsqu'on veut obtenir une forte dégradation auditive, on modifie le premier facteur d'échelle, étant donné que tous les facteurs d'échelle sont codés en différentiel par rapport au premier facteur d'échelle, toutes les valeurs qui suivent sont erronées et le signal audio est fortement perturbé. On applique aussi un embrouillage progressif, de manière à ce que l'utilisateur commence à écouter le flux audio non embrouillé. Ensuite, on commence par un embrouillage léger qu'on renforce de plus en plus, jusqu'à ce que le flux audio devienne entièrement embrouillé. Le but recherché est d'éveiller l'intérêt de l'utilisateur pour le flux audio, mais en lui enlevant les droits de l'écouter si ce dernier ne les a pas achetés. Une réalisation de cette application est d'embrouiller le flux audio avec un ou plusieurs des algorithmes donnés en modifiant progressivement les paramètres d' embrouillage pendant une durée de temps déterminée de manière à augmenter le désagrément, jusqu'à arriver à un flux complètement embrouillé et inaudible.

On réalise généralement un embrouillage adaptatif en fonction du contenu, des caractéristiques, de la structure et de la composition du flux numérique défini par une norme ou un standard donné .

On réalise également un embrouillage avec une génération aléatoire des combinaisons paramétriques à appliquer pour l'embrouillage du flux audio. De cette manière, on assure une protection robuste et difficilement attaquable ou ne pouvant pas être piratée par une personne mal intentionnée. On applique également une adaptation des paramètres et algorithmes d' embrouillage en fonction du profil du destinataire, en fonction du comportement du destinataire pendant la connexion au serveur (par exemple la régularité et l'acceptation des paiements), en fonction du prix qu'il est prêt à payer, en fonction de ses habitudes (par exemple temps, heure de connexion) , en fonction de ses caractéristiques (par exemple âge, sexe, religion, communauté) , ou en fonction de données communiquées par un tiers (par exemple appartenance à des associations ou figurant sur des bases de données de consommateurs) .

On applique également une adaptation des paramètres et algorithmes d' embrouillage en fonction d'événements externes, comme par exemple l'heure de diffusion, le taux d'audience, des événements sociaux-politiques, ou des perturbations durant la diffusion.

On comprendra mieux l'invention à l'aide de la description, faite ci-après à titre purement explicatif, d'un mode de réalisation de l'invention, en référence à la figure annexée : la figure 1 illustre un mode de réalisation particulier du système client-serveur selon l'invention. Le flux audio de type MPEG-AAC que l'on souhaite sécuriser (1) est envoyé à un système d'analyse (121) et d' embrouillage (122) qui va générer un flux principal modifié et une information complémentaire en sortie. Le flux d'origine (1) peut être directement sous forme numérique (10) ou sous forme analogique (11) . Dans ce dernier cas, le flux analogique (11) est converti par un codeur non représenté en un format numérique (10) . Dans la suite du texte, nous noterons (1) le flux numérique audio d' entrée.

Un premier flux (124) au format MPEG-AAC, de format identique au flux numérique d'entrée (1) en dehors de ce que certains de ses coefficients et/ou valeurs ont été modifiés, est placé dans une mémoire tampon de sortie (125) .

L'information complémentaire (123), de format quelconque, contient les références des parties des échantillons audio qui ont été modifiées et est placée dans le tampon (126) . En fonction des caractéristiques du flux d'entrée (1), le système d'analyse (121) et d' embrouillage (122) décide quel embrouillage adaptatif appliquer et quels paramètres du flux modifier et aussi en fonction des droits du client, de quelle manière appliquer les modifications, par exemple progressive ou pas.

Le flux MPEG-AAC (125) est ensuite transmis, soit sous forme physique sur un CD-ROM, une mémoire non volatile, DVD, etc., soit via un réseau (4) de type réseau téléphonique, DSL (Digital Subscriber Line) , BLR (Boucle Locale Radio) , DAB (Digital Audio Broadcasting) , RTC (Réseau Téléphonique Commuté) , mobiles numériques (GSM, GPRS, UMTS) , hertzien, câble, satellite, etc., au client (8), et plus précisément dans sa mémoire (81) de type RAM, ROM, disque dur. Lorsque le destinataire (8) fait la demande d'écouter une séquence audio présente dans sa mémoire (81) , deux éventualités sont possibles :

- soit le destinataire (8) ne possède pas les droits nécessaires pour jouer la séquence audio. Dans ce cas, le flux (125) généré par le système de brouillage (122) présent dans sa mémoire (81) est passé au système de synthèse (82) , qui ne le modifie pas et le transmet à l'identique à un lecteur audio classique (83) et son contenu, fortement dégradé auditivement, est joué par le player (83) sur le casque ou les hauts parleurs (9) . soit, le destinataire (8) possède les droits pour écouter la séquence audio. En fonction des droits du destinataire, le serveur (12) transmet l'information complémentaire (126) appropriée par la liaison (6) , correspondant au type d' embrouillage effectué. Dans ce cas, le système de synthèse fait une demande d' audition au serveur (12) contenant l'information nécessaire (126) à la récupération de la séquence audio originelle (1) . Le serveur (12) envoie alors par la liaison (6) via des réseaux de transmission type ligne téléphonique analogique ou numérique, DSL (Digital Subscriber Line) , BLR (Boucle Locale Radio) , DAB (Digital Audio Broadcasting) , RTC (Réseau Téléphonique Commuté) , réseaux mobiles numériques (GSM, GPRS, UMTS), hertzien, câble, ou satellite l'information complémentaire (126) permettant la reconstitution de la séquence audio de façon à ce que le client (8) puisse écouter et/ou stocker la séquence audio. Le système de synthèse (82) procède alors au désembrouillage de la séquence audio par la reconstruction du flux d' origine en combinant le flux principal modifié (125) et l'information complémentaire (126) . Le flux audio ainsi obtenu en sortie du système de synthèse (82) est alors transmis au lecteur audio classique (83) et la séquence audio originelle est jouée sur le casque ou les hauts parleurs (9) .

Nous allons également illustrer la présente invention à l'aide d'un deuxième exemple de réalisation, présentant des modifications différenciées en fonction du débit, de la structure, de la composition de la trame audio et aussi en fonction de l'effet de dégradation auditive à obtenir.

De plus en plus de codeurs possèdent l'option de fonctionner à des débits variables afin de satisfaire des applications spécifiques, comme par exemple pour répondre aux contraintes de bande passante limitée. Un exemple de codeur ayant pour but d' assurer une qualité acceptable pour la parole, tout en respectant une bande passante de faible débit est le codeur AMR (« Adaptive Multi Rate » en anglais), conçu pour la téléphonie cellulaire, pouvant fonctionner en huit modes différents, dont le débit varie entre 4,75 kbits/s et 12,2 kbits/s. La présente invention effectue des modifications différenciées en fonction du mode avec lequel a été encodé le flux audio, c'est-à-dire en fonction du débit, de la longueur des composantes respectives de la trame, ainsi qu'en fonction du degré de dégradation auditif souhaité.

Par exemple en mode 12,2 kbits/s, la structure de la trame AMR est la suivante : - Les index correspondant aux paires spectrales de fréquence, appelées LSF (« Line Spectral Frequencies » en anglais) , relatives aux paramètres LSP (« Line Spectral Pairs » en anglais) , donc aussi aux paramètres LPC (« Linear Prédictive Coding » en anglais), c'est-à-dire à la forme du filtre des formants, lesdits index étant communs à toute la trame ;

Quatre groupes de paramètres relatifs aux quatre sous-trames, contenues dans la trame complète, représentant cent soixante échantillons audio. Chaque groupe de paramètres par sous-trame est constitué de la manière suivante : retard du fondamental («pitch delay » en anglais) , amplitude du fondamental (« pitch gain » en anglais) , - données concernant le signe et la position fréquentielle des impulsions de l'excitation, index relatif au gain de la table de valeurs (« codebook » en anglais) . En fonction de la dégradation auditive souhaitée, on modifie ces paramètres de manière différenciée.

Par exemple, modifier la valeur du retard du fondamental par substitution avec une valeur différente provoque un décalage fréquentiel : une valeur plus faible provoque une déformation de la voix, l'effet obtenu est un son sourd, avec des grésillements similaires à une « extinction de la voix » .

Modifier l'amplitude du fondamental en le substituant avec une valeur plus grande provoque une déformation saccadée, certaines parties sont amplifiées, d'autres « étouffées ».

Plusieurs modification sont également effectuées sur les valeurs des LSF : - substituer les valeurs des LSF avec des valeurs fixes produit un effet sonore connu similaire à un canal radio brouillé ; substituer les valeurs des LSF en changeant aléatoirement les indices, casse entièrement le son, car cela rajoute des grésillements de différentes fréquences et amplitudes produisant un grand désagrément sonore, la parole devient inintelligible ; en modifiant une LSF, la dégradation audible est similaire à un bruit de fond type « sifflement », mais une partie du son reste perceptible, on adapte les modifications dans ce cas, par exemple pour des applications de ' pré audition (« teasing » en anglais) , quand on souhaite que l'utilisateur puisse percevoir le son et choisir d'en demander ou pas les droits. Par exemple, on modifie une LSF, et progressivement on rajoute des modifications sur la deuxième LSF, la troisième, la quatrième et la cinquième, jusqu'à modifier les valeurs de toutes les LSF, en substituant la valeur des indices avec une même valeur par exemple. Le résultat obtenu dans ce cas est la concentration du spectre autour d'une fréquence, par exemple si on pose les indices à un, on obtient un son inintelligible de basse fréquence .

Les modifications différenciées des LSF donnent une information complémentaire peu volumineuse, pour une dégradation auditive importante. De préférence, elles sont combinées avec d'autres modifications.

Avantageusement, on modifie les signes des pulsations relatives à la construction de l'excitation. De plus, en substituant la position des pulsations avec des « fausses » positions, on modifie également l'excitation et le son est totalement déformé .

Pour un mode à 7,95 kbits/s, la structure de la trame est similaire à la différence près qu'elle contient un seul jeu de trois LSF ; on applique alors des modifications différenciées en tenant compte de cette particularité et de la longueur de trame correspondante à ce mode.

Pour les autres modes du codeur AMR, la structure de la trame est légèrement différente, elle ne contient pas l'amplitude du fondamental, ni le gain des tables à valeurs fixes, mais un ensemble de gains relatifs aux tables de valeurs fixes et adaptatives, utilisés pour la mise à l'échelle de l'excitation construite à partir de l'addition des codes-vecteurs adaptatifs et d'innovation. Les modifications appliquées tiennent compte de ces spécificités. Modifier les LSF produit une dégradation importante, néanmoins, étant donné que les débits audio sont peu élevés, de petites modifications sont suffisantes pour obtenir une forte dégradation auditive.

De préférence, les modifications différenciées sont effectuées en tenant compte du débit souhaité pour l'information complémentaire. La présente invention ne se limite pas aux modifications citées à titre d'exemples de réalisation, lesdites modifications garantissant le non-dépassement des valeurs d'amplitude du son autorisées et garantissant la conformité du flux principal modifié avec le flux audio d' origine.

Avantageusement, après reconstitution sur l'équipement de l'utilisateur à partir du flux principal modifié et de l'information complémentaire, le flux reconstitué est auditivement identique à l'original, mais différent du point de vue binaire du flux d'origine, et cela dans le but de renforcer la sécurité.

Avantageusement, après reconstitution sur l'équipement de l'utilisateur à partir du flux principal modifié et de l'information complémentaire, le flux reconstitué est strictement identique à l'original, le procédé est sans perte .

Claims

REVENDICATIONS

1. Procédé pour la distribution de séquences audio numériques selon un format de flux nominal constituées par une succession de trames comprenant chacune au moins un bloc audio numérique regroupant une pluralité de coefficients correspondant à des éléments audio simples codés numériquement, le procédé comportant une étape de modification d' au moins un bloc du flux originel caractérisé en ce que ladite étape de modification agit de façon adaptative sur ledit flux originel en fonction d'une partie au moins des caractéristiques représentatives de la structure, du contenu et des paramètres du flux audio originel, du profil du destinataire, et d'événements externes.

2. Procédé pour la distribution de séquences audio numériques selon la revendication 1, caractérisé en ce que l'étape de modification consiste à remplacer une partie desdits coefficients pour produire d'une part un flux audio principal au format nominal et d' autre part une information complémentaire de modification permettant la reconstruction du flux originel par un décodeur de l'équipement destinataire, la portée des modifications étant variable et déterminée par lesdites caractéristiques représentatives.

3. Procédé pour la distribution de séquences audio numériques selon la revendication 2, caractérisé en ce que le flux principal modifié est enregistré sur l'équipement destinataire préalablement à la transmission de l'information complémentaire sur l'équipement destinataire.

4. Procédé pour la distribution de séquences audio numériques selon la revendication 2, caractérisé en ce que, le flux principal modifié est enregistré sur un support physique pour être transmis à l'équipement destinataire préalablement à la transmission de l'information complémentaire sur l'équipement destinataire.

5. Procédé pour la distribution de séquences audio numériques selon la revendication 2, caractérisé en ce que le flux principal modifié et l'information complémentaire sont transmis ensemble en temps réel.

6. Procédé pour la distribution de séquences audio numériques selon l'une au moins des revendications 2 à 5, caractérisé en ce que ladite information complémentaire de modification comprend au moins une routine numérique apte à exécuter une fonction.

7. Procédé pour la distribution de séquences audio numériques selon l'une quelconque des revendications 2 à 6, caractérisé en ce que ladite information complémentaire de modification est subdivisée en au moins deux sous-parties.

8. Procédé pour la distribution de séquences audio numériques selon la revendication 7, caractérisé en ce que lesdites sous-parties de l'information complémentaire de modification sont distribuées par différents médias.

9. Procédé pour la distribution de séquences audio numériques selon la revendication 7, caractérisé en ce que lesdites sous-parties de l'information complémentaire de modification sont distribuées par le même média.

10. Procédé pour la distribution de séquences audio numériques selon l'une au moins des revendications 2 à 9, caractérisé en ce que l'information complémentaire est transmise sur un vecteur physique.

11. Procédé pour la distribution de séquences audio numériques selon l'une au moins des revendications 2 à 9, caractérisé en ce que l'information complémentaire est transmise en ligne.

12. Procédé pour la distribution de séquences audio numériques selon l'une au moins des revendications précédentes, caractérisé en ce que lesdites séquences audio numériques sont modifiées de façon différenciée en fonction de leur contenu audio.

13. Procédé pour la distribution de séquences audio numériques selon l'une au moins des revendications précédentes, caractérisé en ce que lesdites séquences audio numériques sont modifiées de façon différenciée en fonction de la couche de scalabilité modifiée.

14. Procédé pour la distribution de séquences audio numériques selon l'une au moins des revendications précédentes, caractérisé en ce que lesdites séquences audio numériques sont modifiées de façon différenciée en fonction du débit en kbits par seconde du flux originel.

15. Procédé pour la distribution de séquences audio numériques selon l'une au moins des revendications précédentes, caractérisé en ce que lesdites séquences audio numériques sont modifiées de façon différenciée en fonction du profil et du niveau numérique défini par la norme ou le standard avec laquelle ou avec lequel elles ont été encodées .

16. Procédé pour la distribution de séquences audio numériques selon l'une au moins des revendications précédentes, caractérisé en ce que lesdites séquences audio numériques sont modifiées de façon différenciée en fonction du nombre de canaux audio présents dans le flux.

17. Procédé pour la distribution de séquences audio numériques selon l'une au moins des revendications précédentes, caractérisé en ce que lesdites séquences audio numériques sont modifiées de façon différenciée en fonction du couplage et du multiplexage entre les différents canaux audio présents dans le flux.

18. Procédé pour la distribution de séquences audio numériques selon l'une au moins des revendications précédentes, caractérisé en ce que lesdites séquences audio numériques sont modifiées de façon différenciée en fonction de la fréquence d'échantillonnage avec laquelle a été encodé le flux audio .

19. Procédé pour la distribution de séquences audio numériques selon l'une au moins des revendications précédentes, caractérisé en ce que lesdites séquences audio numériques sont modifiées de façon différenciée en fonction du modèle psycho acoustique utilisé.

20. Procédé pour la distribution de séquences audio numériques selon l'une au moins des revendications précédentes, caractérisé en ce que lesdites séquences audio numériques sont modifiées de manière différenciée en fonction de leur scalabilité granulaire.

21. Procédé pour la distribution de séquences audio numériques selon l'une au moins des revendications précédentes, caractérisé en ce que lesdites séquences audio numériques sont modifiées de manière différenciée en fonction de l'effet de dégradation auditive souhaitée.

22. Procédé pour la distribution de séquences audio numériques selon l'une au moins des revendications précédentes, caractérisé en ce que lesdites séquences audio numériques sont modifiées de manière différenciée en fonction du débit souhaité pour l'information complémentaire.

23. Procédé pour la distribution de séquences audio numériques selon l'une au moins des revendications précédentes, caractérisé en ce que sont modifiées les valeurs des indices des LSP (« Line Spectral Pairs ») ou des indices des LSF (« Line Spectral Frequencies ») desdites séquences audio numériques.

24. Procédé pour la distribution de séquences audio numériques selon l'une au moins des revendications précédentes, caractérisé en ce que sont modifiées les valeurs du délai et de l'amplitude du fondamental desdites séquences audio numériques .

25. Procédé pour la distribution de séquences audio numériques selon l'une au moins des revendications précédentes, caractérisé en ce que sont modifiés les signes et la position des impulsions d' excitation desdites séquences audio numériques.

26. Procédé pour la distribution de séquences audio numériques selon l'une au moins des revendications précédentes, caractérisé en ce que lesdites modifications garantissent le non-dépassement des valeurs d' amplitude du son autorisées.

27. Procédé pour la distribution de séquences audio numériques selon l'une au moins des revendications précédentes, caractérisé en ce que ladite séquence audio reconstruite à partir du flux principal modifié et à partir de l'information complémentaire est auditivement identique au flux original mais différente du point de vue binaire du flux original.

28. Procédé pour la distribution de séquences audio numériques selon l'une au moins des revendications précédentes, caractérisé en ce que ladite séquence audio reconstruite à partir du flux principal modifié et à partir de l'information complémentaire est identique auditivement et du point de vue binaire au flux original.

29. Procédé pour la distribution de séquences audio numériques selon l'une au moins des revendications précédentes, caractérisé en ce que lesdites séquences audio numériques sont modifiées d'une manière progressive augmentant l'effet de dégradation jusqu'à l'embrouillage complet du flux audio .

30. Procédé pour la distribution de séquences audio numériques selon l'une au moins des revendications précédentes, caractérisé en ce que lesdites séquences audio numériques sont modifiées avec une génération aléatoire des paramètres et configurations d' embrouillage.

31. Procédé pour la distribution de séquences audio numériques selon l'une quelconque des revendications précédentes, caractérisé en ce qu' il comporte une étape préalable de conversion analogique/numérique sous un format structuré, le procédé étant appliqué à un signal audio analogique.

32. Système pour la distribution de séquences audio numériques comportant un serveur audio comprenant des moyens pour diffuser un flux modifié conformément à l'une quelconque des revendications précédentes, et une pluralité d'équipements munis d'un circuit d' embrouillage, caractérisé en ce que le serveur comprend en outre un moyen d'enregistrement du profil numérique de chaque destinataire et un moyen d'asservissement des moyens de modification en fonction de variables d'entrée correspondant à une partie au moins des caractéristiques représentatives de la structure, du contenu et des paramètres du flux audio originel, du profil du destinataire, et d'événements externes.