FR2771544A1 - Procede de codage de la parole et terminaux pour la mise en oeuvre du procede - Google Patents
Procede de codage de la parole et terminaux pour la mise en oeuvre du procede Download PDFInfo
- Publication number
- FR2771544A1 FR2771544A1 FR9714667A FR9714667A FR2771544A1 FR 2771544 A1 FR2771544 A1 FR 2771544A1 FR 9714667 A FR9714667 A FR 9714667A FR 9714667 A FR9714667 A FR 9714667A FR 2771544 A1 FR2771544 A1 FR 2771544A1
- Authority
- FR
- France
- Prior art keywords
- units
- phonic
- code words
- primary
- library
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005540 biological transmission Effects 0.000 title description 9
- 238000000034 method Methods 0.000 claims abstract description 16
- 238000001228 spectrum Methods 0.000 claims description 30
- 230000015654 memory Effects 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 2
- 238000009877 rendering Methods 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 8
- 230000001755 vocal effect Effects 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephonic Communication Services (AREA)
Abstract
Le procédé de codage de la parole, constituée d'une séquence d'unités phoniques, consiste à comparer les unités à des références en bibliothèque associées à des mots de code primaires, à déterminer les différences entre les unités et les références, on code les différences par des mots de code secondaires pour substituer aux unités des paires de codes primaire et secondaire et, si la comparaison porte sur les énergies de spectres de raies de fréquences, on détermine, pour les raies, des coefficients de pondération, normés par rapport à l'énergie des raies de référence, et on intègre les coefficients dans le mot de code secondaire.
Description
Procédé de codage de la parole et terminaux
pour la mise en oeuvre du procédé.
pour la mise en oeuvre du procédé.
La transmission de la parole sur le réseau téléphonique commuté RTC nécessite de disposer d'une bande-passante suffisante pour que la parole reste compréhensible. Une bande allant des très basses fréquences à quelque kilohertz représente un bon compromis entre fidélité de restitution et ressources en bande-passante. De ce fait, pour transmettre la voix dans le réseau RTC, dont les liaisons inter-centraux sont numériques, on code les fréquences vocales pour les transformer en un signal numérique au débit de base du réseau RTC, représentant l'évolution de l'amplitude du signal vocal.
On souhaite cependant parfois réduire le débit de la transmission par exemple dans un terminal de synthèse vocale, dont la mémoire de messages doit rester de taille limitée. De mme, on peut souhaiter n'utiliser qu'une voie de transmission d'un réseau spécifique, à débit bien inférieur au débit ci-dessus du réseau téléphonique.
En pareil cas, on tente de reconnaitre à la volée les divers phonèmes d'une séquence vocale. On compare ces phonèmes à des références, d'une bibliothèque, associées à des mots de code et on remplace ces phonèmes par les mots de code correspondants, qui décrivent la parole avec une quantité d'informations bien moindre. C'est ainsi que la voix est comprimée.
En réception, le terminal appelé comporte la mme bibliothèque et reconstitue, par synthèse vocale, des signaux analogiques correspondant aux divers mots de code.
Mais une telle façon de procéder présente l'inconvénient de ne restituer qu'une voix normalisée par la bibliothèque, donc impersonnelle, et il est donc par essence impossible de reconnaître le correspondant pour authentifier un message vocal. Les inflexions ou flucturations de voix, qui sont aussi de l'information tout comme la signification des paroles ellesmmes, ne sont donc pas restituées.
La présente invention vise à obtenir un codage de la voix qui permette à la fois une compression de l'information et une restitution personnalisée.
A cet effet, l'invention concerne tout d'abord un procédé de codage de la parole constituée d'une séquence d'unités phoniques, dans lequel on compare les unités à des références en bibliothèque associées à des mots de code primaires, on détermine les différences entre les unités et les références, on code les différences par des mots de code secondaires et on substitue aux unités des paires de codes primaire et secondaire.
Ainsi, les mots de code primaires vont coder efficacement, de façon compacte, la plus grande partie de l'énergie phonique saisie tandis que les mots de code secondaires vont améliorer la fidélité de restitution sans cependant accroître exagérément le volume de données de code puisqu'ils ne portent que sur une énergie limitée et qu'un faible nombre de bits permet de coder cette énergie marginale modulant l'énergie primaire, standard, correspondant aux mots de code primaires.
L'invention concerne aussi un terminal de codage de signaux de parole, comportant des moyens pour saisir une séquence d'unités phoniques et la transmettre à des moyens comparateurs agencés pour successivement comparer les unités phoniques à des références en bibliothèque et ainsi y sélectionner à chaque fois un mot de code primaire spécifique de l'une des références, terminal caractérisé par le fait que les moyens comparateurs sont agencés pour déterminer une différence entre l'unité phonique saisie considérée et la référence correspondant au mot de code sélectionné et pour transmettre cette différence à des moyens de transcodage, prévus pour fournir en réponse un mot de code secondaire correspondant à des moyens mémoires agencés pour associer les mots de code, respectivement primaire et secondaire.
L'invention concerne enfin un terminal de décodage de signaux comportant des moyens de réception de signaux représentant des mots de code primaires de références d'unités phoniques en bibliothèque, et des moyens de décodage agencés pour sélectionner certaines des références en bibliothèque d'après les mots de code primaires reçus et pour commander en conséquence un transducteur de restitution des signaux de parole, terminal caractérisé par le fait que les moyens de décodage sont agencés pour décoder en outre des mots de code secondaires, de correction, associés aux mots de code primaires, et pour corriger en conséquence les références vocales sélectionnées.
Bien que le procédé de l'invention nécessite de disposer au total d'un terminal de codage et d'un terminal de décodage correspondant, chacun de ceux-ci peut tre mis séparément sur le marché et la demanderesse entend donc revendiquer l'un et l'autre.
En particulier, il est avantageux de prévoir un télécopieur comportant des moyens pour insérer les mots de code dans un message de télécopie.
L'invention sera mieux comprise à l'aide de la description suivante d'un mode de mise en oeuvre préféré du procédé de l'invention, en référence au dessin annexé, sur lequel - la figure 1 représente schématiquement un terminal émetteur et un terminal récepteur de signaux vocaux pour la mise en oeuvre du procédé de l'invention, - la figure 2 représente, en fonction du temps t, I'amplitude A d'un signal de parole, - la figure 3 représente, en fonction de la fréquence F, l'amplitude K de raies du spectre du signal de la parole 2, et - la figure 4 est un organigramme illustrant les étapes du procédé.
Le terminal émetteur référencé 15 sur la figure 1, qui se présente ici sous la forme d'un combiné portable pour réseau de communication radio, comporte un microphone 26 de saisie du signal de parole de son utilisateur, alimentant un convertisseur analogique/numérique 27 relié en sortie à une unité centrale à microprocesseur 28 associée à deux bibliothèques 11 et 12 de séquences sonores ou unités phoniques normalisées, telles que phonèmes. L'unité centrale 28, qui code la parole, commande un émetteur 29, ici radio, dont les émissions sont reçues par un circuit récepteur 30 d'un terminal 35 de restitution de la parole. La figure 2 représente l'amplitude d'une unité phonique en fonction du temps t et la figure 3 représente l'amplitude K des raies du spectre correspondant à un instant donné.
Plus précisément, l'unité centrale 28 comporte un comparateur 16 pour comparer les unités phoniques reçues du convertisseur 27 aux unités phoniques en bibliothèque. Comme expliqué plus en détails en regard de la figure 4, le comparateur 16 a pour fonction de sélectionner la référence en bibliothèque qui est la plus semblable au signal alors analysé et a aussi pour fonction de spécifier cette différence, c'est-à-dire de fournir une valeur d'écart pour chacun des critères ayant servi à la sélection. Cette différence est ici transcodée par un circuit de transcodage 17, pour condenser son expression, sous la forme d'un mot de code secondaire qui est mémorisé dans une mémoire 18 sous la commande du comparateur 16. Ce dernier, qui a préalablement mémorisé le mot de code primaire dans la mémoire 18, adresse et commande l'écriture dans celle-ci pour que les deux mots de code, primaire et secondaire, soient associés physiquement comme ils le sont d'un point de vue logique, c'est-à-dire qu'il soit par exemple défini un chaînage entre les deux zones mémoires les contenant.
Le terminal récepteur 35 comporte une unité centrale 33 effectuant un décodage inverse de la parole pour alimenter un haut-parleur 34. Deux mémoires formant bibliothèques, 31 et 32, ici externes à l'unité centrale 33, sont reliées à celle-ci. Le terminal récepteur 35 est ici un terminal classique pour la réception de messages écrits, appelé pager, agencé en outre pour recevoir des messages vocaux. Divers circuits classiques de saisie de numérotation, d'émission de celle-ci et de visualisation de données n'ont pas été représentés, dans un but de clarté.
L'unité centrale 33 comporte un circuit 36 d'adressage des bibliothèques 31 et 32, respectivement personnalisée et primaire, à partir des mots de code reçus du circuit récepteur 30. Un circuit tampon 37 reçoit en réponse, de la bibliothèque primaire 32, des spectres d'unités phoniques primaires et les transmet à un circuit 38 de modulation ou composition de ces spectres. Le circuit 38 module ceux-ci en fonction du mot de code secondaire associé au mot de code primaire de lecture de la bibliothèque primaire 32. Le circuit 38 combine ainsi les informations des mots de code primaires et secondaires pour reconstituer le signal de parole capté à l'origine (26). Cette combinaison peut par exemple tre une addition ou une multiplication, de raies de fréquences suivie d'une tranformation de
Fourier inverse ou, encore, elle peut porter directement sur des amplitudes de signal. Dans cet exemple, chaque type d'unité phonique restituée est mémorisée dans la mémoire personnalisée 31, afin d'utiliser directement cette dernière si un mme couple de mots de code, primaires et secondaires, est ultérieurement reçu. En variante, la mémoire 31 pourrait ne contenir que des valeurs de modulation, qu'elle fournirait au circuit 38 après adressage par un mot de code secondaire.
Fourier inverse ou, encore, elle peut porter directement sur des amplitudes de signal. Dans cet exemple, chaque type d'unité phonique restituée est mémorisée dans la mémoire personnalisée 31, afin d'utiliser directement cette dernière si un mme couple de mots de code, primaires et secondaires, est ultérieurement reçu. En variante, la mémoire 31 pourrait ne contenir que des valeurs de modulation, qu'elle fournirait au circuit 38 après adressage par un mot de code secondaire.
Les opérations de codage et de décodage va maintenant tre exposées plus en détails, en référence à la figure 4.
Pour coder la voix, on capte à une étape 1, un signal de parole par le microphone 26 et, ici, on le convertit en un signal numérique dans le convertisseur 27, à une étape 2. Le signal de parole est alors comparé, dans l'unité centrale 28, à une pluralité de signaux de référence de la bibliothèque 11, à une étape 3. La comparaison intervient à la volée, en pratique cycliquement à vitesse élevée par rapport à la vitesse d'évolution du signal de parole analysé. Celui-ci peut tre considéré comme étant une séquence d'unités phoniques, spécifiques d'une langue donnée, telles que voyelles, diphtongues ou hiatus, dont une représentation a été initialement mise en bibliothèque 1 1 et associée à un mot de code, dit primaire, particulier à chacune. Lors de la constitution de la bibliothèque 11 et des bibliothèques 12 et 32 indiquées plus loin, on effectue plusieurs saisies vocales d'un mme locuteur ou de plusieurs pour constituer une référence vocale moyenne. De préférence cependant, afin d'améliorer l'efficacité de la reconnaissance future, on mémorise (11, 12), pour chaque unité phonique, plusieurs références pour constituer un domaine de reconnaissance permettant de tolérer des écarts entre locuteurs.
Chaque unité phonique (fig. 2) correspond à une évolution particulière de l'amplitude A ou énergie du signal de parole et présente une durée susceptible de varier selon la vitesse d'élocution de la personne qui parle.
L'étape 3 consiste donc à comparer l'évolution des amplitudes des signaux de référence à celle du signal capté. Pour s'affranchir des variations de vitesse d'élocution, on peut par exemple ne considérer que la succession des modulations d'amplitude significatives (variation d'énergie dépassant un seuil), sans y associer une notion de valeur de temps.
Sur la figure 2, les flèches verticales, ici au nombre de huit, représentent l'amplitude des extréma et forment ainsi une signature, supposée ici représenter une unité phonique déterminée.
Si, quittant le domaine temporel de la figure 2, on considère maintenant le domaine fréquentiel, la transformée de Fourier de l'amplitude instantanée
A du signal en un point quelconque de la courbe de la figure 2 peut tre représentée par le spectre de raies de fréquences de la figure 3. En pratique, on considère que l'énergie vocale se trouve essentiellement limitée à trois bandes de fréquences, respectivement situées vers 0,1 kHz et deux bandes entre environ 1 et 3 kHz ainsi que 5 et 7 kHz, respectivement.
A du signal en un point quelconque de la courbe de la figure 2 peut tre représentée par le spectre de raies de fréquences de la figure 3. En pratique, on considère que l'énergie vocale se trouve essentiellement limitée à trois bandes de fréquences, respectivement situées vers 0,1 kHz et deux bandes entre environ 1 et 3 kHz ainsi que 5 et 7 kHz, respectivement.
De ce fait, si l'on parcourt la courbe des amplitudes de la figure 2 en fonction du temps t, I'amplitude K de chaque raie de la figure 3 va se trouver modulée en fonction de l'évolution de l'amplitude A du signal de parole.
Ainsi, si l'on mémorise la succession des spectres de la figure 3, on peut reconstituer la succession des amplitudes A du signal d'origine, par transformée de Fourier inverse.
Afin de limiter le nombre de spectres à traiter, on peut n'effectuer que des échantillonnages cycliques, suffisamment rapprochés pour ne pas perdre d'information. On peut encore se limiter à un jeu restreint de spectres des extréma d'amplitude représentés par les huit flèches de la figure 2. Si l'on souhaite encore limiter le nombre de spectres, on peut mme ne retenir qu'un seul spectre représentant la moyenne de tous les spectres sur la période de temps considérée de l'unité phonique ou la moyenne des spectres des extréma.
Comme cela est expliqué plus loin en détail, on va comparer le spectre moyen, ou les spectres, du signal de parole capté à un ou des spectres homologues de signaux de parole de référence en bibliothèque pour, d'une part, sélectionner le signal de parole de référence (unité phonique) le plus semblable au signal capté et, d'autre part, élaborer un signal de différence entre le ou les spectres de ce dernier et le ou les spectres du signal de référence sélectionné. Le signal de différence est mis sous forme de mot de code, dit secondaire, et est associé au mot de code primaire du signal de référence sélectionné (unité phonique reconnue) et constitue ainsi une information additionnelle de modulation ou correction du signal analogique normalisé qui sera restitué à partir du mot de code primaire considéré.
Les mots de code primaires des unités phoniques successivement sélectionnés, à mesure que se déroule la séquence vocale, sont mémorisés à une étape 4 pour constituer un message, codé selon la norme de la bibliothèque 11.
Par ailleurs, à une étape 5, on traite plus avant certaines des unités phoniques captées et reconnues, en analysant en détail, ici dans le domaine fréquentiel par transformée de Fourier inverse, leur spectre en fréquence, comme expliqué plus haut, étape 6.
A une étape 7, on compare le spectre de raies i de l'unité phonique d'identité i concernée, ou les spectres représentant son évolution au cours du temps, au(x) spectre(s) de l'unité phonique sélectionnée en bibliothèque 11, contenu(s) dans la bibliothèque associée 12. On établit ainsi pour le, ou chaque, spectre, une série de coefficients de pondération
Cijt (i = identité du phonème, j = rang fréquentiel de la raie, t = rang temporel) indiquant chacun l'amplitude ou énergie relative de chaque raie j par rapport à son homologue en bibliothèque 12. Exprimé autrement, ces coefficients représentent aussi, bien qu'indirectement, la différence relative (1 Cijt) entre l'unité phonique reconnue et la référence correspondante en bibliothèque). Les raies dans chacune des trois bandes correspondent en fait à une rangée de mini-bandes de fréquences adjacentes, dans lesquelles on détecte de l'énergie vocale. L'analyse dans le domaine fréquentiel, ici choisie, fournit ainsi une information plus détaillée que dans le cas d'une analyse dans le domaine temporel de la figure 2, où l'on ne dispose que de l'amplitude instantanée A.
Cijt (i = identité du phonème, j = rang fréquentiel de la raie, t = rang temporel) indiquant chacun l'amplitude ou énergie relative de chaque raie j par rapport à son homologue en bibliothèque 12. Exprimé autrement, ces coefficients représentent aussi, bien qu'indirectement, la différence relative (1 Cijt) entre l'unité phonique reconnue et la référence correspondante en bibliothèque). Les raies dans chacune des trois bandes correspondent en fait à une rangée de mini-bandes de fréquences adjacentes, dans lesquelles on détecte de l'énergie vocale. L'analyse dans le domaine fréquentiel, ici choisie, fournit ainsi une information plus détaillée que dans le cas d'une analyse dans le domaine temporel de la figure 2, où l'on ne dispose que de l'amplitude instantanée A.
Ainsi, dans le cas des figures 2 et 3, la série ci-dessus comporte douze coefficients représentant les douze raies dessinées, si bien qu'un tableau de huit telles séries représente l'unité phonique, à travers les huit extréma dessinés. Hormis la réduction du tableau, à une seule série, on peut prévoir de ne retenir qu'un coefficient de pondération moyen pour chacune des trois bandes. Si l'on code chaque coefficient sur simplement 4 bits, l'erreur ne dépasse pas 3 % environ, ce qui est amplement suffisant pour restituer un timbre de voix, d'autant que le signal de correction représente peu d'énergie par rapport au signal normé qu'il corrige, si bien que l'erreur, rapportée au total, est faible.
On peut ainsi associer ici, au mot de code primaire de l'unité phonique sélectionnée, de l'ordre de la centaine de bits (12 x 8) si l'on retient chaque extrémum, ou seulement 12 bits (4 x 3) pour les trois bandes.
Comme le timbre de la voix est surtout fourni par les fréquences hautes de la troisième bande, on peut mme ne transmettre que le mot de code secondaire, de correction, relatif à celle-ci.
A une étape 8, on transforme le signal de différence de spectres en un mot de code secondaire, représentant le tableau ou la série ci-dessus.
Lorsque la séquence de parole captée s'achève, les mots de code primaires de l'étape 4 et les mots de code secondaires de l'étape 8 sont associés un à un (étape 9) puis émis sur un réseau de transmission, comme par exemple le réseau téléphonique commuté ou, ici, un réseau de radio messagerie (étape 10).
Le terminal appelé 35 reçoit le message à une étape 21 et, à une étape 22, un fichier en bibliothèque primaire 32, semblable au fichier de spectres 12, est lu par le circuit 36 pour en extraire les spectres normalisés, primaires, d'après les mots de code primaires. A une étape 23, les mots de code secondaires servent à moduler (38) les amplitudes ou énergies des raies normalisées lues en bibliothèque primaire 32, pour ainsi constituer la bibliothèque personnalisée, 31, d'unités phoniques, c'est-à-dire comportant en particulier le timbre de la voix captée. Les unités phoniques de la bibliothèque personnalisée 31 sont représentées sous forme numérique dans le domaine temporel, après une transformation préalable par transformée de Fourier inverse.
A une étape 24, les mots de code primaires reçus sont lus successivement pour restituer, par le haut-parleur 34 (étape 25), le signal de parole capté.
Pour cela les mots de code primaires lisent la bibliothèque personnalisée 31, qui correspond donc à la bibliothèque 11 mais qui a été personnalisée par les caractéristiques en spectre de la voix captée.
La constitution de la bibliothèque 31 est, comme évoqué plus haut, facultative et a pour but de mémoriser une correction pour chaque mot de code primaire, ce qui évite de répéter l'envoi du mot de code secondaire lorsqu'un mme mot de code primaire est émis plusieurs fois. Si, au contraire, on émet systématiquement un mot de code secondaire, celui-ci peut évoluer pour suivre les éventuelles évolutions du timbre. Dans ce cas, la voix restituée est à la fois personnalisée et en outre on restitue l'évolution du timbre au fil du temps.
Il faut en outre remarquer que, de façon générale, l'analyse et la restitution peuvent porter sur toute la bande de fréquences audibles, allant d'environ 15 Hz à 15 kHz, mme si en pratique on peut se limiter à 8 kHz. Les fréquences de la bande allant de 4 à 8 kHz, coupées pour les transmissions classiques par le réseau téléphonique, sont ici analysées et restituées puisqu'on transmet l'information correspondante sous la forme d'une télécommande de la bibliothèque 31, qui contient déjà les raies à ces fréquences, ce qui évite toute transmission explicite de celles-ci.
Il faut par ailleurs remarquer que, si l'analyse peut ne porter que sur un nombre limité de bandes de fréquences suffisamment caractéristiques en bibliothèque 11, 12, les divers signaux à restituer, en bibliothèque 32, contiennent la totalité des raies initialement saisies, c'est-à-dire couvrent chacun par exemple une bande d'un seul tenant de 15 Hz à 8 kHz.
Comme exposé au début, l'invention peut s'appliquer en dehors de toute transmission, pour par exemple mémoriser localement un message à restituer ultérieurement, c'est-à-dire qu'il s'agit alors de la fonction d'un magnétophone.
Dans une autre forme de réalisation, non représentée, les mots de code, primaire et secondaire, sont associés à des données de télécopie pour former un message voix-données. Le message est saisi par le poste téléphonique usuellement associé aux télécopieurs et est restitué par le mme moyen au niveau du télécopieur appelé. Les mots de code, émis par un circuit comme 28, sont insérés dans un champ spécifique du message par un microprocesseur gérant le protocole de transmission de télécopies et sont de mme extraits en réception pour tre traités comme expliqué plus haut. On peut ainsi réaliser une annotation vocale d'un message de télécopie, annotation transmise par exemple comme un en-tte de télécopie.
Claims (10)
- REVENDICATIONS 1.- Procédé de codage de la parole constituée d'une séquence d'unités phoniques, dans lequel on compare les unités à des références en bibliothèque associées à des mots de code primaires, on détermine les différences entre les unités et les références, on code les différences par des mots de code secondaires et on substitue aux unités des paires de codes primaire et secondaire.
- 2.- Procédé selon la revendication 1, dans lequel, la comparaison portant sur les énergies de spectres de raies de fréquences, on détermine, pour les raies, des coefficients de pondération, normés par rapport à l'énergie des raies de référence, et on intègre lesdits coefficients dans le mot de code secondaire.
- 3.- Procédé selon l'une des revendications 1 et 2, dans lequel on détermine ladite différence à partir d'une succession de spectres correspondant à une succession d'amplitudes de l'unité phonique considérée.
- 4.- Procédé selon la revendication 3, dans lequel on ne considère que les amplitudes correspondant à des extrema.
- 5.- Procédé selon la revendication 2, dans lequel on détermine ladite différence à partir d'un spectre unique moyen de l'unité phonique considérée.
- 6.- Procédé selon l'une des revendications 2 à 5, dans lequel on limite la comparaison fréquentielle à trois bandes de fréquences.
- 7.- Procédé selon la revendication 6, dans lequel on exprime le coefficient de pondération des raies de chaque bande par un unique coefficient.
- 8.- Terminal de codage de signaux de parole, comportant des moyens (26, 27) pour saisir une séquence d'unités phoniques et la transmettre à des moyens comparateurs (16) agencés pour successivement comparer les unités phoniques à des références en bibliothèque (11, 12), et ainsi y sélectionner à chaque fois un mot de code primaire spécifique de l'une des références, terminal caractérisé par le fait que les moyens comparateurs (16) sont agencés pour déterminer une différence entre l'unité phonique saisie considérée et la référence correspondant au mot de code sélectionné et pour transmettre cette différence à des moyens de transcodage (17), prévus pour fournir en réponse un mot de code secondaire correspondant à des moyens mémoires (18) agencés pour associer les mots de code, respectivement primaire et secondaire.
- 9.- Terminal de décodage de signaux de parole, comportant des moyens (30) de réception de signaux représentant des mots de code primaires de références d'unités phoniques en bibliothèque (32), et des moyens de décodage (33) agencés pour sélectionner certaines des références en bibliothèque (32) d'après les mots de code primaires reçus et pour commander en conséquence un transducteur (34) de restitution des signaux de parole, terminal caractérisé par le fait que les moyens de décodage (33) sont agencés pour décoder en outre des mots de code secondaires, de correction, associés aux mots de code primaires, et pour corriger en conséquence (38) les références vocales sélectionnées.
- 10.- Télécopieur selon l'une des revendications 8 et 9, comportant des moyens pour insérer les mots de code dans un message de télécopie.
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR9714667A FR2771544B1 (fr) | 1997-11-21 | 1997-11-21 | Procede de codage de la parole et terminaux pour la mise en oeuvre du procede |
EP98955709A EP1032933B1 (fr) | 1997-11-21 | 1998-11-20 | Procede de codage de la parole et terminaux pour la mise en oeuvre du procede |
PCT/FR1998/002486 WO1999027521A1 (fr) | 1997-11-21 | 1998-11-20 | Procede de codage de la parole et terminaux pour la mise en oeuvre du procede |
DE69820903T DE69820903T2 (de) | 1997-11-21 | 1998-11-20 | Sprach-kodierungs-verfahren und endgeräte zum implementieren besagten verfahrens |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR9714667A FR2771544B1 (fr) | 1997-11-21 | 1997-11-21 | Procede de codage de la parole et terminaux pour la mise en oeuvre du procede |
Publications (2)
Publication Number | Publication Date |
---|---|
FR2771544A1 true FR2771544A1 (fr) | 1999-05-28 |
FR2771544B1 FR2771544B1 (fr) | 2000-12-29 |
Family
ID=9513661
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR9714667A Expired - Fee Related FR2771544B1 (fr) | 1997-11-21 | 1997-11-21 | Procede de codage de la parole et terminaux pour la mise en oeuvre du procede |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP1032933B1 (fr) |
DE (1) | DE69820903T2 (fr) |
FR (1) | FR2771544B1 (fr) |
WO (1) | WO1999027521A1 (fr) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000019412A1 (fr) * | 1998-09-30 | 2000-04-06 | Symantec Corporation | Communication vocale par reconnaissance de phoneme et liaison texte a parole |
WO2000074035A1 (fr) * | 1999-06-01 | 2000-12-07 | Siemens Aktiengesellschaft | Procede et dispositif de codage vocal par decodage phonetique et transmission des caracteristiques du locuteur |
EP1102242A1 (fr) * | 1999-11-22 | 2001-05-23 | Alcatel | Procédé de personalisation de sortie vocale |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3416238A1 (de) * | 1983-05-02 | 1984-12-20 | Motorola, Inc., Schaumburg, Ill. | Extremschmalband-uebertragungssystem |
JPS6171730A (ja) * | 1984-09-14 | 1986-04-12 | Nec Corp | 音声デ−タ転送方式 |
EP0223014A1 (fr) * | 1985-09-26 | 1987-05-27 | Nippon Telegraph And Telephone Corporation | Procédé d'élaboration d'éléments de référence de parole |
WO1994018668A1 (fr) * | 1993-02-04 | 1994-08-18 | Nokia Telecommunications Oy | Procede de transmission et de reception de paroles codees |
-
1997
- 1997-11-21 FR FR9714667A patent/FR2771544B1/fr not_active Expired - Fee Related
-
1998
- 1998-11-20 EP EP98955709A patent/EP1032933B1/fr not_active Expired - Lifetime
- 1998-11-20 WO PCT/FR1998/002486 patent/WO1999027521A1/fr active IP Right Grant
- 1998-11-20 DE DE69820903T patent/DE69820903T2/de not_active Expired - Lifetime
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3416238A1 (de) * | 1983-05-02 | 1984-12-20 | Motorola, Inc., Schaumburg, Ill. | Extremschmalband-uebertragungssystem |
JPS6171730A (ja) * | 1984-09-14 | 1986-04-12 | Nec Corp | 音声デ−タ転送方式 |
EP0223014A1 (fr) * | 1985-09-26 | 1987-05-27 | Nippon Telegraph And Telephone Corporation | Procédé d'élaboration d'éléments de référence de parole |
WO1994018668A1 (fr) * | 1993-02-04 | 1994-08-18 | Nokia Telecommunications Oy | Procede de transmission et de reception de paroles codees |
Non-Patent Citations (2)
Title |
---|
PATENT ABSTRACTS OF JAPAN vol. 010, no. 240 (E - 429) 19 August 1986 (1986-08-19) * |
ROUCOS ET AL.: "Speaker normalization algorithms for very-low-rate speech coding", PROCEEDINGS OF THE IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP 84), vol. 1, 19 March 1984 (1984-03-19) - 21 March 1984 (1984-03-21), SAN DIEGO, CA, US, pages 1.1.1 - 1.1.4, XP002073267 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000019412A1 (fr) * | 1998-09-30 | 2000-04-06 | Symantec Corporation | Communication vocale par reconnaissance de phoneme et liaison texte a parole |
WO2000074035A1 (fr) * | 1999-06-01 | 2000-12-07 | Siemens Aktiengesellschaft | Procede et dispositif de codage vocal par decodage phonetique et transmission des caracteristiques du locuteur |
EP1102242A1 (fr) * | 1999-11-22 | 2001-05-23 | Alcatel | Procédé de personalisation de sortie vocale |
Also Published As
Publication number | Publication date |
---|---|
EP1032933B1 (fr) | 2004-01-02 |
FR2771544B1 (fr) | 2000-12-29 |
DE69820903D1 (de) | 2004-02-05 |
DE69820903T2 (de) | 2004-12-09 |
WO1999027521A1 (fr) | 1999-06-03 |
EP1032933A1 (fr) | 2000-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0768770B1 (fr) | Procédé et dispositif de création d'un bruit de confort dans un système de transmission numérique de parole | |
US8717971B2 (en) | Systems, methods and apparatus for transmitting data over a voice channel of a wireless telephone network using multiple frequency shift-keying modulation | |
US9743152B2 (en) | Systems, methods and apparatus for transmitting data over a voice channel of a wireless telephone network | |
KR19990044450A (ko) | 오디오신호에 보조데이터를 전송하기 위한 방법 및 장치 | |
WO2004023682A1 (fr) | Systeme et procede de transmission de donnees par ondes acoustiques | |
EP0416985B1 (fr) | Procédé de multiplexage d'un signal sonore avec un signal vidéo analogique et système correspondant de distribution d'images fixes sonorisées | |
EP2979266B1 (fr) | Mixage partiel optimisé de flux audio codés selon un codage par sous-bandes | |
EP0428445A1 (fr) | Procédé et dispositif de codage de filtres prédicteurs de vocodeurs très bas débit | |
JP4330346B2 (ja) | 音声符号に対するデータ埋め込み/抽出方法および装置並びにシステム | |
JP5344354B2 (ja) | 無線電話ネットワークの音声チャネルを介した、データの転送システム、方法および装置 | |
US8200482B2 (en) | Systems, methods and apparatus for transmitting data over a voice channel of a telephone network using linear predictive coding based modulation | |
EP1032933B1 (fr) | Procede de codage de la parole et terminaux pour la mise en oeuvre du procede | |
EP0961264B1 (fr) | Appareil d'émission/réception pour sélectionner un codeur de source et procédés mis en oeuvre dans un tel appareil | |
WO2004039053A2 (fr) | Embrouillage adaptatif et progressif de flux audio | |
EP1665234B1 (fr) | Procede de transmission d un flux d information par insertion a l'interieur d'un flux de donnees de parole, et codec parametrique pour sa mise en oeuvre | |
CN101320564B (zh) | 数字语音通信系统 | |
EP0456742A1 (fr) | Appareil de traitement de la parole | |
FR2759231A1 (fr) | Procedes d'insertion et de decodage d'un message numerique dans un signal sonore, par exemple un morceau de musique, et dispositifs correspondants | |
CA2026766C (fr) | Procede de multiplexage d'un signal sonore dans un signal video analogique et systeme de distribution d'images fixes sonorisees | |
FR2863805A1 (fr) | Procede et appareil de prise de vue pour l'enrichissement d'images | |
WO2019199262A2 (fr) | Procédé de communication vocale numérique en temps réel | |
FR2766288A1 (fr) | Procede et systeme de transmission sous forme vocale d'une sequence de donnees binaires a partir d'un transducteur piezo-electrique | |
WO2014064379A1 (fr) | Detection d'une bande de frequence predeterminee dans un contenu audio code par sous-bandes selon un codage de type modulation par impulsions | |
FR2736478A1 (fr) | Procedes et dispositifs de codage et de decodage d'informations binaires en impulsions de durees variables | |
FR2759230A1 (fr) | Procedes d'insertion et de decodage d'un message numerique dans un signal acoustique porteur, et dispositifs correspondants |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
CA | Change of address | ||
CD | Change of name or company name | ||
TP | Transmission of property | ||
TP | Transmission of property | ||
ST | Notification of lapse |
Effective date: 20110801 |