FR2818479A1 - METHOD AND SYSTEM FOR VOICE PROCESSING OF A SUCCESS OF PHONEMAS - Google Patents

METHOD AND SYSTEM FOR VOICE PROCESSING OF A SUCCESS OF PHONEMAS Download PDF

Info

Publication number
FR2818479A1
FR2818479A1 FR0016329A FR0016329A FR2818479A1 FR 2818479 A1 FR2818479 A1 FR 2818479A1 FR 0016329 A FR0016329 A FR 0016329A FR 0016329 A FR0016329 A FR 0016329A FR 2818479 A1 FR2818479 A1 FR 2818479A1
Authority
FR
France
Prior art keywords
interesting
breaks
phonemes
pauses
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR0016329A
Other languages
French (fr)
Other versions
FR2818479B1 (en
Inventor
Andre Laot
Guy Vidal
Joel Chalony
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Priority to FR0016329A priority Critical patent/FR2818479B1/en
Priority to AU2002219284A priority patent/AU2002219284A1/en
Priority to PCT/FR2001/003944 priority patent/WO2002049002A1/en
Publication of FR2818479A1 publication Critical patent/FR2818479A1/en
Application granted granted Critical
Publication of FR2818479B1 publication Critical patent/FR2818479B1/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

The invention concerns a method and a system for voice processing comprising means for detecting pauses in a series of phonemes, means for selecting interesting pauses, and means for increasing duration of interesting pauses.

Description

<Desc/Clms Page number 1> <Desc / Clms Page number 1>

Procédé et système de traitement vocal d'une suite de phonèmes. Method and system for vocal processing of a sequence of phonemes.

La présente invention concerne le domaine du traitement vocal de sons, notamment de phonèmes, en vue de faciliter la compréhension par un auditeur.  The present invention relates to the field of vocal processing of sounds, in particular of phonemes, in order to facilitate comprehension by a listener.

L'invention s'applique dans les réseaux téléphoniques, et dans les réseaux de communications locaux ou à distance.  The invention applies in telephone networks, and in local or remote communications networks.

Le spectre des fréquences utile dans une conversation vocale entre deux personnes, nécessaire pour une bonne perception, s'étend de 250 à 4000 Hz. Les personnes ayant une déficience auditive entraînant une perte d'audition supérieure ou égale à 92 dB sont considérées comme sourdes. Une perte comprise entre 70 et 90 dB entraîne une déficience considérée comme importante. Les pertes d'audition comprises entre 50 et 60 dB sont considérées comme modérées, même si elles peuvent entraîner un inconfort et une gêne lors de conversations directes ou téléphoniques. Les pertes d'audition sont parfois identifiées uniquement par une baisse de niveau général sur l'ensemble du spectre. Dans de nombreux cas, le niveau de perte est plus important sur certaines fréquences ou zones de fréquences.  The frequency spectrum useful in a voice conversation between two people, necessary for good perception, ranges from 250 to 4000 Hz. People with hearing loss causing hearing loss greater than or equal to 92 dB are considered deaf . A loss between 70 and 90 dB leads to a deficiency considered to be significant. Hearing losses between 50 and 60 dB are considered moderate, even if they can cause discomfort and discomfort during direct or telephone conversations. Hearing loss is sometimes identified only by a general drop in level across the spectrum. In many cases, the level of loss is greater on certain frequencies or frequency zones.

Les personnes malentendantes souhaitant s'entretenir par téléphone doivent actuellement faire connaître leur handicap et parvenir à faire comprendre à leurs interlocuteurs que ceux-ci doivent s'exprimer lentement et avec une voix forte.  Hearing impaired people wishing to speak by telephone must currently make their disability known and succeed in making their interlocutors understand that they must speak slowly and with a loud voice.

L'invention propose un traitement vocal peu coûteux, de mise en oeuvre simple pour les utilisateurs et facilitant les conversations téléphoniques avec au moins une personne malentendante.  The invention provides inexpensive voice processing, which is simple to implement for users and which facilitates telephone conversations with at least one hearing impaired person.

L'invention propose de rendre accessible par le réseau  The invention proposes to make accessible by the network

<Desc/Clms Page number 2><Desc / Clms Page number 2>

téléphonique un service de correction ne déformant pas la fréquence vocale des interlocuteurs.  telephone correction service that does not distort the voice frequency of the callers.

L'invention s'applique également pour corriger une conversation téléphonique lorsqu'on doit converser avec un interlocuteur pratiquant une langue étrangère que l'on ne maîtrise pas parfaitement.  The invention also applies to correct a telephone conversation when it is necessary to converse with an interlocutor practicing a foreign language which one does not master perfectly.

Le procédé de traitement vocal, selon un aspect de l'invention, est réalisé par ralentissement. On détecte des pauses dans une suite de phonèmes, on sélectionne les pauses intéressantes, et on élargit les durées des pauses intéressantes.  The voice processing method, according to one aspect of the invention, is carried out by slowing down. We detect pauses in a sequence of phonemes, we select interesting pauses, and we extend the durations of interesting pauses.

De préférence, les pauses intéressantes sont sélectionnées selon un critère de durée.  Preferably, the interesting breaks are selected according to a duration criterion.

Dans un mode de réalisation de l'invention, la durée des pauses intéressantes est supérieure à un seuil. Le seuil peut être compris entre 50 et 200 ms, préférablement entre 80 et 150 ms, mieux encore de l'ordre 100 ms. De préférence, le seuil est ajustable.  In one embodiment of the invention, the duration of the interesting breaks is greater than a threshold. The threshold can be between 50 and 200 ms, preferably between 80 and 150 ms, better still on the order of 100 ms. Preferably, the threshold is adjustable.

Dans un mode de réalisation de l'invention, le seuil est ajusté en fonction du nombre de mots reconnus dans une suite de phonèmes.  In one embodiment of the invention, the threshold is adjusted as a function of the number of words recognized in a series of phonemes.

Dans un mode de réalisation de l'invention, si le nombre de mots reconnus est considéré comme trop faible, on diminue ledit seuil.  In one embodiment of the invention, if the number of recognized words is considered to be too low, said threshold is reduced.

Dans un mode de réalisation de l'invention, la reconnaissance de mots est effectuée par comparaison d'un ensemble consécutif de phonèmes entre deux pauses intéressantes avec une liste de mots stockés dans une base de données.  In one embodiment of the invention, word recognition is carried out by comparing a consecutive set of phonemes between two interesting pauses with a list of words stored in a database.

Dans un mode de réalisation de l'invention, on élargit les durées des pauses intéressantes d'une valeur déterminée par un utilisateur, ou d'une valeur constante.  In one embodiment of the invention, the durations of the interesting breaks are extended by a value determined by a user, or by a constant value.

Dans un mode de réalisation de l'invention, on élargit les durées des pauses intéressantes d'une valeur dépendant du débit de la suite de phonèmes.  In one embodiment of the invention, the durations of the interesting pauses are widened by a value depending on the bit rate of the sequence of phonemes.

De préférence, ledit traitement vocal est appliqué, dans une conversation téléphonique, sur demande d'un des interlocuteurs à toute suite de phonèmes devant être reçue par ledit interlocuteur.  Preferably, said voice processing is applied, in a telephone conversation, at the request of one of the interlocutors to any series of phonemes to be received by said interlocutor.

Ladite demande est effectuée à chaque appel donné ou reçu par ledit interlocuteur.  Said request is made with each call given or received by said interlocutor.

<Desc/Clms Page number 3> <Desc / Clms Page number 3>

Ladite demande est effectuée à chaque appel donné ou reçu depuis un poste téléphonique déterminé, en conservant une possibilité de désactivation dudit traitement vocal.  Said request is made on each call given or received from a determined telephone set, while retaining the possibility of deactivating said voice processing.

Le traitement s'applique, notamment, aux conversations téléphoniques et à des messages enregistrés sur répondeur ou messagerie vocale.  The processing applies, in particular, to telephone conversations and messages recorded on answering machine or voicemail.

Le système de traitement vocal, selon un aspect de l'invention, comprend un moyen de détection des pauses dans une suite de phonèmes, un moyen de sélection des pauses intéressantes, et un moyen d'élargissement des durées des pauses intéressantes.  The voice processing system, according to one aspect of the invention, comprises a means of detecting pauses in a sequence of phonemes, a means of selecting interesting pauses, and a means of enlarging the durations of interesting pauses.

Dans un mode de réalisation de l'invention, les moyens de détection des pauses, de sélection des pauses intéressantes et d'élargissement font partie d'un dispositif relié à un réseau téléphonique.  In one embodiment of the invention, the means for detecting breaks, selecting interesting breaks and widening are part of a device connected to a telephone network.

Dans un mode de réalisation de l'invention, le système comprend une pluralité de centres à autonomie d'acheminement chacun reliés à pluralité de postes téléphoniques, chaque centres à autonomie d'acheminement étant apte à dérouter une suite de phonèmes vers les moyens de détection des pauses, de sélection des pauses intéressantes et d'élargissement.  In one embodiment of the invention, the system comprises a plurality of self-routing centers each connected to a plurality of telephone sets, each self-routing center being able to divert a series of phonemes to the detection means breaks, selection of interesting breaks and enlargement.

L'invention concerne également un programme d'ordinateur comprenant des moyens de code programme pour mettre en oeuvre les étapes du procédé, lorsque ledit programme fonctionne sur un ordinateur.  The invention also relates to a computer program comprising program code means for implementing the steps of the method, when said program is running on a computer.

L'invention concerne également un support capable d'être lu par un dispositif de lecture de moyens de code programme qui s'y trouvent stockés et qui sont aptes à la mise en oeuvre des étapes du procédé, lorsque ledit programme fonctionne sur un ordinateur.  The invention also relates to a medium capable of being read by a device for reading program code means which are stored therein and which are suitable for carrying out the steps of the method, when said program is running on a computer.

Grâce à l'invention, on ralentit la vitesse d'élocution d'un premier interlocuteur pour qu'au moins un autre interlocuteur puisse comprendre plus facilement le premier interlocuteur. On améliore de façon importante le confort d'audition. Des personnes malentendantes peuvent ainsi tenir une conversation sur un réseau de télécommunications ou peuvent utiliser sans difficulté des services vocaux.  Thanks to the invention, the speed of speech of a first interlocutor is slowed down so that at least one other interlocutor can more easily understand the first interlocutor. It significantly improves hearing comfort. Hearing impaired people can have a conversation over a telecommunications network or can use voice services without difficulty.

<Desc/Clms Page number 4> <Desc / Clms Page number 4>

Le procédé peut être mis en oeuvre par un dispositif du réseau accessible par les personnes malentendantes. Celles-ci peuvent accéder au service mettant en oeuvre le procédé en composant avant ou en cours de communication sur leur combiné téléphonique ou terminal un code par exemple composé de la touche R souvent présente suivi d'un numéro. L'élocution de leur interlocuteur est alors filtrée, pour être débarrassée des bruits parasites, puis analysée afin de pouvoir être ralentie. Le souscripteur du service peut ensuite adapter l'élocution à sa capacité d'écoute en appuyant sur une touche du clavier du combiné pour ralentir plus ou moins fortement l'élocution.  The method can be implemented by a network device accessible by the hearing impaired. They can access the service implementing the process by dialing before or during communication on their telephone handset or terminal a code, for example composed of the R key often present followed by a number. The speech of their interlocutor is then filtered, to be rid of parasitic noises, then analyzed in order to be able to be slowed down. The subscriber of the service can then adapt the speech to his listening ability by pressing a key on the handset keyboard to more or less significantly slow down the speech.

La conversation se trouve ralentie et une insertion de message d'attente permet d'avertir l'interlocuteur ne souffrant pas de déficience auditive et ayant un débit normal d'élocution. The conversation is slowed down and an insertion of a waiting message makes it possible to warn the interlocutor not suffering from hearing impairment and having a normal speech rate.

Le débit d'élocution varie très fortement d'un locuteur à un autre. On peut considérer qu'un débit normal est de l'ordre de 9 syllabes/seconde, mais peut aller de 6 à 12 syllabes/seconde. La durée des pauses syntactiques ou de style et des pauses de ponctuation, respiratoires ou associées à des repères de ponctuation, est également variable. Globalement, le nombre de pauses diminue lorsque la vitesse d'élocution augmente. Cependant, cette variation n'est pas régulière mais dépend du type de pauses. Le nombre de pauses liées, par exemple à une interruption nette, est relativement constant quelle que soit la vitesse d'élocution. Une décroissance du nombre de pauses liées à des virgules apparaît allant du rythme lent vers le rythme rapide.  The rate of speech varies greatly from one speaker to another. We can consider that a normal flow is of the order of 9 syllables / second, but can go from 6 to 12 syllables / second. The duration of syntactic or style breaks and punctuation breaks, breathing breaks or those associated with punctuation marks, is also variable. Overall, the number of pauses decreases as the speaking speed increases. However, this variation is not regular but depends on the type of breaks. The number of pauses linked, for example to a clear interruption, is relatively constant regardless of the speed of speech. A decrease in the number of pauses linked to commas appears going from the slow rhythm to the fast rhythm.

Cette décroissance est encore plus prononcée pour les pauses syntactiques non liées à des repères de ponctuation. This decrease is even more pronounced for syntactic pauses not linked to punctuation marks.

A titre d'exemple, une pause liée à une interruption nette, telle que le point marquant la fin d'une phrase, est d'une durée généralement de l'ordre de 100 ms. La durée d'une pause liée à une virgule varie généralement entre 100 et 200 ms, tandis que la durée d'une pause syntactique peut varier entre 30 et 300 ms.  For example, a pause linked to a clear interruption, such as the point marking the end of a sentence, is generally of the order of 100 ms. The duration of a comma-related pause generally varies between 100 and 200 ms, while the duration of a syntactic pause can vary between 30 and 300 ms.

On prévoit donc de fixer un seuil de durée permettant de distinguer entre les types de pauses et de déterminer au moins approximativement les pauses qui présentent la plus grande probabilité d'être reliées à la ponctuation ou à des pauses respiratoires. Les pauses  It is therefore planned to set a duration threshold making it possible to distinguish between the types of breaks and to determine at least approximately the breaks that have the greatest probability of being related to punctuation or breathing pauses. The breaks

<Desc/Clms Page number 5><Desc / Clms Page number 5>

syntactiques indispensables pour la compréhension de la phrase seront ainsi plus rarement affectées par le ralentissement.  syntactics essential for the understanding of the sentence will thus be more rarely affected by the slowdown.

De façon générale, une suite de phonèmes destinée à une personne ayant choisi de ralentir le débit de réception, qu'elle provienne d'un locuteur lors d'une conversation, ou d'un enregistrement effectué au préalable, débute par une phase de filtrage des parasites. On met en oeuvre ensuite une phase d'augmentation du niveau d'émission puis une phase d'élargissement des pauses, en particulier des pauses respiratoires ou de ponctuation.  In general, a series of phonemes intended for a person who has chosen to slow down the reception rate, whether it comes from a speaker during a conversation, or from a recording made beforehand, begins with a filtering phase parasites. A phase of increasing the emission level is then implemented, followed by a phase of widening the breaks, in particular breathing or punctuation breaks.

On pourrait également envisager de ralentir les phases d'élocution. Toutefois, on risquerait de modifier de façon importante et gênante la fréquence vocale de la suite de phonèmes. On pourrait alors envisager de corriger la fréquence des phases de suite de phonèmes pour se retrouver au plus près de la fréquence de régime.  We could also consider slowing down the speaking phases. However, there is a risk of modifying the vocal frequency of the sequence of phonemes in a significant and annoying manner. We could then consider correcting the frequency of the phoneme sequence phases in order to be as close as possible to the operating frequency.

Cette correction introduit automatiquement de nouvelles pauses syntactiques ou affaiblissements. This correction automatically introduces new syntactic breaks or weakenings.

Dans le cas d'un réseau téléphonique, le procédé peut être mis en oeuvre par un système lié au réseau et fonctionnant de la façon suivante : - le client A reçoit un appel et souhaite utiliser le service de ralentissement ;

Figure img00050001

- le client A prend la communication et indique à son correspondant qu'il souhaite utiliser le service de ralentissement ; - il appuie sur la touche R du clavier du combiné téléphonique et compose le numéro de téléphone permettant d'activer le ralentissement (en variante, il peut attendre la tonalité après l'appui sur la touche R) ; - le correspondant B est alors averti de la mise en oeuvre du ralentissement ;
Figure img00050002

- la communication du correspondant B vers le client A est alors traitée de telle façon que le procédé de ralentissement adapte les caractéristiques des suites de phonèmes du correspondant B aux capacités auditives du client A ; - lorsque le client A souhaite élargir les intervalles entre les mots, il peut appuyer sur une touche du clavier, par exemple la touche In the case of a telephone network, the method can be implemented by a system linked to the network and operating as follows: - client A receives a call and wishes to use the slowdown service;
Figure img00050001

- customer A takes the call and indicates to his correspondent that he wishes to use the slowdown service; - he presses the R key on the telephone handset keypad and dials the telephone number to activate the deceleration (alternatively, he can wait for the dial tone after pressing the R key); - correspondent B is then informed of the implementation of the slowdown;
Figure img00050002

the communication from correspondent B to client A is then processed in such a way that the deceleration process adapts the characteristics of the sequences of phonemes of correspondent B to the hearing abilities of client A; - when client A wishes to widen the intervals between words, he can press a key on the keyboard, for example the key

<Desc/Clms Page number 6><Desc / Clms Page number 6>

+, et lorsqu'il souhaite les diminuer, il peut appuyer sur une autre touche, par exemple la touche-.  +, and when he wishes to decrease them, he can press another key, for example the - key.

Dans le cas d'un réseau téléphonique, si le client A est souscripteur du service, le procédé peut être mis en oeuvre par un système lié au réseau et fonctionnant de la façon suivante :
Si l'abonné A n'est pas chez lui, il peut facilement utiliser le service dans le cas où il est l'appelant : - Le client A compose le numéro du service réseau de ralentissement et se trouve identifié comme souscripteur.

Figure img00060001
In the case of a telephone network, if customer A is a subscriber to the service, the method can be implemented by a system linked to the network and operating as follows:
If subscriber A is not at home, he can easily use the service if he is the caller: - Client A dials the number of the slowdown network service and is identified as a subscriber.
Figure img00060001

- Le serveur vocal du service lui demande de composer le numéro de son correspondant B. - The service's vocal server asks him to dial the number of his correspondent B.

- La communication est établie, la conversation B vers A est traitée et ralentie. - Communication is established, conversation B to A is processed and slowed down.

Si l'abonné A n'est pas chez lui et se trouve appelé : - Le client A reçoit d'appel du client B. If subscriber A is not at home and is called: - Client A receives a call from client B.

- Le client A utilise la fonction double appel et appelle le service de ralentissement en appuyant sur la touche R et en composant un numéro. - Client A uses the inquiry call function and calls the slowdown service by pressing the R key and dialing a number.

- Il est mis en relation avec le service.  - He is put in contact with the service.

- Il commande le transfert de l'appel provenant du client B vers le service de ralentissement.  - He orders the transfer of the call from client B to the slowdown service.

- Il raccroche.  - He hangs up.

- Le service de ralentissement le rappelle et le met en communication avec le client B.  - The slowdown service calls him back and puts him in communication with customer B.

La présente invention sera mieux comprise et d'autres avantages apparaîtront à la lecture de la description détaillée d'un mode de réalisation pris à titre d'exemple nullement limitatif et illustré par les dessins annexés, sur lesquels : - la figure 1 est une vue schématique d'un réseau téléphonique équipé d'un système de ralentissement ;

Figure img00060002

- la figure 2 est un organigramme des étapes du procédé de ralentissement ; - la figure 3 est un organigramme détaillé de l'étape de ralentissement proprement dite ; et - la figure 4 est une variante de la figure 3. The present invention will be better understood and other advantages will appear on reading the detailed description of an embodiment taken by way of nonlimiting example and illustrated by the appended drawings, in which: - Figure 1 is a view schematic of a telephone network equipped with a slowdown system;
Figure img00060002

- Figure 2 is a flow diagram of the steps of the deceleration process; - Figure 3 is a detailed flowchart of the actual deceleration step; and - Figure 4 is a variant of Figure 3.

<Desc/Clms Page number 7> <Desc / Clms Page number 7>

Comme on peut le voir sur la figure 1, un interlocuteur 1 est équipé d'un poste téléphonique 2 qui peut être de type privé ou public, par exemple avec un moyen de paiement tel qu'un monnayeur ou un lecteur de carte de crédit. Le poste téléphonique 2 est relié à un centre à autonomie d'acheminement 3, par exemple un autocommutateur.  As can be seen in FIG. 1, an interlocutor 1 is equipped with a telephone set 2 which can be of private or public type, for example with a means of payment such as a coin mechanism or a credit card reader. The telephone set 2 is connected to a self-routing center 3, for example a PABX.

De façon similaire, l'utilisateur 4 a à sa disposition un poste téléphonique 5 relié à un autre centre à autonomie d'acheminement 6.  Similarly, the user 4 has at his disposal a telephone set 5 connected to another self-routing center 6.

Un système de ralentissement 7 est apte à établir des communications avec les centres à autonomie d'acheminement 3 et 6. Chaque centre à autonomie d'acheminement 3,6 est pourvu, à cet effet, d'une interface 8,9. Bien entendu, les centres à autonomie d'acheminement 3,6 sont aptes à faire passer des communications par le réseau téléphonique 10 classique, numérique ou analogique. De façon optionnelle, on peut prévoir que les centres à autonomie d'acheminement 3 et 6 sont aptes à établir des communications par l'intermédiaire d'un autre réseau 11, par exemple le réseau Internet, ou encore un réseau Intranet ou autre. A deceleration system 7 is able to establish communications with the centers with routing autonomy 3 and 6. Each center with routing autonomy 3.6 is provided, for this purpose, with an interface 8, 9. Of course, the centers with autonomous routing 3.6 are capable of passing communications through the conventional telephone network 10, digital or analog. Optionally, provision can be made for the autonomous routing centers 3 and 6 to be able to establish communications via another network 11, for example the Internet network, or even an Intranet or other network.

Comme on peut le voir sur la figure 2, le procédé de traitement par ralentissement comprend une étape 12 de filtrage des bruits parasites, suivie d'une étape 13 d'amplification, suivie d'une étape 14 de ralentissement qui sera expliquée plus en détail en référence à la figure 3 et, suivie d'une étape 15 de restitution du signal audio. Les caractéristiques de filtrage et d'amplification peuvent être réglées de façon automatique et/ou par l'utilisateur.  As can be seen in FIG. 2, the slowdown treatment method comprises a step 12 of filtering out noise, followed by an amplification step 13, followed by a slowdown step 14 which will be explained in more detail with reference to FIG. 3 and, followed by a step 15 of restitution of the audio signal. The filtering and amplification characteristics can be adjusted automatically and / or by the user.

Plus précisément et comme on peut le voir sur la figure 3, l'étape 14 se décompose en une étape 16 dite"d'analyse phonétique datée", qui consiste à séparer le signal audio d'entrée en une liste de phonèmes datés. Un phonème peut être repéré par un numéro d'ordre, une date de début et une date de fin qui peuvent être exprimées à la milliseconde près. Chaque phonème est une unité phonique pertinente pour la communication et capable de produire une différence de communication.  More precisely and as can be seen in FIG. 3, step 14 is broken down into a step 16 called "dated phonetic analysis", which consists in separating the input audio signal into a list of dated phonemes. A phoneme can be identified by a serial number, a start date and an end date which can be expressed to the nearest millisecond. Each phoneme is a sound unit relevant to communication and capable of producing a difference in communication.

La liste de phonèmes datés est ensuite traitée lors de la sous- étape 17 de séparation en chaînes phonétiques. On effectue une détection visant à identifier les pauses caractérisées par une durée entre deux phonèmes consécutifs supérieure à un seuil T. On sépare la  The list of dated phonemes is then treated during sub-step 17 of separation into phonetic chains. A detection is carried out aimed at identifying the pauses characterized by a duration between two consecutive phonemes greater than a threshold T. We separate the

<Desc/Clms Page number 8><Desc / Clms Page number 8>

liste de phonèmes en chaînes de phonèmes pouvant être assimilées à des mots qui sont ensuite traités lors de l'étape 18 de reconnaissance au cours de laquelle on compare les supposés mots à des mots connus qui peuvent être stockés dans une base de données.  list of phonemes in chains of phonemes which can be assimilated to words which are then processed during the recognition step 18 during which the supposed words are compared with known words which can be stored in a database.

Pour des raisons d'économie, on pourra prévoir de ne stocker qu'un nombre limité de mots, par exemple les mots les plus couramment utilisés dans une conversation. L'objectif n'est pas de reconnaître tous les mots, mais un nombre suffisant qui peut être défini par expérimentation pour confirmer ou faire varier l'intervalle
Ts entre deux mots.
For reasons of economy, provision may be made to store only a limited number of words, for example the words most commonly used in a conversation. The objective is not to recognize all the words, but a sufficient number which can be defined by experimentation to confirm or vary the interval
Ts between two words.

Si dans une chaîne de phonèmes on reconnaît deux mots, le seuil Ts est trop élevé car cela signifie que la pause entre ces deux mots est de durée inférieure à Ts et n'a pas été prise en considération.  If two words are recognized in a chain of phonemes, the threshold Ts is too high because it means that the pause between these two words is of duration less than Ts and has not been taken into account.

On peut alors diminuer Ts d'une durée fixe ou d'un pourcentage. On peut aussi mesurer une durée de mise à jour Tc à partir de phonèmes datés. La durée étant déterminée d'après la durée d'une pause entre deux mots ou d'après une moyenne de durée de pauses inter-mots. On transmet la valeur Tc qui sert à mettre à jour le seuil Ts utilisé dans l'étape 17 de séparation en chaînes phonétiques. Si on ne reconnaît aucun mot, on essaie de travailler sur la somme de la chaîne de phonèmes précédente ajoutée à la chaîne de phonèmes courante pour vérifier si on ne découpe pas trop le signal. Dans ce cas, on peut augmenter la valeur du seuil Ts lors d'une mise à jour. We can then decrease Ts by a fixed duration or by a percentage. We can also measure an update time Tc from dated phonemes. The duration is determined according to the duration of a pause between two words or according to an average of duration of inter-word pauses. The value Tc which is used to update the threshold Ts used in step 17 of separation into phonetic chains is transmitted. If no word is recognized, we try to work on the sum of the previous phoneme chain added to the current phoneme chain to check if we are not cutting the signal too much. In this case, the value of the threshold Ts can be increased during an update.

Si le taux de mots reconnus est considéré comme insuffisant après comparaison à un nombre de mots par minute fixé arbitrairement après expérimentation, on peut ramener le seuil Ts progressivement à une valeur par défaut. Si le seuil Ts étant placé à la valeur par défaut, le taux de mots reconnus reste insuffisant, on augmente graduellement le seuil Ts jusqu'à ce qu'on atteigne un nombre de mots reconnus acceptable. Pour améliorer la qualité de service, on pourra prévoir lors de la mise en oeuvre du service par les utilisateurs que le nombre de mots stockés formant une sorte de dictionnaire soit optimisé avec le type de conversation pratiqué par l'utilisateur.  If the rate of recognized words is considered to be insufficient after comparison with a number of words per minute arbitrarily fixed after experimentation, the threshold Ts can be gradually reduced to a default value. If the threshold Ts being placed at the default value, the rate of recognized words remains insufficient, the threshold Ts is gradually increased until an acceptable number of recognized words is reached. To improve the quality of service, provision may be made during the implementation of the service by the users that the number of stored words forming a sort of dictionary is optimized with the type of conversation practiced by the user.

Enfin, lors de l'étape 19, à partir du signal audio d'entrée et du seuil Tu, on détecte les pauses supérieures au seuil Ts et on les  Finally, during step 19, from the input audio signal and the threshold Tu, the pauses above the threshold Ts are detected and they are

<Desc/Clms Page number 9> <Desc / Clms Page number 9>

Figure img00090001

allonge en fonction d'une grandeur AI déterminée par l'utilisateur, par exemple au moyen de touches de son combiné téléphonique. A l'issue de l'étape 19, on envoie le signal audio ralenti à l'étape de restitution 15 illustrée sur la figure 2.
Figure img00090001

extension as a function of a quantity AI determined by the user, for example by means of keys on his telephone handset. At the end of step 19, the slowed down audio signal is sent to the restitution step 15 illustrated in FIG. 2.

De façon optionnelle, en vue d'accroître la qualité et le confort d'écoute, on peut prévoir une étape 20 qui, à partir de l'étape 16 d'analyse phonétique datée, mesure le nombre de syllabes par seconde. Lorsque le taux de syllabes d'une chaîne de phonèmes devient supérieur à une valeur prédéterminée, par exemple 9 syllabes/seconde, on transmet une grandeur de correction A2 pour prise en compte lors de l'étape 19 d'adaptation vocale. Lorsque le débit de syllabes est lent ou normal, A2 est nul. Lorsque le taux de syllabes devient élevé, les pauses supérieures à Ts peuvent être allongées lors de l'étape 19, de la somme AI + A2. L'étape 20 de détection de syllabes peut être mise en oeuvre soit à partir de la suite de phonèmes issue de l'étape 16, ou encore à partir de mots reconnus lors de l'étape 18.  Optionally, in order to increase the quality and the listening comfort, one can provide a step 20 which, from step 16 of dated phonetic analysis, measures the number of syllables per second. When the rate of syllables of a chain of phonemes becomes greater than a predetermined value, for example 9 syllables / second, a correction quantity A2 is transmitted for taking into account during step 19 for voice adaptation. When the syllable flow is slow or normal, A2 is zero. When the syllable rate becomes high, the pauses greater than Ts can be lengthened during step 19, by the sum AI + A2. Step 20 of syllable detection can be implemented either from the sequence of phonemes from step 16, or from words recognized during step 18.

Un tel procédé permet d'offrir plusieurs modes de mise en oeuvre, par exemple un mode statique où on prévoit de conserver un seuil Ts fixe ou un mode asservi où le seuil Ts évolue à partir d'une valeur initiale Ti, en fonction de la vitesse d'élocution de l'utilisateur 2 s'adressant à l'utilisateur 1. Toutes les pauses supérieures au seuil Ts sont allongées d'une valeur A, ou d'une valeur AI + A2, ou encore de la seule valeur A2.  Such a method makes it possible to offer several modes of implementation, for example a static mode where it is planned to keep a fixed threshold Ts or a controlled mode where the threshold Ts changes from an initial value Ti, as a function of the speaking speed of user 2 addressed to user 1. All pauses above the threshold Ts are extended by a value A, or by a value AI + A2, or even by the only value A2.

On comprend que si le seuil Ts est à une valeur adaptée, une chaîne correspondra généralement à un mot, tandis que s'il prend une valeur trop élevée, une chaîne englobera plusieurs mots, et s'il prend une valeur trop faible, une chaîne ne sera constituée que par une partie d'un mot.  It is understood that if the threshold Ts is at an adapted value, a chain will generally correspond to a word, while if it takes a value too high, a chain will include several words, and if it takes a value too low, a chain will only be made up of part of a word.

Plus particulièrement, dans le cas d'une communication entre un utilisateur 1 malentendant et un utilisateur 4 d'audition normale, on peut prévoir que la transmission entre l'utilisateur 1 et l'utilisateur 4 se fasse de façon normale, par exemple par le réseau 10. La communication entre l'utilisateur 4 et l'utilisateur 1 s'effectue par l'intermédiaire du centre à autonomie d'acheminement 6, de l'interface 9, du système 7, de l'interface 8, du centre à autonomie  More particularly, in the case of a communication between a user 1 who is hard of hearing and a user 4 of normal hearing, it can be provided that the transmission between user 1 and user 4 takes place in a normal manner, for example by the network 10. Communication between user 4 and user 1 takes place via the self-service center 6, interface 9, system 7, interface 8, center at autonomy

<Desc/Clms Page number 10><Desc / Clms Page number 10>

d'acheminement 3, la communication faisant l'objet d'un ralentissement par augmentation de certaines pauses au moyen du système 7.  routing 3, the communication being slowed down by increasing certain breaks by means of the system 7.

Dans le cas d'une communication entre deux utilisateurs 1 et 4 malentendants, on peut prévoir que la communication dans les deux sens s'effectue par l'intermédiaire du système 7, plus précisément par l'intermédiaire du centre à autonomie d'acheminement 6, de l'interface 9, du système 7, de l'interface 8, du centre à autonomie d'acheminement 3, de l'utilisateur 4 vers l'utilisateur 1, et du centre à autonomie d'acheminement 3, de l'interface 8, du système 7, de l'interface 9, du centre à autonomie d'acheminement 6, de l'utilisateur 1 vers l'utilisateur 4, la communication dans les deux sens faisant l'objet d'un ralentissement par augmentation de certaines pauses au moyen du système 7.  In the case of communication between two hearing-impaired users 1 and 4, provision can be made for communication in both directions to be carried out by means of the system 7, more precisely by means of the self-routing center 6 , of interface 9, of system 7, of interface 8, of the self-routing center 3, from user 4 to user 1, and of the self-routing center 3, of interface 8, of the system 7, of the interface 9, of the self-routing center 6, from user 1 to user 4, the two-way communication being slowed down by increasing some breaks using the system 7.

En variante, on peut prévoir que le système 7 recevant une communication à ralentir en provenance de l'interface 8 du centre à autonomie d'acheminement 3, effectue le traitement de ralentissement et renvoie la communication ralentie vers l'interface 8, le centre à autonomie d'acheminement 3 établissant une liaison normale vers le centre à autonomie d'acheminement 6. Toutefois, le délai de transmission risque d'être légèrement augmenté. As a variant, it can be provided that the system 7 receiving a communication to be slowed down coming from the interface 8 of the self-routing center 3, performs the slowdown processing and returns the slowed down communication to the interface 8, the center at routing autonomy 3 establishing a normal connection to the routing autonomy center 6. However, the transmission time may be slightly increased.

Claims (13)

REVENDICATIONS 1. Procédé de traitement vocal par ralentissement, dans lequel on détecte des pauses dans une suite de phonèmes, on sélectionne les pauses intéressantes, on élargit les durées des pauses intéressantes.  1. Method of vocal processing by slowing down, in which we detect pauses in a sequence of phonemes, we select interesting pauses, we extend the durations of interesting pauses. 2. Procédé selon la revendication 1, dans lequel les pauses intéressantes sont sélectionnées selon un critère de durée.  2. Method according to claim 1, in which the interesting breaks are selected according to a duration criterion. 3. Procédé selon la revendication 2, dans lequel la durée des pauses intéressantes est supérieure à un seuil.  3. The method of claim 2, wherein the duration of interesting breaks is greater than a threshold. 4. Procédé selon la revendication 3, dans lequel le seuil est ajustable.  4. The method of claim 3, wherein the threshold is adjustable. 5. Procédé selon la revendication 4, dans lequel le seuil est ajusté en fonction du nombre de mots reconnus dans une suite de phonèmes.  5. Method according to claim 4, in which the threshold is adjusted as a function of the number of words recognized in a sequence of phonemes. 6. Procédé selon la revendication 5, dans lequel si le nombre de mots reconnus est considéré comme trop faible, on diminue ledit seuil.  6. The method of claim 5, wherein if the number of recognized words is considered to be too low, said threshold is reduced. 7. Procédé selon la revendication 5 ou 6, dans lequel la reconnaissance de mots est effectuée par comparaison d'un ensemble consécutif de phonèmes entre deux pauses intéressantes avec une liste de mots stockés dans une base de données.  7. Method according to claim 5 or 6, in which the word recognition is carried out by comparison of a consecutive set of phonemes between two interesting pauses with a list of words stored in a database. 8. Procédé selon l'une quelconque des revendications précédentes, dans lequel on élargit les durées des pauses intéressantes d'une valeur déterminée par un utilisateur, ou d'une valeur constante.  8. Method according to any one of the preceding claims, in which the durations of the interesting breaks are extended by a value determined by a user, or by a constant value. 9. Procédé selon l'une quelconque des revendications précédentes, dans lequel on élargit les durées des pauses intéressantes d'une valeur dépendant du débit de la suite de phonèmes.  9. Method according to any one of the preceding claims, in which the durations of the interesting pauses are widened by a value depending on the bit rate of the sequence of phonemes. 10. Procédé selon l'une quelconque des revendications précédentes, dans lequel ledit traitement vocal est appliqué, dans une conversation téléphonique, sur demande d'un des interlocuteurs à toute suite de phonèmes devant être reçue par ledit interlocuteur.  10. Method according to any one of the preceding claims, in which said voice processing is applied, in a telephone conversation, at the request of one of the interlocutors to any series of phonemes to be received by said interlocutor. 11. Système de traitement vocal (7), caractérisé par le fait qu'il comprend un moyen de détection des pauses dans une suite de phonèmes, un moyen de sélection des pauses intéressantes, et un  11. Voice processing system (7), characterized in that it comprises a means for detecting pauses in a series of phonemes, a means for selecting interesting pauses, and a <Desc/Clms Page number 12><Desc / Clms Page number 12> moyen d'élargissement des durées des pauses intéressantes.  means of extending the durations of interesting breaks. 12. Système selon la revendication 11, caractérisé par le fait que les moyens de détection des pauses, de sélection des pauses intéressantes et d'élargissement font partie d'un dispositif relié à un réseau téléphonique.  12. System according to claim 11, characterized in that the means for detecting breaks, selecting interesting breaks and widening are part of a device connected to a telephone network. 13. Système selon la revendication 11, caractérisé par le fait qu'il comprend une pluralité de centres à autonomie d'acheminement chacun reliés à pluralité de postes téléphoniques, chaque centres à autonomie d'acheminement étant apte à dérouter une suite de phonèmes vers les moyens de détection des pauses, de sélection des pauses intéressantes et d'élargissement. 13. The system as claimed in claim 11, characterized in that it comprises a plurality of self-routing centers each connected to a plurality of telephone sets, each self-routing center being capable of routing a series of phonemes to the means of detecting breaks, selecting interesting breaks and widening.
FR0016329A 2000-12-14 2000-12-14 METHOD AND SYSTEM FOR VOICE PROCESSING OF A SUCCESS OF PHONEMAS Expired - Fee Related FR2818479B1 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
FR0016329A FR2818479B1 (en) 2000-12-14 2000-12-14 METHOD AND SYSTEM FOR VOICE PROCESSING OF A SUCCESS OF PHONEMAS
AU2002219284A AU2002219284A1 (en) 2000-12-14 2001-12-11 Method and system for voice processing of a series of phonemes
PCT/FR2001/003944 WO2002049002A1 (en) 2000-12-14 2001-12-11 Method and system for voice processing of a series of phonemes

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0016329A FR2818479B1 (en) 2000-12-14 2000-12-14 METHOD AND SYSTEM FOR VOICE PROCESSING OF A SUCCESS OF PHONEMAS

Publications (2)

Publication Number Publication Date
FR2818479A1 true FR2818479A1 (en) 2002-06-21
FR2818479B1 FR2818479B1 (en) 2003-03-07

Family

ID=8857667

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0016329A Expired - Fee Related FR2818479B1 (en) 2000-12-14 2000-12-14 METHOD AND SYSTEM FOR VOICE PROCESSING OF A SUCCESS OF PHONEMAS

Country Status (3)

Country Link
AU (1) AU2002219284A1 (en)
FR (1) FR2818479B1 (en)
WO (1) WO2002049002A1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6244658B2 (en) * 2013-05-23 2017-12-13 富士通株式会社 Audio processing apparatus, audio processing method, and audio processing program

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5434924A (en) * 1987-05-11 1995-07-18 Jay Management Trust Hearing aid employing adjustment of the intensity and the arrival time of sound by electronic or acoustic, passive devices to improve interaural perceptual balance and binaural processing
EP0736995A2 (en) * 1995-04-07 1996-10-09 Texas Instruments Incorporated Improvements in or relating to speech recognition
US5761638A (en) * 1995-03-17 1998-06-02 Us West Inc Telephone network apparatus and method using echo delay and attenuation
US5970156A (en) * 1997-02-14 1999-10-19 Telefonaktiebolaget Lm Ericsson Method and apparatus for reducing periodic interference in audio signals

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5434924A (en) * 1987-05-11 1995-07-18 Jay Management Trust Hearing aid employing adjustment of the intensity and the arrival time of sound by electronic or acoustic, passive devices to improve interaural perceptual balance and binaural processing
US5761638A (en) * 1995-03-17 1998-06-02 Us West Inc Telephone network apparatus and method using echo delay and attenuation
EP0736995A2 (en) * 1995-04-07 1996-10-09 Texas Instruments Incorporated Improvements in or relating to speech recognition
US5970156A (en) * 1997-02-14 1999-10-19 Telefonaktiebolaget Lm Ericsson Method and apparatus for reducing periodic interference in audio signals

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MCKINLEY B L ET AL: "MODEL BASED SPEECH PAUSE DETECTION", 1997 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING. SPEECH PROCESSING. MUNICH, APR. 21 - 24, 1997, IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP), LOS ALAMITOS, IEEE COMP. SOC. PRESS, US, vol. 2, 21 April 1997 (1997-04-21), pages 1179 - 1182, XP000822663, ISBN: 0-8186-7920-4 *

Also Published As

Publication number Publication date
WO2002049002A1 (en) 2002-06-20
AU2002219284A1 (en) 2002-06-24
FR2818479B1 (en) 2003-03-07

Similar Documents

Publication Publication Date Title
EP0974221B1 (en) Radiotelephone voice control device, in particular for use in a motor vehicle
EP1221249B1 (en) Identification of participant in a teleconference
CA2294442C (en) System and method for coding and broadcasting voice data
EP0867856B1 (en) Method and apparatus for vocal activity detection
FR2708404A1 (en) Method of programmed numbering for cellular telephones.
JP3998724B2 (en) Interactive device
WO2006082288A1 (en) Method of transmitting end-of-speech marks in a speech recognition system
FR2818479A1 (en) METHOD AND SYSTEM FOR VOICE PROCESSING OF A SUCCESS OF PHONEMAS
FR2713800A1 (en) Method and apparatus for transforming a first voice message into a first language, into a second voice message spoken in a second predetermined language.
EP0301957A1 (en) Method and circuit for control of audio conferences
EP1287668B1 (en) Method and device for connection without telephone number disclosure
EP1388098B1 (en) Method and device for message broadcasting enabling the recipient to retrieve at least partly a message
CA2506549C (en) Method for processing audio data on a network and device therefor
WO2007090970A1 (en) Method and device for setting up a priority communication
EP1244281B1 (en) Method and device for providing a user with personalizable voice services in a voice telecommunications network
FR2852438A1 (en) Voice messages translating system for use in multi-lingual audio-conference, has temporizing unit to temporize messages such that terminals except terminal which transmits current message, receive endings in speakers language
FR2647613A1 (en) Assisted telephone reception
EP1555839B1 (en) Method for transmitting communications by key press on a telephone and associated telephone
WO2004105365A1 (en) Method and device for transfer of characteristics of a functionality
FR2846826A1 (en) Telephone conversation recording and broadcasting system for use in mobile and fixed telephony, has vocal server to record telephone conversation, and another server to transmit written transcription of conversation to speaker
EP1334607A1 (en) Method for associating written messages with voice messages over a public switched telephone network
EP1294164A1 (en) Self adapting navigation in an interactive voice response system
FR2827106A1 (en) INTERPERSONAL COMMUNICATION ASSISTANCE METHOD AND DEVICE, AND TELECOMMUNICATIONS SYSTEM INCORPORATING SUCH A DEVICE
FR2706107A1 (en) Interactive response system by phone.
WO2005009016A1 (en) Method and device for activating transfer of at least one short message

Legal Events

Date Code Title Description
ST Notification of lapse

Effective date: 20120831