FR2847706A1 - Analyse de la qualite de signal vocal selon des criteres de qualite - Google Patents

Analyse de la qualite de signal vocal selon des criteres de qualite Download PDF

Info

Publication number
FR2847706A1
FR2847706A1 FR0214865A FR0214865A FR2847706A1 FR 2847706 A1 FR2847706 A1 FR 2847706A1 FR 0214865 A FR0214865 A FR 0214865A FR 0214865 A FR0214865 A FR 0214865A FR 2847706 A1 FR2847706 A1 FR 2847706A1
Authority
FR
France
Prior art keywords
signal
module
voice
input
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR0214865A
Other languages
English (en)
Other versions
FR2847706B1 (fr
Inventor
Anne Blampoix
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
VOCEBELLA SA
Original Assignee
VOCEBELLA SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by VOCEBELLA SA filed Critical VOCEBELLA SA
Priority to FR0214865A priority Critical patent/FR2847706B1/fr
Priority to PCT/IB2003/006355 priority patent/WO2004049303A1/fr
Priority to AU2003288475A priority patent/AU2003288475A1/en
Publication of FR2847706A1 publication Critical patent/FR2847706A1/fr
Application granted granted Critical
Publication of FR2847706B1 publication Critical patent/FR2847706B1/fr
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

Procédé d'analyse d'au moins un signal vocal, caractérisé en ce qu'il est mis en oeuvre par des traitements élémentaires de signal gérés respectivement par des modules, chaque module étant apte à transformer au moins un signal d'entrée de module en un signal de sortie de module représentatif d'une caractéristique donnée du signal d'entrée de module, et en ce qu'il comprend la mise en oeuvre par un moyen de traitement du signal d'un module donné ou d'une combinaison donnée de modules donnés recevant en entrée au moins un signal vocal et fournissant en sortie un signal représentatif d'au moins un niveau de qualité du signal vocal selon un critère de qualité donné.Cette invention concerne aussi un procédé de formation à la maîtrise d'une voix et la protection de critères de qualité d'un signal vocal tels que définis dans le présent document.

Description

i La présente invention concerne un procédé d'analyse d'au moins un signal
sonore permettant notamment d'en dégager des caractéristiques.
La présente invention vise plus particulièrement à analyser une ou plusieurs voix
prises seules ou en conversation.
Ces dernières décennies, les évolutions technologiques ont permis de faire progresser le domaine de l'analyse de la voix, notamment par des traitements des
signaux vocaux.
Ainsi, grâce notamment aux traitements numériques de plus en plus performants, on peut isoler certaines caractéristiques fondamentales de la voix, tels que la fréquence fondamentale, les harmoniques, les partiels, le timbre de la voix, la hauteur de la voix, le volume sonore de la voix, etc. Certains procédés transforment des voix en y retirant ou en y modifiant des caractéristiques.
D'autres sont aptes à effectuer des reconnaissances vocales.
Certains autres permettent de créer des voix en formant les caractéristiques
vocales associées.
Des techniques existent donc pour maîtriser ces caractéristiques vocales qui
définissent une voix théorique d'un individu lambda.
Cependant, en pratique, une voix n'est pas statique et évolue selon une multitude de paramètres plus ou moins aléatoires tels que le temps, le climat, les humeurs, les émotions, l'état de santé, le rythme de vie, etc. Et le besoin de maîtriser sa voix quelques soient les circonstances est devenu de plus en plus présent, notamment dans certains métiers dont l'instrument vocal tient une grande importance, tels que ceux des téléacteurs, des conférenciers, des chanteurs, etc. La nécessité de travailler sa voix pour l'optimiser dans la perspective de, par exemple, produire un effet sur son interlocuteur afin de le convaincre, de le captiver ou
de l'émouvoir peut également être d'une grande utilité dans certaines situations.
Et puis la maîtrise de ces paramètres inconstants peut aussi servir pour mettre en oeuvre des reconnaissances vocales plus performantes, utiles notamment dans le domaine de la sécurité, ou pour des interventions sur des voix ou des créations vocales
plus proches de la réalité.
Ainsi, le document US2002/0010587 nous informe d'un système, d'un procédé
et d'un article tentant de détecter une nervosité dans la voix.
Le document WO0116938 propose quant à lui un système, un procédé et un
article paraissant aptes à détecter certaines émotions dans une voix.
Le document US6182044 divulgue un système et un procédé semblant capables
de détecter une performance vocale par rapport à un modèle vocal prédéterminé.
Ces techniques semblent définir certains critères vocaux' représentant des paramètres complexes et évolutifs de la voix, et qui peuvent aider à se faire une idée
quant à l'état d'une voix à un instant donné.
Cependant, ces quelques paramètres ne semblent pas suffisants et trop isolés pour établir un diagnostic satisfaisant de l'état de la voix, et en général de la qualité de
la voix à un moment donné.
Un premier objectif principal de la présente invention est de mesurer un niveau
de qualité d'une voix selon un ou plusieurs critères de qualité de voix.
Un deuxième objectif principal de la présente invention est de mesurer un niveau de qualité d'une conversation entre différentes voix selon un ou plusieurs critères de
qualité de conversation.
Un troisième objectif est de diagnostiquer l'état d'une voix selon les niveaux de
qualité d'une voix mesurés.
Un quatrième objectif est de choisir des exercices adaptés selon le diagnostic fourni. Pour atteindre notamment ces objectifs, l'invention propose un procédé d'analyse d'au moins un signal vocal, caractérisé en ce qu'il est mis en oeuvre par des traitements élémentaires de signal gérés respectivement par des modules, chaque module étant apte à transformer au moins un signal d'entrée de module en un signal de sortie de module représentatif d'une caractéristique donnée du signal d'entrée de module, et en ce qu'il comprend la mise en ceuvre par un moyen de traitement du signal d'un module donné ou d'une combinaison donnée de modules donnés recevant en entrée au moins un signal vocal et fournissant en sortie un signal représentatif d'au
moins un niveau de qualité du signal vocal selon un critère de qualité donné.
D'autres aspects, buts et avantages de la présente invention apparaîtront mieux à
la lecture de la description détaillée suivante d'une forme de réalisation préférée de
celle-ci, donnée à titre d'exemple non limitatif et faite en référence aux dessins annexés sur lesquels: La figure 1 représente une liste de modules de traitements élémentaires de signal
vocal selon l'invention.
La figure 2 représente une liste de critères de qualité d'un signal vocal selon
l'invention.
La figure 3 représente un schéma d'une configuration modulaire d'un critère
taux de parole selon l'invention.
La figure 4 représente un schéma d'une configuration modulaire apte à fournir un diagnostic de l'état vocal d'un signal vocal selon un critère taux de parole selon
l'invention.
La figure 5 représente un schéma d'une configuration modulaire d'un critère
taux de silences durables communs selon l'invention.
La figure 6 représente un schéma d'une configuration modulaire apte à fournir un diagnostic de l'état d'une conversation entre signaux vocaux selon un critère taux de
silences durables communs selon l'invention.
La figure 7 représente un schéma d'une configuration modulaire d'un critère
nombre de silences durables d'un signal vocal donné selon l'invention.
La figure 8 représente un schéma d'une configuration modulaire apte à fournir un diagnostic de l'état d'une conversation entre signaux vocaux selon un critère nombre
de silences durables d'un signal vocal donné selon l'invention.
La figure 9 représente un schéma d'une configuration modulaire d'un critère
nombre d'interruptions de parole d'un premier signal selon l'invention.
t La figure 10 représente un schéma d'une configuration modulaire apte à fournir un diagnostic de l'état d'une conversation entre signaux vocaux selon un critère nombre
d'interruptions de parole d'un premier signal selon l'invention.
La figure 11 représente un schéma d'une configuration modulaire d'un critère débit de parole selon l'invention. La figure 12 représente un schéma d'une configuration modulaire apte à fournir
un diagnostic d'un signal vocal selon un critère débit de parole selon l'invention.
La figure 13 représente un schéma d'une configuration modulaire d'un critère
tonicité vocale selon l'invention.
La figure 14 représente un schéma d'une configuration modulaire apte à fournir un diagnostic de l'état vocal d'un signal vocal selon un critère tonicité vocale selon l'invention. La figure 15 représente un schéma d'une configuration modulaire d'un critère
présence vocale selon l'invention.
La figure 16 représente un schéma d'une configuration modulaire apte à fournir un diagnostic de l'état vocal d'un signal vocal selon un critère présence vocale selon l'invention. La figure 17 représente un schéma d'une configuration modulaire d'un critère
nasalité vocale selon l'invention.
La figure 18 représente un schéma d'une configuration modulaire apte à fournir
un diagnostic d'un signal vocal selon un critère nasalité vocale selon l'invention.
La figure 19 représente un schéma d'une configuration modulaire d'un critère
justesse de voix selon l'invention.
La figure 20 représente un schéma d'une configuration modulaire apte à fournir
un diagnostic de l'état vocal d'un signal vocal selon un critère justesse de voix.
La figure 21 représente un schéma d'une configuration modulaire d'un critère
intonation de voix selon l'invention.
La figure 22 représente un schéma d'une configuration modulaire apte à fournir un diagnostic de l'état vocal d'un signal vocal selon un critère intonation de voix selon
l'invention.
La figure 23 représente un procédé de formation à une maîtrise de la voix selon l'invention. Un signal sonore est une onde de pression acoustique continue se propageant
dans le temps et dans l'espace, générée par une source sonore.
Un signal vocal est un signal sonore émis directement ou indirectement par un
être humain ou par un animal.
Dans le cadre de l'invention, on s'attachera particulièrement à étudier des
signaux sonores émis par un être humain.
La source vocale à analyser peut être: - des vibrations de cordes vocales d'une ou plusieurs personnes émettant alors directement une voix; ou - la lecture d'un enregistrement de voix; ou - un signal vocal obtenu à la suite d'une création vocale artificielle, c'est à dire à partir de dispositifs ou d'instruments non vivants aptes à créer des voix
humaines.
Dans le deuxième cas, l'enregistrement peut être réalisé sur tout support d'enregistrement tels une bande audio, un CD-ROM, un disque dur, une disquette, etc. Le format d'enregistrement peut être analogique ou numérique, comme par
exemple le format numérique WAV.
Dans le cas d'une source vocale donnant un signal vocal analogique, le signal analogique est noté S(t), et est un signal réel se déroulant de façon continue dans l'intervalle de temps entre 0 et T en mesurant la pression acoustique émise par une ou
plusieurs sources vocales à chaque instant t.
Ce signal vocal analogique peut être par exemple reçu par un microphone acoustique qui transforme alors l'information acoustique en information électrique pour pouvoir par la suite faire un traitement du signal mis en oeuvre par des moyens
électriques et/ou électroniques tels des processeurs et mémoires électroniques.
Le traitement du signal peut alors être réalisé analogiquement ou numériquement. Dans les exemples que nous allons décrire ci-après, nous étudierons des cas
d'analyses de signaux numériques.
Cependant, l'invention n'est en rien limitée à ce type d'analyse, et peut
également s'étendre à des analyses analogiques des signaux vocaux.
Pour numériser un signal vocal analogique, la technique couramment employée est un échantillonnage du signal analogique, les échantillons étant avantageusement prélevés dans le temps de façon régulière, chaque intervalle de temps séparant deux prélèvements consécutifs de signal étant défini par une période d'échantillonnage Te, une fréquence d'échantillonnage F, étant égale à 1/Te, le signal échantillonné, noté s, est alors défini par: s(k) = S(kTe) k représentant un ensemble d'entiers positifs compris entre 0 et K-1; K étant un entier donnant le nombre de points échantillonnés, d'étendue
temporelle KTe.
La fréquence d'échantillonnage choisie dans le cadre de l'invention est préférentiellement de 8000 Hz ou de 11025 Hz pour avoir une résolution satisfaisante
d'une voix humaine.
L'analyse de signal de la présente invention est essentiellement faite localement, on privilégiera donc des analyses sur des parties de signal que l'on isolera dans des
fenêtres de pondération.
Pour isoler une partie du signal, on multiplie le signal par une fonction à support compact, plus exactement nulle en dehors de l'intervalle temporel d'étude, encore appelée fonction de pondération notée w(k); k représentant un ensemble d'entiers positifs compris entre 0 et M-1; M étant un entier donnant le nombre de points contenus dans la fenêtre de
pondération, d'étendue temporelle MTe.
Les instants d'analyse du signal sont notés tl, 1 représentant un ensemble d'entiers positifs compris entre 0 et L-1;
L étant un entier donnant le nombre d'instants d'analyse.
Dans le cas d'analyses régulièrement espacées, on note Ta la période d'analyse et
Fa=l/Ta la fréquence d'analyse.
Le nombre de points séparant deux instants successifs d'analyse est A=Ta/Te.
De façon avantageuse, A est inférieur ou égal à M de sorte à avoir au moins une analyse par fenêtre de pondération. L'instant d'analyse est préférentiellement choisi comme le milieu de la fenêtre de pondération; dans ce cas, les instants sont définis par: t1= (lA+(MP1)/2)Te Une telle analyse, appelée analyse à court terme, donne, à partir du signal échantillonné s(k), une suite de signaux temporels à support borné, appelés trames, définis par: sî(k) = w(k) s(lA+k), k représentant un ensemble d'entiers positifs compris entre 0 et M-1 1 représentant un ensemble d'entiers positifs compris entre 0 et L-1 M étant la taille de chaque trame; w étant la forme de la fenêtre de pondération; A étant le décalage entre deux trames successives (en nombre de points);
dans le cas o A = M, chaque point du signal s est dans une trame unique.
Les trames sont centrées sur les instants d'analyse: t1 = (lA+(M41)/2)Te Une analyse peut par exemple utiliser les paramètres d'analyse suivants: w(k) est du type fonction de Hanning, soit w(k) = 1/2 (1-cos(2i/M)); - la quantité de signal dans chaque trame est MTe = 0,04 s, soit M = 441 points; - Durée de chevauchement des trames: Os, soit A = M.
On obtient donc Ta = 0,04 s et Fa = 25 Hz.
Le signal numérique est alors directement traité et analysé ou est enregistré dans
une mémoire électrique ou électronique pour être analysé plus tard.
L'analyse d'un signal vocal ne se réfère pas uniquement à une analyse
temporelle du signal vocal, mais aussi à une analyse fréquentielle.
Une analyse fréquentielle à court terme du signal est réalisée avantageusement en appliquant aux trames temporelles une transformée de Fourier, encore notée FFT. On obtient alors un signal fréquentiel , à un instant donné de la réception du signal vocal: N-1 el(n) = 2nk/N S(k k=O n représentant un ensemble d'entiers positifs compris entrej0 et N-1; N étant un entier donnant le nombre de points de la FFTa; 1(n) représentant le signal fréquentiel analysé à la fréquence fn, fn = nFe I N. La résolution fréquentielle, ou pas fréquentiel du signal, est donnée par la
relation Fa/N.
Si N est supérieur au nombre de points de la trame M, la trame est avantageusement complétée par des zéros jusqu'à obtenir les N points nécessaires au
calcul de B,(n).
Le module lI,(n)l représente l'intensité moyenne sur la trame 1 de la fréquence
nFe / N, et constitue le spectre du signal.
L'échelle logarithmique est alors couramment employée pour représenter ce
spectre en décibel: 20log1oIâ,(n)j.
Dans un cas préférentiel, les paramètres de l'analyse fréquentielle sont les suivants:
- N=4096;
- Fe= 8000 Hz; On obtient alors un pas fréquentiel Fe/N égal à 1,95 Hz qui est une valeur suffisamment petite pour permettre de distinguer dans le spectre des fréquences vocales proches, une fréquence d'une voix humaine, celle-ci pouvant varier d'environ 70 à
environ 1100 Hz.
On appellera ici "spectrogramme " une représentation énergétique en deux dimensions (f. t) en niveau de gris ou de couleur du signal, avec les instants d'analyse t1 en abscisses, les fréquences nF/N en ordonnées et les amplitudes en dB représentées en
niveau de gris ou de couleur.
Le signal spectral et le signal temporel issus directement de l'émission vocale d'origine constituent alors la matière première à partir de laquelle des analyses de signal seront mises en oeuvre pour en extraire les caractéristiques voulues. La méthodologie d'analyse de signal qui sera utilisée ici se base sur des
traitements du signal élémentaires gérés respectivement par des modules.
Un module, stocké en mémoire, représente le plus souvent un algorithme de transformation d'au moins un signal d'entrée en un signal de sortie représentatif d'une
caractéristique donnée du signal d'entrée.
Un dispositif électrique ou électronique, tel qu'un processeur, est avantageusement mis en oeuvre dans le procédé d'analyse du signal pour récupérer les signaux vocaux, mettre en oeuvre des calculs d'analyse des signaux à partir des modules stockés en mémoire, et récupérer les signaux représentatifs d'informations issus des calculs d'analyses vocales pour stocker ces informations en mémoire et/ou les envoyer sur un moyen de communication apte à communiquer ces informations à une personne dans un format compréhensible par cette personne, tel qu'un format d'affichage
graphique utilisant comme support un écran.
En référence à la figure 1, un module est identifié par un numéro (ex: Ml) qui
sera repris dans la suite du document. La description des modules est de type
entrée/sortie: entrées à gauche du module, sortie à droite du module.
Dans les prochains paragraphes, nous donnons quelques modules avantageusement mis en oeuvre dans un procédé selon l'invention: - module d'accès au signal numérisé MI: Que le signal vocal ait été émis de façon analogique ou qu'il soit issu d'un enregistrement numérique, l'analyse du signal débute nécessairement par la mise en
oeuvre de ce module MI.
Cette mise en oeuvre du module permet de traiter le signal vocal pour avoir en sortie de module un signal numérique de pression acoustique, s'écoulant dans le signal
discrétisé caractérisé par une fréquence d'échantillonnage.
De façon avantageuse, le temps discrétisé a ses valeurs dans l'intervalle réel [5 1;1].
- module d'estimation de niveau de bruit de fond et de parole M2, dont la mise en oeuvre comprend les étapes consistant à: > recevoir en entrée de module un signal vocal; > fournir en sortie de module un signal représentatif d'au moins un seuil maximum de niveau de bruit de fond et un seuil minimum de niveau de
parole du signal vocal reçu en entrée de module.
Le seuil minimum de niveau de parole est en général trouvé à partir du seuil de niveau de bruit de fond augmenté d'une certaine valeur, qui peut être nulle dans certain cas. La seule estimation de signal restant à effectuer est alors une estimation du bruit
de fond.
L'estimation du bruit de fond est une étape nécessaire pour pouvoir distinguer,
dans un signal vocal, " ce qui s'entend de ce qui ne s'entend pas ".
" Ce qui s'entend " signifie ici ce qui émerge suffisamment du bruit de fond.
Dans un premier mode de détermination du bruit de fond, on estime le bruit de
fond à partir d'un enregistrement sans aucune voix.
Cet enregistrement est avantageusement mis en oeuvre peu de temps avant le début de l'émission du signal vocal que l'on souhaite analyser et dans des conditions sensiblement identiques afin que le bruit de fond n'évolue pas de façon significative, et donc que les données de bruit de fond enregistrées soient sensiblement identiques aux
données de bruit de fond du signal vocal.
Le signal de bruit enregistré, noté Sb(t), avec un paramètre temps t qui est compris entre 0 et T, est avantageusement numérisé selon la méthode décrite plus haut, fournissant un signal temporel numérique sb(k) et un signal fréquentiel numérique
sbl(n).
Il est à noter que le temps T de mesure du bruit de fond doit être suffisamment
important pour que les statistiques qui seront mises en oeuvre aient un sens.
Le bruit de fond, noté bdf(n), est avantageusement estimé comme une enveloppe
maximum du spectre, fréquence par fréquence.
Le bruit de fond bdf(n) est alors notamment fonction de: - l'amplitude moyenne des L trames du spectre à la fréquence nF./N qui est noté mb(n) et qui s'écrit: m L-1 Mb(n) =-Z Y sbl(n)l L 1=0 - l'écart type de l'amplitude des L trames du spectre à la fréquence nFJN qui est noté v(n) et qui s'écrit: 1 L-1 U b(n) -E (I bl(n)l-m(n))2 L 1= L'expression du bruit de fond à la fréquence nFI/N s'écrit alors de manière avantageuse: bdf(n) = mb(n) + aab(n), a étant un coefficient multiplicateur qui est à choisir. Il peut être notamment à
relier à une certaine valeur seuil d'une distribution gaussienne.
Par exemple, un coefficient multiplicateur a égal à 2 est avantageusement relié à un seuil d'une distribution gaussienne dans laquelle 2,5 % des échantillons excède ce seuil. Dans un deuxième mode de détermination du bruit de fond, le bruit de fond est estimé directement sur l'enregistrement du signal vocal, et non sur un enregistrement distinct sans voix comme dans le cas du premier mode de détermination du bruit de fond. Pour ce faire, une première plage de l'enregistrement du signal vocal contient un enregistrement du silence, tel qu'il avait été fait lors du premier mode de détermination du bruit de fond, pendant une durée typique de quelques secondes, suivi directement d'un enregistrement du signal comprenant l'information vocale dans une deuxième
plage de l'enregistrement.
Une première étape de détermination du bruit de fond consiste à séparer à partir
de l'enregistrement la plage silence de la plage non silence.
Une deuxième étape de détermination du bruit de fond est alors identique au
premier mode de détermination du bruit de fond.
- module de segmentation de zones silence et de parole M3 dont la mise en oeuvre comprend les étapes consistant à: 1 > recevoir en une première entrée de module un signal vocal et en une deuxième entrée de module un signal représentatif de seuils respectifs de bruit de fond et de parole d'un signal vocal; > fournir en sortie de module un signal de sortie représentatif d'un découpage du signal vocal entré en zones temporelles respectives de silence et de parole, le silence étant défini au moins en partie par le bruit de fond, le signal de sortie ayant un niveau de signal donné pour les zones de silence et un autre niveau de signal donné pour les zones
de parole.
Le signal de sortie est avantageusement un signal binaire, avec par exemple un niveau de signal 0 attribué aux zones de silence et un niveau de signal 1 attribué aux
zones de parole.
Une fois le bruit de fond déterminé, ce module s'attache donc à reconnaître les
zones de silence des zones de parole dans le signal vocal.
Les zones du signal temporel ayant une amplitude et/ou une intensité supérieure à une valeur ou plusieurs valeurs seuils déterminés sont considérées comme constituant
de l'information vocale.
Les autres zones du signal temporel sont considérées comme des zones de
silence dans le signal vocal.
Ce module agit ainsi comme un filtre du signal vocal en référence notamment au signal de bruit de fond (représentant ainsi une référence de " silence " dans le signal l vocal) pour distinguer le son parlé du son bruité, et segmentant ainsi les zones de parole
des zones de silence.
Des analyses après segmentation du signal en zones de parole et de silence peuvent aussi être crées et mises en oeuvre, telles que des analyses de durée, d'amplitude, d'énergie ou autres pour identifier par exemple des zones de parole qui correspondraient en fait à des zones de bruit, tels que par exemple des claquements de
lèvres, et des zones de bruit qui correspondraient à des zones de parole.
Ainsi, des modules tels que les cinq modules suivants peuvent être mis en oeuvre à la suite du module M3: - module de taux d'occupation de niveau donné M4A, dont la mise en oeuvre comprend les étapes consistant à: > recevoir en entrée de module un signal temporel découpé en amplitude en au moins deux niveaux; > fournir en sortie de module un signal de sortie représentatif du taux d'occupation temporelle du signal temporel dans un niveau de signal donné. On peut ainsi obtenir, par exemple, une durée d'un signal d'entrée binaire passé
en niveau 1 rapportée à la durée totale du signal d'entrée.
Si le niveau 1 correspond aux zones de parole d'un signal vocal, le signal de
sortie de module est alors représentatif du taux de parole dans le signal vocal.
- module de taux d'occupation commune de niveau donné M4B, dont la mise en oeuvre comprend les étapes consistant à: > recevoir en au moins deux entrées de module au moins deux signaux temporels respectifs, chacun découpé en amplitude sur au moins deux niveaux; > fournir en sortie de module un signal de sortie représentatif du taux d'occupation temporelle simultanée des signaux temporels dans un
niveau de signal donné.
On peut ainsi obtenir, par exemple, un temps écoulé par deux signaux d'entrée
binaires au niveau 0 simultanément, rapportée à la durée totale des signaux d'entrée.
Si le niveau 0 correspond aux zones de silence des signaux vocaux, le signal de sortie de module est alors représentatif du taux de silence occupé communément par les signaux vocaux. - module de nombre d'intervalles durables de niveau donné M4C, dont la mise en oeuvre comprend les étapes consistant à: > recevoir en au moins deux entrées de module au moins deux signaux temporels respectifs, chacun découpé en amplitude en au moins deux niveaux; > fournir en sortie de module un signal de sortie représentatif du nombre d'intervalles temporels durables dans un niveau de signal donné d'au moins un signal temporel, un intervalle devenant durable à partir d'une valeur d'intervalle seuil mémorisée, après un intervalle temporel d'au moins un autre signal temporel dans un autre niveau que le niveau donné. On peut ainsi obtenir, par exemple, dans le cas o il y a deux signaux d'entrée binaires, un nombre d'intervalles durables de niveau 0 d'un premier signal précédé d'un
intervalle de niveau 1 du deuxième signal.
Si le niveau 0 correspond aux zones de silence et le niveau 1 correspond aux zones de parole des deux signaux vocaux, le signal de sortie de module est alors représentatif du nombre d'intervalles durables de silence du premier signal qui suivent
des intervalles de parole du deuxième signal.
- module de nombre de chevauchements de niveau donné M4D, dont la mise en oeuvre comprend les étapes consistant à: > recevoir en au moins deux entrées de module au moins deux signaux temporels respectifs, chacun découpé en amplitude en au moins deux niveaux; > fournir en sortie de module un signal de sortie représentatif du nombre d'intervalles temporels pour lesquels au moins deux signaux ont respectivement un même niveau de signal donné, au moins un de ces signaux n'ayant pas ce niveau donné après l'intervalle, au moins un autre de ces signaux n'ayant pas ce niveau donné avant l'intervalle. On peut ainsi obtenir, par exemple, dans le cas o il y a deux signaux d'entrée binaires, les chevauchements répertoriés concernant les intervalles d'un premier signal
se terminant alors qu'un intervalle de niveau 1 du deuxième signal a commencé.
Si le niveau 0 correspond aux zones de silence et le niveau 1 correspond aux zones de parole des deux signaux vocaux, le signal de sortie de module est alors
représentatif du nombre de chevauchements de parole des premier et deuxième signaux.
- module de segmentation des zones stationnaires M5, dont la mise en oeuvre comprend les étapes consistant à: > recevoir en une première entrée de module un signal vocal et en une deuxième entrée de module un signal représentatif d'un découpage d'un signal vocal en zones temporelles respectives de silence et de parole; > fournir en sortie de module un signal de sortie représentatif d'un découpage du signal vocal entré en des zones stationnaires et non stationnaires, une zone du signal vocaltemporel est stationnaire si la partie du signal qu'elle contient est suffisamment distincte des parties du signal adjacentes à la zone, et notamment s'il existe une rupture suffisante entre des caractéristiques du signal contenu dans la zone en entrée et/ou en sortie de zone et des caractéristiques des parties du signal adjacentes à la zone, une telle rupture est suffisante si elle est plus importante qu'une valeur de rupture seuil mémorisée, le signal de sortie étant constitué du signal vocal d'entrée avec un niveau de signal
donné remplaçant les zones de silence et les zones non stationnaires.
Ce module identifie donc les zones stationnaires du signal par estimation
statistique de type rupture de modèle.
Le modèle mémorisé pouvant être une identification d'un son ou d'un hauteur de
voix ou autre.
Ce module permet en particulier de séparer des phonèmes dans un signal vocal.
La différenciation des zones de parole des zones de silence du signal vocal, ainsi qu'éventuellement des déterminations de comportement et durées des différentes zones, étant effectuée(s) par des modules précédemment discutés, les parties du signal vocal correspondant aux zones de parole peuvent alors faire l'objet d'analyses afin de
déterminer la qualité vocale de ce signal.
Ceci est réalisé notamment par les modules suivants: - module de hauteur de son M7, dont la mise en oeuvre comprend les étapes consistant à: > recevoir en une première entrée de module un signal vocal et en une deuxième entrée de module un signal représentatif d'un découpage d'un signal vocal en zones temporelles respectives de silence et de parole; > fournir en sortie de module un signal de sortie représentatif des fréquences fondamentales locales respectives de chaque zone de parole
du signal vocal.
La hauteur de son, encore appelée pitch dans le métier, correspond à la
fréquence fondamentale perçue en chaque instant.
Ce module détecte le pitch sur les différentes trames temporelles de chaque
zone de parole.
Le traitement associé à ce module se déroule de façon avantageuse en deux phases: - détection instant par instant de la fréquence fondamentale et de son amplitude, préférentiellement selon une méthode probabiliste; élimination des points comprenant des caractéristiques de pitch mais qui
ne sont pas des pitchs.
La première phase de traitement comprend en premier lieu une détection des partiels, chaque partiel étant une composante temporelle sinusodale du signal vocal
représenté par des raies spectrales.
Il est à noter que les raies spectrales sont élargies et peuvent posséder aussi des lobes secondaires suite aux convolutions du signal temporel par la fonction de
pondération choisie pour l'analyse.
La détection des partiels prend en compte: - les données " bruit de fond ";
- le spectrogramme du signal vocal.
Le centre d'un partiel est défini ici par un maximum local strict du spectre qui: - émerge suffisamment du bruit de fond; - est suffisamment haut par rapport au partiel le plus haut du spectre; - n'est pas masqué par les autres lobes primaires ou secondaires des autres partiels.
Si un tel maximum n'existe pas, le partiel n'existe pas.
Le début du partiel correspond généralement au plus petit minimum local à gauche du centre du partiel dans une limite de taille imposée par la largeur de la fenêtre
de pondération.
Si aucun minimum local n'est rencontré, le début est avantageusement désigné
comme étant le point frontière de la fenêtre de pondération.
La fin du partiel correspond généralement au plus petit minimum local à droite du centre du partiel dans une limite de taille imposée par la largeur de la fenêtre de pondération. Si aucun minimum local n'est rencontré, la fin est avantageusement désignée
comme étant le point frontière de la fenêtre de pondération.
L'algorithme utilisé dans ce module utilise notamment des techniques de
masques de courbes pour parvenir à isoler les partiels.
Un pic de partiel est ainsi caractérisé par: - un indice de début de pic; - un indice de milieu de pic; - un indice de fin de pic;
- et une hauteur de milieu de pic.
Les données en entrées de l'algorithme sont: - un signal x(n), n étant un entier compris entre 0 et N-i, constituant l'amplitude d'un spectre d'une trame du signal vocal temporel; x(n) étant avantageusement exprimée en décibel (soit x(n) -20log10l 1(n)j); - une base de référence y(n), n étant un entier compris entre 0 et N-i, étant un spectre constituant une valeur plancher pour détecter les pics des partiels, et prenant au moins en partie le spectre du bruit de fond; y(n) étant avantageusement exprimée en décibel (soit y(n) = 20log1obdf(n)); - un masque z(n), n étant un entier compris entre 0 et N-i, initialisé à l'infini dans les négatifs ou à une valeur négative importante en valeur absolue, prend en compte l'amplitude du masque induit par chaque pic
détecté; z(n) étant avantageusement exprimée en décibel.
La suite de l'analyse dépend notamnient et avantageusement des paramètres de l'algorithme suivants: - [Fmin; Fma.] qui est un intervalle fréquentiel de recherche des partiels limité par une fréquence minimale (Fmin) et une fréquence maximale (Fmax); l'intervalle est de préférence choisi pour représenter toute la bande fréquentielle disponible; - E qui est l'émergence minimale d'un pic par rapport au signal de référence y; l'émergence minimale est de préférence nulle; - D qui est une demilargeur, c'est à dire la distance séparant le début (ou la fin) du pic de son centre; elle est de préférence fixée comme la demi-largeur du lobe principal de la FFT de la fenêtre de pondération; - A qui est l'atténuation du masque à la distance D du centre du pic; l'atténuation est fixée de préférence par l'atténuation d'un lobe secondaire par rapport au lobe principal de la FFT de la fenêtre de pondération augmentée de dB; - P qui est la pente multiplicative en dB/octave du masque de chaque pic; elle est fixée de préférence comme étant la pente d'atténuation des lobes secondaires, et dépend ainsi et en général de la fenêtre de pondération; H qui est la hauteur minimale d'un pic et relative au plus haut pic; la hauteur minimale est fixée de préférence à 60dB, un écart de la hauteur d'un pic de plus de 60dB par rapport à la hauteur du pic principal signifie donc un pic non entendu; Les étapes de calcul mis en oeuvre par l'algorithme peuvent être par exemple successivement les suivantes: 1. Pour chaque pic, on recherche de la gauche du pic vers sa droite (pour n variant d'une valeur correspondant à Fmn à une valeur correspondant à Fnax) 1.1. Si n est un maximum local strict pour x qui émerge suffisamment de la base (c'est à dire que x(n) > y(n) + E) et du masque (c'est à dire que x(n) > z(n)), alors: 1.1.1. n est retenu pour être le milieu d'un pic; 1.1.2. le début du pic est alors recherché en partant du milieu du pic, sans dépasser la demi-largeur, pour un entier j variant de n -1 à n - D 1.1.2.1. si j est un minimum local du signal x, j est le début du pic; 1.1.2.2. sinon, si j est suffisamment atténué par rapport à i (c'est à dire que x(j) < x(i) + A), j est le début du pic; 1. 1.3. si le début de pic n'a pas été trouvé, alors on le fixe à une distance d'une demi-largeur depuis le centre du spectre (c'est à dire pour j = n - D; 1.1.4. une méthodologie symétrique est avantageusement appliquée pour trouver la fin du pic: on note alors k son indice; 1.1.5. on remet à jour le masque uniquement en dehors du pic trouvé, le nouveau masque étant le maximum entre l'ancien masque et l'atténuation attendue sur les lobes secondaires du pic (partiel) détecté. Cette atténuation vaut A en j - D, possède une pente de P (en dB/Hz) par octave et est symétrique par rapport au milieu du pic; 1.1.6. on cherche un nouveau pic (étape i.), à partir de la fin du pic détecté (c'est à dire pour n = k + 1); 1.2. Sinon, on cherche un nouveau pic (en reprenant l'étape i. avec n = n + 1); 2. Au final, on retient uniquement les pics qui émergent du masque final (qui est le dernier signal z calculé) et dont la hauteur (c'est à dire la valeur du milieu du pic) est au plus à H du plus haut pic. t La première phase de traitement se base ensuite sur une famille de partiels du spectre du signal vocal, à partir duquel le module M7 met en oeuvre les étapes suivantes: On extrait d'abord de cette famille une sous-famille suffisamment énergétique et peuplée, représentative des harmoniques principales de la voix humaine. On sélectionne pour cela les partiels qui émergent du bruit de fond d'au moins une valeur
El, typiquement égale à 5dB.
Si cette sélection contient moins d'un nombre minimum de partiels déterminé, typiquement égal à 3, ou si la sélection ne contient pas de partiels émergeant du bruit de fond d'au moins une valeur E2, typiquement égale à 20dB, alors on considère que le
spectre analysé ne comprend aucun pitch.
Dans le cas contraire, on travaille désormais sur cette sous-famille.
On calcule alors une énergie des partiels de la sous-famille.
Ainsi, par exemple, on fixe une référence de seuil d'énergie égale à 0 pour le partiel le plus bas et une référence de plafonnement d'énergie égale à 1 pour le partiel le plus haut, la hauteur d'un partiel étant trouvée au niveau du centre du partiel, les
* énergies respectives des autres partiels étant alors comprises entre ces deux références.
Pour qu'un partiel soit considéré comme le partiel correspondant à une fréquence fondamentale, prise au centre du partiel et notée f0, il faut qu'il satisfasse à
certaines conditions.
Ces conditions sont préférentiellement les suivantes: - l'énergie du partiel excède une valeur seuil, typiquement égale à 0,7 si on considère que les énergies des partiels sont comprises entre O et 1; - la fréquence fondamentale hypothétique ne possède pas de sousharmonique de rang 1; une sous-harmonique est de rang 1 s'il existe un partiel contenant f0/2, et dont le centre est situé à moins d'un certain écart fréquentiel de fO/2, typiquement égal à 3 Hz, et dont l'énergie diffère de l'énergie du partiel de la fréquence fondamentale hypothétique de moins d'un certain écart d'énergie, typiquement égal à 20 dB; - la fréquence fondamentale hypothétique ne possède pas de sur10 harmonique de rang 1; une surharmonique est de rang 1 s'il existe un partiel contenant fO*2, dont le centre est situé à moins d'un certain écart fréquentiez de fD*2, typiquement égal à 3 Hz, et dont l'énergie diffère de l'énergie du partiel de la fréquence fondamentale hypothétique de moins
d'un certain écart d'énergie, typiquement égal à 20 dB.
S'il existe un tel partiel, on retient le premier (c'est à dire celui représentant la
plus basse fréquence), et la fondamentale est déclarée présente.
On calcule alors, pour chaque partiel de la famille totale de partiels de départ, son rang dans les harmoniques (O si pas d'harmonique, k si k*fO est contenu dans le partiel). Le pitch est enfin ré-estimé par interpolation des positions des centres des
partiels 'harmoniques' sur les rangs de ces harmoniques.
Dans un premier temps, on sélectionne les harmoniques de rang inférieur à une certaine valeur, typiquement égale à 10. Dans le cas o le rang des harmoniques est
inférieur à cette valeur, le pitch n'est pas ré-estimé. Dans le cas contraire, un ré25 estimation du pitch est mise en oeuvre.
Cette ré-estimation du pitch peut par exemple s'effectuer en attribuant à fo la valeur: f0 = a + b, o a, b sont les coefficients de la régression linéaire des fréquences des harmoniques sélectionnées sur leur rang suivante: i y = ax +b + s yi:fréquence des harmoniques sélectionnées Xi rang des harmoniques sélectionnées c: largeur d 'un partiel de rang k entre des fréquences [FI; F2], et correspond donc à la limite de la variance autorisée de la valeur de y par rapport à la
valeur théorique qui serait trouvée en appliquant l'équation linéaire.
Le partiel contient donc l'harmonique de rang k si ka + b e [FI F2].
Les rangs des partiels sont alors ré-estimés.
Une seconde phase du traitement mise en oeuvre par le module M7, consiste à
éliminer des points hors-normes globaux et des points hors-normes locaux.
Des points sont considérés hors-normes par rapport à une norme prédéterminée qui peut être globale (c'est à dire sur toutes les fenêtres d'analyse) ou locale (c'est à dire
sur une seule fenêtre d'analyse).
m et l'écart type a des pitchs du signal vocal, en demi-ton 440Hz, obtenus sur une famille temporelle de spectres. Ces statistiques sont avantageusement calculées après éliminations de X valeurs les plus fortes, et de Y valeurs les plus basses, X et Y étant typiquement et respectivement égaux à 10 % du nombre d'éléments de la famille
temporelle de spectres.
Un seuil d'acceptation est ensuite calculé: les valeurs x acceptées sont alors celles pour lesquelles: [x -m]<ou a étant un coefficient prédéterminé et avantageusement choisi selon le type de son qui est attendu du signal, ou selon un modèle de distribution plus ad hoc que le
modèle gaussien.
a est typiquement égal à 4.
Une solution consiste à constituer des seuils en dur, correspondant à des hauteurs de son non atteignables par un humain, ou non atteignables vu le profil du
locuteur/chanteur, ou non atteignables vue la demande faite au locuteur/chanteur.
L'élimination des points hors-normes locaux permet, quant à elle, d'éliminer les
fausses détections de pitch du style fO/2 ou 2fM.
Pour ceci, une méthode proposée ici consiste à examiner sur des fenêtres temporelles glissantes les pitch détectés. L'identification des horsnormes se fait par comparaison de la fenêtre de scrutation avec des fenêtres gauche (située immédiatement à gauche de la fenêtre de scrutation) et droite (située immédiatement à droite de la fenêtre de scrutation). Pour qu'il y ait un hors-norme local, il faut alors que: - la fenêtre gauche contienne suffisamment de pitch détecté, et - la fenêtre gauche soit stable, et - la fenêtre droite contienne suffisamment de pitch détecté, et - la fenêtre droite soit stable, et
- la valeur de fenêtre centrale soit éloignée des valeurs à gauche et à droite.
Le traitement décrit ci-dessus pour la détection du pitch est satisfaisant, en ce sens que lorsque le pitch est déclaré détecté par l'algorithmique, il correspond très
souvent à un pitch entendu.
On peut aussi effectuer en outre un traitement correspondant à une déclaration des instants (ou trames) o le pitch est quasi srement absent. Ceci permet d'optimiser
notamment la détection de notes.
- module de distribution harmonique de l'énergie M9, dont la mise en oeuvre comprend les étapes consistant à: > recevoir en une première entrée de module un signal vocal et en une deuxième entrée de module un signal représentatif d'un découpage d'un signal vocal en zones temporelles respectives de silence et de parole; > fournir en sortie de module un signal de sortie représentatif d'une distribution d'énergie selon les harmoniques des zones de parole du
signal vocal.
Ce module identifie la répartition de l'énergie de chaque zone de parole selon les
différentes harmoniques détectées.
L'énergie moyenne d'une zone de parole du signal vocal consacrée aux harmoniques est l'énergie du signal des fréquences utiles localisées dans les partiels harmoniques, les fréquences utiles d'une zone de parole étant celles de la bande
paramétrable [f.,n; F.].
La moyenne est avantageusement calculée sur sensiblement tous les spectres
ayant un pitch. Le signal est seuillé à zéro sous le bruit de fond.
L'énergie est une norme L2 sur un spectre linéaire (abs(FFT)). Plus précisément, si on note: - tsi |(n) et bdf (n) les amplitudes respectives du signal vocal et du bruit de fond de la trame I à la fréquence f" - Hi la réunion des intervalles fréquentiels correspondant à l'ensemble des partiels harmoniques de la trame i du signal; alors on définit x, (n) la composante du signal g émergeant du bruit de fond par: x1 (n) = max(0, ts, 1(n) - bdf (n)) l'énergie totale e(l) par: e(l) = llXîî -;FMjî2 = (n) 2 l / =nfE F, 4;F 1 l'énergie des harmoniques eH (1) par: eH(i) EIIx1[F. MJH21112 = n/fx [F a;F=bHz - module de volume sonore M18, dont la mise en oeuvre comprend les étapes consistant à: > recevoir en entrée de module un signal vocal; > fournir en sortie de module un signal de sortie représentatif d'une
distribution temporelle du volume sonore du signal vocal.
Ce module calcule le volume sonore local du signal audio en entrée.
D'autres perfectionnements dans les modules précédemment discutés et/ou des ajouts d'autres modules à la précédente liste de modules peuvent pour fournir des caractéristiques essentielles aux analyses ultérieures et améliorer ainsi le traitement du
signal vocal.
L'analyse de ces caractéristiques vocales selon des critères de qualité du signal vocal entrant sont alors mise en oeuvre par des modules selon au moins l'une des deux façons suivantes: - en calculant, à partir de ces caractéristiques, des grandeurs représentatives de niveaux de qualité du signal vocal selon des critères de qualité donnés; ou - en comparant ces caractéristiques d'entrée à des caractéristiques données stockées en mémoire et représentatives de modèles vocaux donnés, l'algorithme des
calculs de ce type d'analyse étant contenu dans un ou plusieurs modules.
Dans ce dernier cas, la mise en òuvre d'un module donné ou d'une combinaison donnée de modules donnés à partir de la réception, en entrée de module, d'un signal vocal et/ou d'un signal après traitement du signal vocal fournit un signal de sortie de module représentatif d'une classification d'au moins une partie du signal vocal dans une catégorie donnée d'un critère vocal donné, selon les étapes suivantes: - réception d'au moins une partie du ou des signaux représentatif(s) d'au moins une grandeur; - comparaison de la grandeur avec au moins une grandeur mémorisée caractéristique d'un seuil de catégorie donné d'au moins un signal vocal selon un critère vocal donné et délimitant au moins deux domaines, chaque domaine étant associé à une catégorie du critère de qualité; - déduction de l'appartenance de la grandeur à une catégorie du critère vocal; - émission d'un signal représentatif de la catégorie du critère de qualité fourni
auquel appartient le signal vocal.
On peut par exemple définir comme critère de qualité vocal un critère de hauteur de son, les catégories mémorisées représentant alors différentes hauteurs de sons associées à des intervalles fréquentiels configurés représentatifs d'un ensemble de pitchs
d'un signal sonore.
Des exemples de modules mettant en ceuvre une étape de comparaison d'une grandeur d'un signal vocal avec au moins une grandeur mémorisée caractéristique représentant un seuil entre des catégories données selon un critère vocal donné, sont présentés ci-après: - module de classification en un son donné M8, dont la mise en oeuvre comprend les étapes consistant à: > recevoir en une première entrée de module un signal vocal et en une deuxième entrée de module un signal représentatif d'au moins une fréquence fondamentale locale correspondant respectivement à au moins une zone de parole d'un signal vocal; > comparer le signal vocal et la ou les fréquence(s) fondamentale(s) locales avec des caractéristiques de signaux mémorisées délimitant des domaines, chaque domaine étant associé à une catégorie de son donné; > déduire la ou les catégories de son à laquelle appartien(nen)t respectivement la ou les fréquence(s) fondamentale(s) locale(s) du signal vocal entré; > fournir en sortie de module un signal de sortie représentatif de la
catégorie de son déduite pour chaque zone de parole.
Ce module détecte notamment des types de voyelles présentes dans le signal
vocal, notamment grâce au pitch local reçu sur une entrée.
Les différentes catégories de voyelles ont été estimées par apprentissage sur une base d'exemples de voyelles prononcées à des pitchs variables, et ont alors été
mémorisées dans une première base de données.
Les caractéristiques de ces exemples de voyelles dépendent notamment des deux modèles suivants: - un modèle de hauteur de voix ou pitch mémorisé dans une deuxième base de données, déjà discuté plus haut, encore appelé registre de voix, dont les catégories de hauteur de voix sont définies par des intervalles de fréquences vocales; - un modèle de voix, telle qu'une voix nasale, mémorisée dans une troisième base de données dont les caractéristiques comprennent notamment des niveaux de pitch et des formes d'enveloppe temporelle du signal vocal représentant
un son.
De façon avantageuse, l'étape de comparaison est mise en oeuvre selon les deux étapes principales suivantes: - comparaison des pitchs du signal d'entrée avec les pitchs mémorisés; - déduction des registres auxquels appartiennent respectivement les pitchs du signal; - comparaison des caractéristiques du signal d'entrée avec les modèles de voix mémorisés correspondant au registre précédemment déduit; - déduction d'une catégorie de voix correspondant au registre déduit, et déduction par là- même d'une catégorie de son; - module de classification d'une nasalité vocale donnée M13, dont la mise en oeuvre comprend les étapes consistant à: > recevoir en une première entrée de module un signal vocal et en une deuxième entrée de module un signal représentatif d'au moins une catégorie de son d'un signal vocal; > comparer le signal vocal entré et la ou les catégorie(s) de son du signal vocal avec au moins une grandeur de signal mémorisée représentant un seuil de niveau, délimitant au moins deux domaines, chaque domaine étant associé à un niveau donné de nasalité vocale; > déduire le ou les niveau(x) au(x)quel(s) appartien(nen)t respectivement la ou les catégorie(s) de son du signal vocal entré; > fournir en sortie de module un signal de sortie représentatif du ou des
niveau(x) déduit(s) de nasalité vocale du signal vocal.
- module de calcul d'écart de hauteur de voix par rapport à un modèle de hauteur de voix M16, dont la mise en oeuvre comprend les étapes consistant à: > recevoir en entrée de module un signal représentatif d'au moins une fréquence fondamentale d'un signal vocal; > comparer la fréquence fondamentale d'entrée avec un modèle de fréquence fondamentale mémorisé; > déduire l'écart fréquentiel entre les deux fréquences fondamentales; > fournir en sortie de module un signal de sortie représentatif de l'écart fréquentiel déduit entre les deux fréquences fondamentales. Ce module calcule la distance entre le pitch en entrée du module et un modèle de
pitch fixé.
Le module M16 peut aussi se référer à une série de pitchs de référence mémorisée, délimitant des catégories de hauteur de voix, il est alors possible, par comparaison du pitch du signal vocal avec ceux-ci de retrouver les hauteurs de voix
comprises dans ce dernier.
Par exemple, on peut avoir les catégories de hauteur de son suivantes: grave ([150; 250] Hz par exemple), medium ([275; 351] Hz par exemple), haut-medium ([351; 450] Hz par exemple), ou alors: basse, baryton, ténor, contralto, soprano, etc. Dans un traitement plus particulier, le signal vocal d'entrée est une voix chantée à partir de laquelle on essaie de déterminer les notes émises sur des critères plus complexes. Une note du signal chanté est notamment identifiée, outre que par un pitch, aux extrémités (début et fin de note) du pitch par une localisation des ruptures de la courbe de pitch. Ces ruptures concident avec les maxima locaux du module de la dérivée (c'est à dire les points d'inflexion à forte pente). Ces ruptures sont combinées aux frontières naturelles entre notes, telles que des plages longues de pitch non détectées. Il est à remarquer que des notes suffisamment proches (temporellement et en
pitch) sont fusionnées en une unique note.
A partir des listes de notes mémorisées et différenciées par ces types de paramètres, on peut comparer une note chantée avec une note mémorisée afin de
déterminer la justesse de la note chantée par rapport au modèle de note mémorisé.
On peut de même avoir une liste d'ensembles de notes, chaque ensemble correspondant à une vocalise donnée voire à une chanson donnée, puis comparer les notes de la voix chantée avec celles-ci afin de déterminer la justesse de la vocalise
chantée par rapport au modèle de vocalise mémorisé.
- module de calcul d'écart d'intonation de voix par rapport à un modèle d'intonation de voix M17, dont la mise en oeuvre comprend les étapes consistant à: > recevoir en entrée de module un signal représentatif d'une évolution temporelle d'au moins une fréquence fondamentale d'un signal vocal; > comparer l'évolution temporelle de la fréquence fondamentale d'entrée avec un modèle d'intonation mémorisé; > déduire l'écart entre les deux intonations; > fournir en sortie de module un signal de sortie représentatif de l'écart
déduit entre les deux intonations.
Ce module calcule la distance entre l'intonation en entrée du module et un
modèle d'intonation fixé.
- module de classification d'une grandeur d'un signal vocal M6, dont la mise en oeuvre comprend les étapes consistant à: > recevoir en entrée de module un signal représentatif d'au moins une grandeur d'un signal vocal; > comparer la grandeur entrée avec au moins une grandeur mémorisée délimitant au moins deux domaines, chaque domaine étant associé à une catégorie donnée d'un critère vocal donné; > déduire la catégorie à laquelle appartient chaque grandeur du signal vocal entré; > fournir en sortie de module un signal de sortie représentatif de la ou des catégorie(s) déduite(s) au(x)quelle(s) appartien(nen)t respectivement la
ou les grandeur(s) entrée(s).
Ce module seuille chaque grandeur qui lui est présentée en entrée.
- module de classification d'une grandeur d'un signal vocal selon un paramètre d'entrée Ml0, dont la mise en oeuvre comprend les étapes consistant à: > recevoir en une première entrée de module un signal représentatif d'au
moins une grandeur d'un signal vocal et en une deuxième entrée de.
module un signal représentatif d'au moins une catégorie d'un paramètre d'un signal vocal; > comparer la grandeur entrée avec au moins une grandeur mémorisée, délimitant au moins deux domaines, chaque domaine étant associé à une catégorie donnée d'un critère vocal donné, la valeur de chaque grandeur mémorisée étant fonction du ou des paramètre(s) entré(s); > déduire la catégorie à laquelle appartient chaque grandeur du signal vocal entré; > fournir en sortie de module un signal de sortie représentatif de la ou des catégorie(s) déduite(s) au(x)quelle(s) appartien(nen)t respectivement la
ou les grandeur(s) entrée(s).
Ce module seuille automatiquement une grandeur d'entrée selon un paramètre
entré.
La mise en oeuvre de tels modules à la suite de la mise en oeuvre de traitements de signal élémentaires gérés par les modules détaillés plus haut fournissent ainsi en sortie un niveau de qualité du signal vocal selon des modèles ou des critères de qualité donnés. On définira ainsi uncritère de qualité d'un signal vocal donné par un ensemble de modules donnés reliés entre eux selon une combinaison donnée et recevant en entrée au moins un signal vocal et fournissant en sortie un signal représentatif d'un niveau de qualité du signal vocal selon un critère de qualité donné par la combinaison des modules. Deux grandes catégories de critères peuvent être définis: - les critères de qualité vocale du signal vocal d'entrée, qui donnent un niveau de qualité de la voix émise; en référence à la figure 2, cette catégorie comprend les critères suivants: tonicité vocale C6, présence vocale C7, nasalité vocale C9, justesse de voix C12, intonation de voix C13; - les critères de qualité d'une conversation, une conversation mettant en jeu une interaction d'une pluralité de signaux vocaux distinctifs, préférentiellement synchronisés, qui donnent un niveau de qualité de la conversation; en référence à la figure 2, cette catégorie comprend les critères suivants: taux de parole d'un des signaux vocaux de la conversation Cl, taux de silences durables communs à des signaux vocaux de la conversation C2, nombre de silences durables dans un des signaux de la conversation C3, nombre de chevauchements de niveau de signal entre des signaux vocaux de la conversation C4, débit de parole d'un des signaux vocaux de la
conversation C5.
Ces différents critères sont décrits un à un dans la suite de ce document: - critère taux de parole Cl: en référence à la figure 3, il comprend les modules M2, M3 et M4A (le module M4A donnant un taux d'occupation temporelle d'un signal temporel dans un niveau de parole fixé, configurés de sorte qu'un signal vocal), après avoir été traité par un module Ml, soit reçu à l'entrée du module M2 et à la première entrée du module M3, les signaux de sortie des modules M2 et M3 soient alors respectivement transmis aux deuxièmes entrées des modules M3 et M4A, le signal de
sortie du module M4A étant alors représentatif du taux de parole dans le signal vocal.
Ce critère permet donc d'obtenir le temps de parole du locuteur rapporté à une
durée de signal.
- critère taux de silences durables communs C2: en référence à la figure 5, il comprend un nombre n de modules M2, n modules M3 et un module M4B à n entrées (le module M4B donnant un taux d'occupation temporelle simultanée de n signaux temporels dans un niveau de silence fixé), configurés de sorte qu'un nombre n de signaux vocaux (n est, dans l'exemple illustré sur la figure 2, égal à 2 et les signaux sont référencés Pl et P2) après avoir été traités chacun par un module MI, soient reçus, pour chacun, à une entrée respective d'un module M2 et à une première entrée d'un module M3 de sorte que chaque module M2 ou M3 ne reçoive qu'un seul signal vocal, le signal de sortie de chaque module M2 soit alors transmis à la deuxième entrée du module M3 ayant reçu le même signal vocal à sa première entrée que celui reçu par ce module M2, chacun des signaux de sortie des modules M3 soient alors respectivement transmis à une seule entrée du module M4B de sorte que chaque entrée du module M4B ne reçoive qu'un seul signal, le signal de sortie du module M4B étant alors représentatif du taux de
silences durables communs aux n signaux vocaux.
Ce critère permet d'obtenir notamment le taux de silence durables communs à n
interlocuteurs en conversation.
- critère nombre de silences durables d'un signal vocal donné C3: en référence à la figure 7, il comprend deux modules M2, deux modules M3 et un module M4C à deux entrées (le module M4C donnant un nombre d'intervalles temporels durables dans un niveau de silence fixé d'un signal temporel), configurés de sorte que deux signaux vocaux, après avoir été traités chacun par un module Ml, soient reçus chacun à une entrée respective d'un module M2 et à une première entrée d'un module M3 de sorte que chaque module M2 ou M3 ne reçoive qu'un seul signal vocal, le signal de sortie de chaque module M2 soit alors transmis à la deuxième entrée du module M3 ayant reçu le même signal vocal à sa première entrée que celui reçu par ce module M2, chacun des signaux de sortie des modules M3 soient alors respectivement transmis à une seule entrée du module M4C de sorte que chaque entrée du module M4C ne reçoive qu'un seul signal, le signal de sortie du module M4C étant alors représentatif du nombre de
silences durables d'un des deux signaux vocaux reçus.
Le nombre en sortie de critère représente donc la quantité d'intervalles temporels correspondant à un silence d'un premier interlocuteur après une intervention du
deuxième interlocuteur.
- critère nombre d'interruptions de parole d'un premier signal C4: en référence à la figure 9, il comprend deux modules M2, deux modules M3 et un module M4D à deux entrées (le module M4D donnant un nombre d'intervalles temporels pour lesquels deux signaux ont respectivement un même niveau de parole fixé), configurés de sorte que deux signaux vocaux, après avoir été traités chacun par un module Ml, soient reçus chacun à une entrée respective d'un module M2 et à une première entrée d'un module M3 de sorte que chaque module M2 ou M3 ne reçoive qu'un seul signal vocal, le signal de sortie de chaque module M2 soit alors transmis à la deuxième entrée du module M3 ayant reçu le même signal vocal à sa première entrée que celui reçu par ce module M2, chacun des signaux de sortie des modules M3 soient alors respectivement transmis à une seule entrée du module M4D de sorte que chaque entrée du module M4D ne reçoive qu'un seul signal, le signal de sortie du module M4D étant alors représentatif du nombre
d'interruptions de parole d'un des deux signaux vocaux reçus.
Le nombre en sortie de critère représente donc la quantité d'intervalles temporels correspondant à une interruption d'un premier interlocuteur avec un deuxième interlocuteur. - critère débit de parole C5: en référence à la figure 11, il comprend les modules M2, M3 et M5 configurés de sorte qu'un signal vocal, après avoir été traité par un module MI, soit reçu à l'entrée du module M2 et aux premières entrées respectives des modules M3 et M5, les signaux de sortie des modules M2 et M3 soient alors respectivement transmis aux deuxièmes entrées des modules M3 et MS, le signal de sortie du module M5 étant alors représentatif de niveau de débit de parole dans le signal vocal. Ce critère permet donc de mesurer le débit de parole d'un locuteur. Ce débit est exprimé dans une unité proportionnelle au nombre de phonèmes prononcés par le locuteur. - critère tonicité vocale C6: en référence à la figure 13, il comprend les modules M2, M3 et M9 configurés de sorte qu'un signal vocal, après avoir été traité par un module MI, soit reçu à l'entrée du module M2 et aux premières entrées respectives des modules M3 et M9, les signaux de sortie des modules M2 et M3 soient alors respectivement transmis aux deuxièmes entrées des modules M3 et M9, le signal de sortie du module M9 étant alors représentatif de niveau de tonicité vocale dans le signal vocal. Ce critère mesure la tonicité de la voix d'un locuteur, inversement
proportionnelle à la fatigue vocale.
La tonicité vocale est ici directement liée à l'énergie dans la voix, elle peut aussi
être représentative d'un niveau de souffle dans la voix.
Un souffle est reconnu si la voix n'est pas pure, c'est à dire si elle dépense aussi de l'énergie aussi à générer du bruit de fond, en plus de créer les sons souhaités. C'est notamment en comparant le rapport de l'énergie du son vocal (c'est à dire l'énergie des fréquences harmoniques) avec les fréquences de son non vocales (c'est à dire l'énergie
des fréquences non harmoniques) que l'on arrive à trouver un niveau de tonicité vocale.
Pour diagnostiquer ce niveau, il faut aussi tenir compte du, son, telle qu'une voyelle émise, une voyelle émise particulière générant naturellement plus ou moins de
fréquences non harmoniques qu'une autre voyelle particulière.
Une façon de réaliser un tel diagnostic sera discutée plus loin dans ce document.
- critère présence vocale C7: en référence à la figure 15, il comprend les modules M2, M3, M7, M8 et Ml1, le module Mll étant un module M20 apte à classer un signal vocal par niveau selon un modèle de présence vocale donné, configurés de sorte qu'un signal vocal, après avoir été traité par un module MI, soit reçu à l'entrée du module M2 et aux premières entrées respectives des modules M3, M7, M8 et MI1, les signaux de sortie des modules M2, M3, M7 et M8 soient alors transmis respectivement aux deuxièmes entrées des modules M3, M7, M8 et MlI, le signal de sortie du module
M20 étant alors représentatif de niveau de présence vocale dans le signal vocal.
Ce critère mesure la présence vocale d'un locuteur, c'est à dire une capacité
d'une voix à retenir l'attention de son auditoire.
La présence vocale est notamment déterminée par la détermination de graves
dans le signal.
- critère modèle de voix donné: il comprend les modules M2, M3, M7, M8 et M20, le module M20 étant apte à classer un signal par niveau selon un modèle de voix donné, configurés de sorte qu'un signal vocal, après avoir été traité par un module Ml, soit reçu à l'entrée du module M2 et aux premières entrées respectives des modules M3, M7, M8 et M20, les signaux de sortie des modules M2, M3, M7 et M8 soient alors transmis respectivement aux deuxièmes entrées des modules M3, M7, M8 et M20, le signal de sortie du module M20 étant alors représentatif de niveau du modèle de voix
dans le signal vocal.
Le modèle de voix donné est avantageusement une nasalité vocale.
Nous obtenons ainsi le critère suivant: > critère de nasalité vocale C9, en référence à la figure 17, comprenant un module Ml 3 qui est le module M20 apte à classer un signal par niveau
de nasalité vocale.
Ce critère mesure le niveau de nasalité vocale d'un locuteur.
- critère justesse de voix C12: en référence à la figure 19, il comprend les modules M2, M3, M7, M16, configurés de sorte qu'un signal vocal, après avoir été traité par un module MI, soit reçu à l'entrée du module M2 et aux premières entrées respectives des modules M3, M7 et M16, les signaux de sortie des modules M2 et M3 soient alors respectivement transmis aux deuxièmes entrées des modules M3 et M7, le signal de sortie du module M7 est alors transmis à l'entrée du module M16, le signal de sortie du module M16 étant alors représentatif d'un écart de hauteur de voix dans le
signal vocal par rapport à un modèle de hauteur de voix mémorisé.
Ce critère mesure la justesse de la voix par rapport à un modèle fixé.
- critère intonation de voix C13: en référence à la figure 21, il comprend les modules M2, M3, M7, M17, configurés de sorte qu'un signal vocal, après avoir été traité par un module Ml, soit reçu à l'entrée du module M2 et aux premières entrées respectives des modules M3, M7 et M17, les signaux de sortie des modules M2 et M3 soient alors respectivement transmis aux deuxièmes entrées des modules M3 et M7, le signal de sortie du module M7 est alors transmis à l'entrée du module M17, le signal de sortie du module M17 étant alors représentatif d'un écart d'intonation dans le signal
vocal par rapport à un modèle d'intonation mémorisé.
Ce critère mesure la distance entre l'intonation de la voix du locuteur et celle
d'un modèle fixé.
Il est à noter que la mise en oeuvre des critères précédemment décrits CI, C2, C3, C4, C5, C6, C7, C9, C12 et C13 comprennent chacun au moins un traitement du
signal initial.
Chacun de ces traitements de signaux initiaux est géré par une combinaison des deux modules M2 et M3 configurés de sorte qu'au moins un signal vocal traité par le critère considéré soit respectivement reçu à l'entrée du module M2 et à la première entrée du module M3 et que le signal de sortie du module M2 soit alors transmis à la
deuxième entrée du module M3.
Le signal de sortie du module M3 représente alors un signal' représentatif d'un découpage du signal vocal en zones temporelles respectives de silence et de parole qui
est alors transmis aux autres modules du critère considéré.
Un critère qui est amputé de la combinaison de ces deux modules fait aussi l'objet de la présente invention à condition qu'un traitement du signal vocal mis en oeuvre en amont du critère considéré permette de fournir un signal représentatif d'un découpage du signal vocal en zones temporelles respectives de silence et de parole de
façon sensiblement identique à celle de ladite combinaison des modules M2 et M3.
Ces critères, et d'autres, peuvent être mis en oeuvre individuellement afin d'obtenir un niveau de qualité d'un signal vocal ou d'une conversation vocale selon le
critère considéré.
Ces critères, et d'autres, peuvent être mis en oeuvre conjointement afin d'obtenir différents niveaux de qualité d'un signal vocal ou d'une conversation vocale selon les critères considérés, et avoir ainsi au final un ensemble de paramètres définissant une
certaine qualité vocale.
De façon plus large, le niveau de qualité d'un signal ou d'une conversation vocale selon un ou plusieurs critères de qualité peut être mesuré en l'évaluant dans le temps, et voir ainsi la progression de la qualité d'un signal ou d'une conversation vocale
au cours du temps selon les critères de qualité considérés.
Dans un procédé préférentiel selon l'invention, on ajoute, après la mise en oeuvre d'un critère donné à partir d'un ou de plusieurs signaux vocaux en entrée, une étape supplémentaire au cours de laquelle on met en oeuvre un module donné ou une combinaison donnée de modules donnés supplémentaires comprenant en entrée au moins le signal fourni représentatif du niveau de qualité du signal vocal selon le critère de qualité donné et fournissant en sortie un signal représentatif d'un diagnostic associé
au niveau de qualité selon le critère de qualité donné représenté dans le signal d'entrée.
Par cette étape supplémentaire, on peut ainsi diagnostiquer automatiquement un état vocal, selon le critère de qualité considéré, à partir du niveau de qualité du signal vocal, afin de savoir si le niveau est par exemple bon, moyen ou mauvais concernant le
critère de qualité considéré.
Dans un mode de mise en oeuvre de modules particulier, un diagnostic est trouvé après la mise en oeuvre d'une transmission d'au moins un signal de sortie du critère de qualité considéré d'un signal vocal vers l'entrée d'un module M6, dont les catégories mémorisées sont des diagnostics associés respectivement à des intervalles de niveau de qualité selon le critère de qualité considéré, le signal de sortie du module M6 est alors représentatif d'un diagnostic pour lequel l'intervalle de niveau qui lui est associé
comprend le niveau de qualité du signal vocal.
A partir de la comparaison du niveau de qualité du signal avec les niveaux mémorisés, délimitant les intervalles de niveaux mémorisés, on est en mesure, au final, de quantifier une qualité ou un état du signal vocal selon une échelle de qualités ou
d'états définie par ces diagnostics et concernant le critère de qualité considéré.
En référence aux figures 4, 6, 8, 10, 12, 16, 18, 20, 22, on peut ainsi avoir un diagnostic sur la qualité du signal vocal concernant les critères respectifs de taux de parole Cl, taux de silences durables communs C2, nombre de silences durables d'un signal vocal donné C3, nombre d'interruptions de parole d'un premier signal C4, débit de parole C5, présence vocale C7, de nasalité vocale C9, justesse de voix C12,
intonation de voix C13.
Dans un autre mode de mise en oeuvre de modules particulier, en référence à la figure 14, un diagnostic de tonicité vocale est trouvé après la mise en oeuvre d'une transmission de signaux fournis par le critère tonicité vocale C6 vers un ensemble de modules constitué des modules M7, M8 et MIO, les catégories mémorisées et utilisées lors de l'étape de comparaison au cours de la mise en oeuvre du module MIO sont des l1 diagnostics délimités par des grandeurs représentatives de niveaux donnés selon le critère tonicité vocale C6, chaque grandeur étant fonction d'une catégorie de son d'entrée du module, le critère de tonicité vocale C6 et les modules M7, M8 et Ml 0 étant configurés de sorte que le signal vocal soit en outre transmis aux premières entrées respectives des modules M7 et M8, le signal de sortie du module M3 du critère tonicité vocale C6 soit en outre transmis à la deuxième entrée du module M7, le signal de sortie du module M7 soit alors transmis à la deuxième entrée du module M8, les signaux de sortie du module M8 et du module M9 du critère tonicité vocale C6 soient alors respectivement transmis aux deuxième et première entrées du module M10, le signal de sortie du module M10 étant alors représentatif d'un diagnostic associé au niveau de
tonicité vocale d'au moins une partie du signal vocal.
Pour réaliser un diagnostic de surveillance de la tonicité vocale, un seuillage de la tonicité vocale est ainsi effectué, avec des niveaux de seuils dépendant d'un son, telle
une voyelle, prononcé.
On peut ainsi statuer sur le caractère tonique, ou au contraire fatigué, d'une voix.
Un signal de diagnostic d'un critère de qualité d'un signal vocal peut alors être stocké en mémoire et/ou transmis à au moins un moyen d'affichage apte à interpréter le niveau de signal de diagnostic vocal de sorte à afficher de manière visible le niveau du diagnostic. De même un signal de niveau de qualité d'au moins une partie d'au moins un signal vocal selon un critère de qualité donné peut être stocké en mémoire et/ou transmis à au moins un moyen d'affichage apte à interpréter le niveau du signal de sorte à afficher de manière visible le niveau de qualité selon le critère de qualité auquel
appartient au moins la partie du signal vocal.
On peut aussi et de la même manière suivre une évolution temporelle du niveau de qualité d'au moins une partie d'au moins un signal vocal selon un critère de qualité donné. Dans une configuration plus complète, on peut afficher l'évolution temporelle du niveau de qualité du signal vocal selon un ou plusieurs critères de qualité donnés en ayant également une signalisation du diagnostic associé, avec par exemple des niveaux
de gris associés respectivement à différents diagnostics.
Dans cette configuration o la qualité du signal est définie par un certain nombre de critères, on peut alors envisager de choisir un ou des traitements particuliers adaptés pour corriger des défauts dans la voix analysée mis en évidence par des diagnostics fournis. Un procédé de formation à la voix est donné ici, en référence à la figure 23, dans lequel, après une émission d'un signal vocal en 10 et sa numérisation effectuée par un module MO, un signal représentatif d'un diagnostic d'un critère donné est fourni suite à la mise en oeuvre d'un module Ml, du critère considéré ici C et d'un module de
diagnostic selon le critère donné M6.
Dans cet exemple, le module M6 possède 3 types de diagnostic, comme par
exemple: bon en 1, moyen en 2 et mauvais en 3.
Selon le résultat du diagnostic, la personne qui a émis le signal vocal peut être
orientée en O1 vers des exercices adaptés.
Ici, des travaux sensitifs Tla, T2a ou T3a suivis respectivement de travaux vocaux Tlb, T2b, T3b représentent des exercices prévus selon que le diagnostic émis
donne respectivement un bon, un moyen ou un mauvais résultat, par exemple.
Cette orientation O1 peut, dans un cas de figure particulier, être réalisée automatiquement en associant à chaque diagnostic mémorisé au moins une proposition d'exercices vocaux adaptés au diagnostic mémorisée. Le signal représentatif du diagnostic fourni à partir d'au moins une partie d'au moins un signal vocal s'accompagne alors de l'émission d'un signal représentatif de la proposition d'exercices
vocaux associée au diagnostic fourni.
Dans ce dernier cas, le signal représentatif de la proposition d'exercices vocaux associée au diagnostic fourni est transmis à au moins un moyen d'affichage apte à interpréter le niveau du signal de sorte à afficher de manière visible la proposition
d'exercices vocaux associée au diagnostic fourni.
Les progrès sur la voix réalisés au cours des exercices sur le critère de qualité considéré peuvent alors être appliqués en A achevant ainsi en 20 le procédé de formation. De telles analyses vocales peuvent être mises en oeuvre de façon ponctuelle ou régulière, permettant ainsi à des personnes de pouvoir tester, travailler ou maîtriser
d'avantage leur voix.
Des diagnostics en forme d'alarmes en temps réel peuvent avantageusement être réalisés, afin que les personnes exerçant leur voix puissent être informées en différé ou instantanément d'un défaut éventuel dans leur voix, et tenter de corriger celui-ci après
l'exercice ou en temps réel.
On peut en particulier surveiller, tout au long de la journée, la qualité vocale d'un ensemble de personnes. La qualité vocale est mesurée par diagnostic sur des empreintes vocales prélevées à un rythme adapté sur chaque personne. En plus du diagnostic détaillé sur chaque critère, une alarme multi-critères peut être calculée par
1 5 addition des alarmes mono-critère.
De la même façon les analyses et/ou les exercices vocaux proposés peuvent être réalisés localement ou à distance en utilisant des moyens de communication à distance, tels internet, le minitel, le téléphone, etc. Des exemples d'exercices adaptés à des diagnostics émis en sortie d'analyses vocales sont exposés ci-dessous:
Exemple 1: Tonicité vocale.
On évoque ici la notion de fatigue vocale. En effet, une voix fatiguée par un emploi trop intensif, des cris répétés, une consommation intensive de tabac, un choc psychologique ou un état de fatigue généralisé va notamment augmenter la présence de souffle dans le signal vocal. La voix n'est pas pure. C'est notamment cette quantité de souffle plus ou moins importante qui va entraîner plusieurs types de médication suivant les diagnostics suivants:
- Tonicité moyenne: fatigue légère.
Un exercice connectant mieux le souffle et le son (utilisation d'une voyelle type
" i ") suffira à corriger ce défaut.
l
- Tonicité faible: fatigue réelle.
Exercices faible volume sonore, privilégiant les voyelles incisives (type " i ") sur
des intervalles et une tessiture réduits (peu ou pas d'exercices de virtuosité).
- Tonicité très faible: fatigue pathologique.
Le fait de continuer à parler ou à chanter entraînerait une aphonie, les cordes
vocales doivent être mises au repos.
Exemple 2: Présence vocale.
On évoque ici la notion de présence des graves dans la voix. Quelque soit le registre vocal de la personne, les résonances de poitrines sont présentes. A contrario, une absence de résonance grave dans la voix donne une impression de voix fluette, " verte ". Plusieurs médications sont " prescrites " suivant les diagnostics suivants:
- Peu de présence vocale.
Un travail spécifique de décontraction du larynx, de la langue, dans un registre dit de "poitrine " favorisera la venue de ces résonances graves. Puis, il s'agira de
maintenir la présence de ces résonances graves dans le reste du registre vocal.
- Présence vocale moyenne.
Les exercices privilégieront le maintien de cette présence sur tout le registre et
son enrichissement par la surveillance de la tenue du corps pendant les exercices.
- Présence vocale forte.
Tout d'abord, vérifier que la voix n'est pas " poussée " ni trop " poitrinnante "
au détriment de l'" accroche " du son dans l'ensemble de la tête.
Exemple 3: Débit de parole
Le critère évoque la rapidité d'élocution.
Plusieurs médications sont " prescrites " suivant les diagnostics suivants:
- Débit trop lent.
L'auditoire/l'interlocuteur est lassé et s'énerve. Des exercices de lecture à partir de phrases ou bout de phrases simples mais répétés de plus en plus vite suivant un
échauffement de la voix parviendront à faire augmenter le débit d'élocution.
- Débit trop rapide.
Il est proposé à l'apprenant de s'enregistrer et de s'écouter. Il lui est proposé de
lire un texte selon un rythme imposé (type métronome ou karaoké).
- Débit normal.
Veiller à ne pas garder un débit constant qui pourrait lasser, et vérifier que
l'apprenant peu ralentir ou accélérer son débit à volonté.

Claims (41)

REVENDICATIONS
1. Procédé d'analyse d'au moins un signal vocal, caractérisé en ce qu'il est mis en oeuvre par des traitements élémentaires de signal gérés respectivement par des modules, chaque module étant apte à transformer au moins un signal d'entrée de module en un signal de sortie de module représentatif d'une caractéristique donnée du signal d'entrée de module, et en ce qu'il comprend la mise en oeuvre par un moyen de traitement du signal d'un module donné ou d'une combinaison donnée de modules donnés recevant en entrée au moins un signal vocal et fournissant en sortie un signal représentatif d'au
moins un niveau de qualité du signal vocal selon un critère de qualité donné.
2. Procédé d'analyse d'au moins un signal vocal selon la revendication précédente,
caractérisé en ce qu'au moins un critère de qualité fourni est un critère de qualité vocale.
3. Procédé d'analyse d'au moins un signal vocal selon la revendication précédente, caractérisé en ce qu'au moins un critère de qualité vocale est compris dans la liste suivante: tonicité vocale, présence vocale, nasalité vocale, justesse de voix, intonation
de voix.
4. Procédé d'analyse d'au moins un signal vocal selon l'une des revendications
précédentes, caractérisé en ce qu'au moins un critère de qualité fourni est un critère de qualité de conversation, une conversation mettant en jeu une interaction d'une pluralité
de signaux vocaux distinctifs.
5. Procédé d'analyse d'au moins un signal vocal selon la revendication précédente, caractérisé en ce que les signaux vocaux de la pluralité des signaux vocaux de la
conversation sont synchronisés.
6. Procédé d'analyse d'au moins un signal vocal selon l'une des deux
revendications précédentes, caractérisé en ce qu'au moins un critère de qualité de
conversation est compris dans la liste suivante: taux de parole d'un des signaux vocaux de la conversation, taux de silences durables communs à des signaux vocaux de la conversation, nombre de silences durables dans un des signaux de la conversation, nombre de chevauchements de niveau de signal entre des signaux vocaux de la
conversation, débit de parole d'un des signaux vocaux de la conversation.
7. Procédé d'analyse d'au moins un signal vocal selon l'une des revendications
précédentes, caractérisé en ce qu'au moins un des modules aptes à gérer des traitements élémentaires de signal et mis en oeuvre par le moyen de traitement de signal, appartient à la liste suivante: - module d'estimation de niveau de bruit de fond et de parole, encore noté M2, dont la mise en oeuvre comprend les étapes consistant à: > recevoir en entrée de module un signal vocal; > fournir en sortie de module un signal représentatif d'au moins un seuil maximum de niveau de bruit de fond et un seuil minimum de niveau de parole du signal vocal reçu en entrée de module; - module de segmentation de zones silence et de parole, encore noté M3, dont la mise en oeuvre comprend les étapes consistant à: > recevoir en une première entrée de module un signal vocal et en une deuxième entrée de module un signal représentatif de seuils respectifs de bruit de fond et de parole d'un signal vocal; > fournir en sortie de module un signal de sortie représentatif d'un découpage du signal vocal entré en zones temporelles respectives de silence et de parole, le silence étant défini au moins en partie par le bruit de fond, le signal de sortie ayant un niveau de signal donné pour les zones de silence et un autre niveau de signal donné pour les zones de paroles; - module de taux d'occupation de niveau donné, encore noté M4A, dont la mise en oeuvre comprend les étapes consistant à: > recevoir en entrée de module un signal temporel découpé en amplitude en au moins deux niveaux; > fournir en sortie de module un signal de sortie représentatif du taux d'occupation temporelle du signal temporel dans un niveau de signal donné; - module de taux d'occupation commune de niveau donné, encore noté M4B, dont la mise en oeuvre comprend les étapes consistant à: > recevoir en au moins deux entrées de module au moins deux signaux temporels respectifs, chacun découpé en amplitude sur au moins deux niveaux; > fournir en sortie de module un signal de sortie représentatif du taux d'occupation temporelle simultanée des signaux temporels dans un niveau de signal donné; - module de nombre d'intervalles durables de niveau donné, encore noté M4C, dont la mise en oeuvre comprend les étapes consistant à: > recevoir en au moins deux entrées de module au moins deux signaux temporels respectifs, chacun découpé en amplitude en au moins deux niveaux; > fournir en sortie de module un signal de sortie représentatif du nombre d'intervalles temporels durables dans un niveau de signal donné d'au moins un signal temporel, un intervalle devenant durable à partir d'une valeur d'intervalle seuil mémorisée, après un intervalle temporel d'au moins un autre signal temporel dans un autre niveau que le niveau donné; - module de nombre de chevauchements de niveau donné, encore noté M4D, dont la mise en oeuvre comprend les étapes consistant à: > recevoir en au moins deux entrées de module au moins deux signaux temporels respectifs, chacun découpé en amplitude en au moins deux niveaux > fournir en sortie de module un signal de sortie représentatif du nombre d'intervalles temporels pour lesquels au moins deux signaux ont respectivement un même niveau de signal donné, au moins un de ces signaux n'ayant pas ce niveau donné après l'intervalle, au moins un autre de ces signaux n'ayant pas ce niveau donné avant l'intervalle; - module de segmentation des zones stationnaires, encore noté M5, dont la mise en oeuvre comprend les étapes consistant à: > recevoir en une première entrée de module un signal vocal et en une deuxième entrée de module un signal représentatif d'un découpage d'un signal vocal en zones temporelles respectives de silence et de parole; > fournir en sortie de module un signal de sortie représentatif d'un découpage du signal vocal entré en des zones stationnaires et non stationnaires, une zone du signal vocal est stationnaire si la partie du signal qu'elle contient est suffisamment distincte des parties du signal adjacentes à la zone, et notamment s'il existe une rupture suffisante entre des caractéristiques du signal contenu dans la zone en entrée et/ou en sortie de zone et des caractéristiques des parties du signal adjacentes à la zone, une telle rupture est suffisante si elle est plus importante qu'une valeur de rupture seuil mémorisée, le signal de sortie étant constitué du signal vocal d'entrée avec un niveau de signal donné remplaçant les zones de silence et les zones non stationnaires; - module de hauteur de son, encore noté M7, dont la mise en oeuvre comprend les étapes consistant à: > recevoir en une première entrée de module un signal vocal et en une deuxième entrée de module un signal représentatif d'un découpage d'un signal vocal en zones temporelles respectives de silence et de parole; > fournir en sortie de module un signal de sortie représentatif des fréquences fondamentales locales respectives de chaque zone de parole du signal vocal; - module de distribution harmonique de l'énergie, encore noté M9, dont la mise en oeuvre comprend les étapes consistant à: > recevoir en une première entrée de module un signal vocal et en une deuxième entrée de module un signal représentatif d'un découpage d'un signal vocal en zones temporelles respectives de silence et de parole; > fournir en sortie de module un signal de sortie représentatif d'une distribution d'énergie selon les harmoniques des zones de parole du signal vocal; - module de volume sonore, encore noté Ml 8, dont la mise en oeuvre comprend les étapes consistant à: > recevoir en entrée de module un signal vocal; > fournir en sortie de module un signal de sortie représentatif d'une
distribution temporelle du volume sonore du signal vocal.
8. Procédé d'analyse d'au moins un signal vocal selon l'une des revendications
précédentes, caractérisé en ce qu'il comprend la mise en oeuvre par le moyen de traitement du signal d'un module donné ou d'une combinaison donnée de modules donnés comprenant en entrée au moins un signal vocal et/ou un signal après traitement du signal vocal et fournissant en sortie un signal représentatif d'une classification d'au moins une partie du signal vocal dans une catégorie donnée d'un critère vocal donné, selon les étapes suivantes: - réception d'au moins une partie du ou des signaux représentatif(s) d'au moins une grandeur; - comparaison de la grandeur avec au moins une grandeur mémorisée caractéristique d'un seuil de catégorie donné d'au moins un signal vocal selon un critère vocal donné et délimitant au moins deux domaines, chaque domaine étant associé à une catégorie du critère de qualité; - déduction de l'appartenance de la grandeur à une catégorie du critère vocal; - émission d'un signal représentatif de la catégorie du critère de qualité fourni
auquel appartient le signal vocal.
9. Procédé d'analyse d'au moins un signal vocal selon la revendication précédente, caractérisé en ce qu'au moins un module apte à classer au moins une partie d'au moins un signal vocal dans une catégorie d'un critère vocal donné, est compris dans la liste suivante: - module de classification en un son donné, encore noté M8, dont la mise en oeuvre comprend les étapes consistant à: > recevoir en une première entrée de module un signal vocal et en une deuxième entrée de module un signal représentatif d'au moins une fréquence fondamentale locale correspondant respectivement à au moins une zone de parole d'un signal vocal; > comparer le signal vocal et la ou les fréquence(s) fondamentale(s) locales avec des caractéristiques de signaux mémorisées délimitant des domaines, chaque domaine étant associé à une catégorie de son donné; > déduire la ou les catégories de son à laquelle appartien(nen)t respectivement la ou les fréquence(s) fondamentale(s) locale(s) du signal vocal entré; > fournir en sortie de module un signal de sortie représentatif de la catégorie de son déduite pour chaque zone de parole; - module de classification d'une nasalité vocale donnée, encore noté M13, dont la mise en oeuvre comprend les étapes consistant à: > recevoir en une première entrée de module un signal vocal et en une deuxième entrée de module un signal représentatif d'au moins une catégorie de son d'un signal vocal; > comparer le signal vocal entré et la ou les catégorie(s) de son du signal vocal avec au moins une grandeur de signal mémorisée représentant un seuil de niveau, délimitant au moins deux domaines, chaque domaine étant associé à un niveau donné de nasalité vocale; > déduire le ou les niveau(x) au(x)quel(s) appartien(nen)t respectivement la ou les catégorie(s) de son du signal vocal entré; > fournir en sortie de module un signal de sortie représentatif du ou des niveau(x) déduit(s) de nasalité vocale du signal vocal; - module de calcul d'écart de hauteur de voix par rapport à un modèle de hauteur de voix, encore noté M16, dont la mise en oeuvre comprend les étapes consistant à: > recevoir en entrée. de module un signal représentatif d'au moins une fréquence fondamentale d'un signal vocal; > comparer la fréquence fondamentale d'entrée avec un modèle de fréquence fondamentale mémorisé; > déduire l'écart fréquentiel entre les deux fréquences fondamentales; > fournir en sortie de module un signal de sortie représentatif de l'écart fréquentiel déduit entre les deux fréquences fondamentales; - module de calcul d'écart d'intonation de voix par rapport à un modèle d'intonation de voix, encore noté M17, dont la mise en oeuvre comprend les étapes consistant à: > recevoir en entrée de module un signal représentatif d'une évolution temporelle d'au moins une fréquence fondamentale d'un signal vocal; > comparer l'évolution temporelle de la fréquence fondamentale d'entrée avec un modèle d'intonation mémorisé; > déduire l'écart entre les deux intonations; > fournir en sortie de module un signal de sortie représentatif de l'écart déduit entre les deux intonations; - module de classification d'une grandeur d'un signal vocal, encore noté M6, dont la mise en oeuvre comprend les étapes consistant à: > recevoir en entrée de module un signal représentatif d'au moins une grandeur d'un signal vocal; > comparer la grandeur entrée avec au moins une grandeur mémorisée délimitant au moins deux domaines, chaque domaine étant associé à une catégorie donnée d'un critère vocal donné; > déduire la catégorie à laquelle appartient chaque grandeur du signal vocal entré; > fournir en sortie de module un signal de sortie représentatif de la ou des catégorie(s) déduite(s) au(x)quelle(s) appartien(nen)t respectivement la ou les grandeur(s) entrée(s); - module de classification d'une grandeur d'un signal vocal selon une catégorie d'entrée, encore noté M10, dont la mise en oeuvre comprend les étapes consistant à: > recevoir en une première entrée de module un signal représentatif d'au moins une grandeur d'un signal vocal et en une deuxième entrée de module un signal représentatif d'au moins un paramètre d'un signal vocal; > comparer la grandeur entrée avec au moins une grandeur mémorisée, délimitant au moins deux domaines, chaque domaine étant associé à une catégorie donnée d'un critère vocal donné, la valeurs de chaque grandeur mémorisée étant fonction du ou des paramètre(s) entré(s); > déduire la catégorie à laquelle appartient chaque grandeur du signal vocal entré; > fournir en sortie de module un signal de sortie représentatif de la ou des catégorie(s) déduite(s) au(x)quelle(s) appartien(nen)t respectivement la ou les grandeur(s) entrée(s);
10. Procédé d'analyse d'au moins un signal vocal selon l'une des revendications
précédentes, caractérisé en ce qu'il comprend la mise en oeuvre par le moyen de traitement du signal d'un critère de qualité d'un signal vocal mémorisé, un critère de qualité d'un signal vocal donné étant défini par un ensemble de modules donnés reliés entre eux selon une combinaison donnée et recevant en entrée au moins un signal vocal et fournissant en sortie un signal représentatif d'un niveau de qualité du signal vocal
selon un critère de qualité donné par la combinaison des modules.
11. Procédé d'analyse d'au moins un signal vocal selon l'une des revendications
précédentes combinée avec les revendications 7 et 10, caractérisé en ce qu'il comprend
la mise en oeuvre par le moyen de traitement du signal d'un critère taux de parole (CI) d'un signal vocal, le critère taux de parole (CI) comprenant le module M4A, le module M4A donnant un taux d'occupation temporelle du signal temporel dans un niveau de parole fixé, configuré de sorte qu'un signal représentatif d'un découpage d'un signal vocal en zones temporelles respectives de silence et de parole soit reçu à l'entrée du module M4A, le signal de sortie du module M4A étant alors représentatif du taux de
parole dans le signal vocal.
12. Procédé d'analyse d'au moins un signal vocal selon l'une des revendications
précédentes combinée avec les revendications 7 et 10, caractérisé en ce qu'il comprend
la mise en oeuvre par le moyen de traitement du signal d'un critère taux de silences durables communs (C2) d'un nombre n de signaux vocaux, le critère taux de silences durables communs (C2) comprenant un module M4B à n entrées, le module M4B donnant un taux d'occupation temporelle simultanée de n signaux temporels dans un niveau de silence fixé, configuré de sorte que n signaux représentatifs respectivement de n découpages respectifs des n signaux vocaux en zones temporelles respectives de silence et de parole soit reçu à l'entrée du module M4B de sorte que chaque entrée du module M4B ne reçoive qu'un seul signal, le signal de sortie du module M4B étant
alors représentatif du taux de silences durables communs aux n signaux vocaux.
13. Procédé d'analyse d'au moins un signal vocal selon l'une des revendications
précédentes combinée avec les revendications 7 et 10, caractérisé en ce qu'il comprend
la mise en oeuvre par le moyen de traitement du signal d'un critère nombre de silences durables d'un signal vocal donné (C3) de deux signaux vocaux, le critère nombre de silences durables d'un signal vocal donné (C3) comprenant un module M4C à deux entrées, le module M4C donnant un nombre d'intervalles temporels durables dans un niveau de silence fixé d'un des signaux temporels, configuré de sorte que deux signaux représentatifs respectivement de deux découpages respectifs des deux signaux vocaux en zones temporelles respectives de silence et de parole soit reçu à l'entrée du module M4C de sorte que chaque entrée du module M4C ne reçoive qu'un seul signal, le signal de sortie du module M4C étant alors représentatif du nombre de silences durables d'un
des deux signaux vocaux reçus.
14. Procédé d'analyse d'au moins un signal vocal selon l'une des revendications
précédentes combinée avec les revendications 7 et 10, caractérisé en ce qu'il comprend
la mise en oeuvre par le moyen de traitement du signal d'un critère nombre d'interruptions de parole d'un premier signal (C4) de deux signaux vocaux, le critère d'interruptions de parole d'un premier signal (C4) comprenant un module M4D à deux entrées, le module M4D donnant un nombre d'intervalles temporels pour lesquels deux signaux ont respectivement un même niveau de parole fixé, configuré de sorte que deux signaux représentatifs respectivement de deux découpages respectifs des deux signaux vocaux en zones temporelles respectives de silence et de parole soit reçu à l'entrée du module M4D de sorte que chaque entrée du module M4D ne reçoive qu'un seul signal, le signal de sortie du module M4D étant alors représentatif du nombre d'interruptions
de parole d'un des deux signaux vocaux reçus.
15. Procédé d'analyse d'au moins un signal vocal selon l'une des revendications
précédentes combinée avec les revendications 7 et 10, caractérisé en ce qu'il comprend
la mise en oeuvre par le moyen de traitement du signal d'un critère débit de parole (C5) d'un signal vocal, le critère débit de parole (C5) comprenant le module M5 configuré de sorte que le signal vocal soit reçu à la première entrée du module M5 et qu'un signal représentatif d'un découpage du signal vocal en zones temporelles respectives de silence et de parole soit reçu à la deuxième entrée du module M5, le signal de sortie du
module MS étant alors représentatif de niveau de débit de parole dans le signal vocal.
16. Procédé d'analyse d'au moins un signal vocal selon l'une des revendications
précédentes combinée avec les revendications 7 et 10, caractérisé en ce qu'il comprend
la mise en oeuvre par le moyen de traitement du signal d'un critère tonicité vocale (C6) d'un signal vocal, le critère tonicité vocale (C6) comprenant le module M9 configuré de sorte que le signal vocal soit reçu à l'entrée du de la première entrée du module M9 et qu'un signal représentatif d'un découpage du signal vocal en zones temporelles respectives de silence et de parole soit reçu à la deuxième entrée du module M9, le signal de sortie du module M9 étant alors représentatif de niveau de tonicité vocale dans
le signal vocal.
17. Procédé d'analyse d'au moins un signal vocal selon l'une des revendications
précédentes combinée avec les revendications 7,9 et 10, caractérisé en ce qu'il
comprend la mise en oeuvre par le moyen de traitement du signal d'un critère présence vocale (C7) d'un signal vocal, le critère présence vocale (C7) comprenant les modules M7, M8 et M20, le module M20 étant apte à classer un signal vocal par niveau selon un modèle de présence vocale donné, configurés de sorte que le signal vocal soit reçu aux premières entrées respectives des modules M7, M8 et M20, qu'un signal représentatif d'un découpage du signal vocal en zones temporelles respectives de silence et de parole soit reçu à l'entrée du module M7, que les signaux de sortie des modules M7 et M8 soient alors transmis respectivement aux deuxièmes entrées des modules M8 et M20, le signal de sortie du module M20 étant alors représentatif de niveau de présence vocale
dans le signal vocal.
18. Procédé d'analyse d'au moins un signal vocal selon l'une des revendications
précédentes combinée avec les revendications 7,9 et 10, caractérisé en ce qu'il
comprend la mise en oeuvre par le moyen de traitement du signal d'un critère de nasalité vocale (C9) d'un signal vocal, le critère du modèle de voix donné (C9) comprenant les modules M7, M8 et M13, configurés de sorte que le signal vocal soit reçu aux premières entrées respectives des modules M7, M8 et M13, qu'un signal représentatif d'un découpage du signal vocal en zones temporelles respectives de silence et de parole soit reçu à l'entrée du module M7, que les signaux de sortie des modules M7 et M8 soient alors transmis respectivement aux deuxièmes entrées des modules M8 et M13, le signal de sortie du module M13 étant alors représentatif de niveau du modèle de voix dans le
signal vocal.
19. Procédé d'analyse d'au moins un signal vocal selon l'une des revendications
précédentes combinée avec les revendications 7,9 et 10, caractérisé en ce qu'il
comprend la mise en oeuvre par le moyen de traitement du signal d'un critère justesse de voix (C 12) d'un signal vocal, le critère justesse de voix (CI12) comprenant les modules M7 et M16, configurés de sorte que le signal vocal soit reçu aux premières entrées respectives des modules M7 et M16, qu'un signal représentatif d'un découpage du signal vocal en zones temporelles respectives de silence et de parole soit reçu à l'entrée du module M7, que le signal de sortie du module M7 soit alors transmis à l'entrée du module M16, le signal de sortie du module M16 étant alors représentatif d'un écart de hauteur de voix dans le signal vocal par rapport à un modèle de hauteur de voix mémorisé.
20. Procédé d'analyse d'au moins un signal vocal selon l'une des revendications
précédentes combinée avec les revendications 7,9 et 10, caractérisé en ce qu'il
comprend la mise en oeuvre par le moyen de traitement du signal d'un critère intonation de voix (C13) d'un signal vocal, le critère intonation de voix (C13) comprenant les modules M7 et M17, configurés de sorte que le signal vocal soit reçu aux premières entrées respectives des modules M7 et M17, qu'un signal représentatif d'un découpage du signal vocal en zones temporelles respectives de silence et de parole soit reçu à l'entrée du module M7, que le signal de sortie du module M7 soit alors transmis à l'entrée du module M17, le signal de sortie du module M17 étant alors représentatif d'un écart d'intonation dans le signal vocal par rapport à un modèle d'intonation mémorisé.
21. Procédé d'analyse d'au moins un signal vocal selon l'une des revendications
à 20, caractérisé en ce qu'il comprend la mise en oeuvre par le moyen de traitement du signal d'un critère mettant en oeuvre en outre au moins un traitement initial d'un signal vocal, chaque traitement initial étant géré par une combinaison des deux modules M2 et M3 configurés de sorte qu'au moins un signal vocal traité par le critère soit respectivement reçu à l'entrée du module M2 et à la première entrée du module M3, que le signal de sortie du module M2 soit alors transmis à la deuxième entrée du module M3, que le signal de sortie du module M3 représentant un signal représentatif d'un découpage du signal vocal en zones temporelles respectives de silence et de parole soit
alors transmis à d'autre(s) module(s) du critère.
22. Procédé d'analyse d'au moins un signal vocal selon l'une des revendications
précédentes, caractérisé en ce qu'il comprend en outre la mise en oeuvre par le moyen de traitement du signal d'un module donné ou d'une combinaison donnée de modules donnés comprenant en entrée au moins le signal fourni représentatif d'un niveau de qualité du signal vocal selon un critère de qualité donné et fournissant en sortie un signal représentatif d'un diagnostic associé au niveau de qualité selon le critère de
qualité donné représenté dans le signal d'entrée.
23. Procédé d'analyse d'au moins un signal vocal selon la revendication
précédente et l'une des revendications 10 à 15 ou 17 à 20 éventuellement combinée
avec la revendication 21, caractérisé en ce qu'un diagnostic est fourni après la mise en oeuvre par le moyen de traitement du signal d'une transmission d'un signal d'un niveau de qualité d'au moins un signal vocal selon un critère de qualité donnée vers l'entrée d'un module M6, dont les catégories mémorisées sont des diagnostics associés respectivement à des intervalles de niveaux de qualité selon le critère de qualité considéré, le signal de sortie du module M6 est alors représentatif d'un diagnostic pour lequel l'intervalle de niveau qui lui est associé comprend le niveau de qualité du signal vocal.
24. Procédé d'analyse d'au moins un signal vocal selon les revendications 7, 9 et
16 éventuellement combinées avec la revendication 21, caractérisé en ce qu'il comprend en outre la mise en oeuvre, par le moyen de traitement du signal, d'une transmission de signaux fournis par le critère tonicité vocale (C6) vers un ensemble de modules constitué des modules M7, M8 et M10, les catégories mémorisées et utilisées lors de l'étape de comparaison au cours de la mise en oeuvre du module M1O sont des diagnostics délimités par des grandeurs représentatives de niveaux donnés de tonicité vocale, chaque grandeur étant fonction d'une catégorie de son d'entrée du module, le critère de tonicité vocale (C6) et les modules M7, M8 et M10 étant configurés de sorte que le signal vocal soit en outre transmis aux premières entrées respectives des modules M7 et M8, le signal représentatif d'un découpage du signal vocal en zones temporelles respectives de silence et de parole transmis au critère tonicité vocale (C6) soit en outre transmis à la deuxième entrée du module M7, le signal de sortie du module M7 soit alors transmis à la deuxième entrée du module M8, les signaux de sortie du module M8 et du module M9 du critère tonicité vocale (C6) soient alors respectivement transmis aux deuxième et première entrées du module M10, le signal de sortie du module MIO étant alors représentatif d'un diagnostic associé au niveau de tonicité vocale d'au moins
une partie du signal vocal.
25. Procédé d'analyse d'au moins un signal vocal selon l'une des trois
revendications précédentes, caractérisé en ce qu'au moins un signal de diagnostic est
transmis à un moyen de stockage du diagnostic pour y être stocké et/ou est transmis à un moyen d'affichage apte à interpréter le niveau de signal de diagnostic vocal de sorte à
afficher de manière visible le niveau du diagnostic.
26. Procédé d'analyse d'au moins un signal vocal selon la revendication précédente, caractérisé en ce que le signal de diagnostic transmis au moyen d'affichage est susceptible de déclencher un affichage particulièrement visible dans le cas o le signal de diagnostic a un certain niveau de signal, cet affichage particulièrement visible
faisant office d'alarme.
27. Procédé d'analyse d'au moins un signal vocal selon l'une des trois
revendications précédentes, caractérisé en ce qu'au moins un signal de niveau de qualité
d'au moins une partie d'au moins un signal vocal selon un critère dequalité donné est transmis à un moyen de stockage du niveau de qualité d'un signal vocal pour y être stocké et/ou est transmis à un moyen d'affichage apte à interpréter le niveau du signal de sorte à afficher de manière visible le niveau de qualité selon le critère de qualité
auquel appartient le signal vocal.
28. Procédé d'analyse d'au moins un signal vocal selon la revendication précédente, caractérisé en ce que le moyen d'affichage permet de visualiser l'évolution temporelle du niveau de qualité d'au moins une partie d'au moins un signal vocal selon
un critère de qualité donné.
29. Procédé de formation à la maîtrise d'une voix, caractérisé en ce qu'il comprend
un procédé d'analyse d'au moins un signal vocal selon l'une des revendications 1 à 21
combiné avec l'une des revendications 22 à 24, en ce que chaque diagnostic mémorisé
est associé à au moins une proposition d'exercices vocaux adaptés au diagnostic mémorisée, et en ce que le signal représentatif du diagnostic fourni à partir d'au moins une partie d'au moins un signal vocal s'accompagne de l'émission d'un signal
représentatif de la proposition d'exercices vocaux associée au diagnostic fourni.
30. Procédé de formation à la maîtrise d'une voix selon la revendication précédente, caractérisé en ce que le signal représentatif de la proposition d'exercices vocaux associée au diagnostic fourni est transmis à un moyen d'affichage apte à interpréter le niveau du signal de sorte à afficher de manière visible cette proposition
d'exercices vocaux associée au diagnostic fourni.
31. Procédé d'analyse vocale mettant en oeuvre un critère de taux de parole (CI) d'un signal vocal mis en oeuvre par un dispositif de traitement du signal conformément à
un procédé selon les revendications 7 et 10, caractérisé en ce qu'il comprend les
modules M2, M3 et M4A, une entrée de signal apte à recevoir un signal vocal étant reliée à l'entrée du module M2 et à la première entrée du module M3, les sorties des modules M2 et M3 étant respectivement reliées aux deuxièmes entrées des modules M3
et M4A.
32. Procédé d'analyse vocale mettant en oeuvre un critère taux de silences durables communs (C2) d'un signal vocal mis en oeuvre par un dispositif de traitement du signal
conformément à un procédé selon les revendications 7 et 10, caractérisé en ce qu'il
comprend n modules M2, n modules M3 et un module M4B à n entrées, n entrées de signal aptes à recevoir chacune un signal vocal étant reliées chacune à une entrée respective d'un module M2 et à une première entrée d'un module M3 de sorte que chaque module M2 ou M3 ne puisse recevoir qu'un seul signal vocal, la sortie de chaque module M2 étant reliée à la deuxième entrée du module M3 ayant pu recevoir le même signal vocal à sa première entrée que celui reçu par ce module M2, chacune des sorties des modules M3 étant respectivement reliée à une seule entrée du module M4B
de sorte que chaque entrée du module M4B ne puisse recevoir qu'un seul signal.
33. Procédé d'analyse vocale mettant en oeuvre un critère nombre de silences durables d'un signal vocal donné (C3) mis en oeuvre par un dispositif de traitement du
signal conformément à un procédé selon les revendications 7 et 10, caractérisé en ce
qu'il comprend deux modules M2, deux modules M3 et un module M4C à deux entrées, deux entrées de signal aptes à recevoir chacune un signal vocal étant reliées chacune à une entrée respective d'un module M2 et à une première entrée d'un module M3 de sorte que chaque module M2 ou M3 ne puisse recevoir qu'un seul signal vocal, la sortie de chaque module M2 étant reliée à la deuxième entrée du module M3 ayant pu recevoir le même signal vocal à sa première entrée que celui reçu par ce module M2, chacune des sorties des modules M3 étant respectivement reliée à une seule entrée du module M4C de sorte que chaque entrée du module M4C ne puisse recevoir qu'un seul signal vocal.
34. Procédé d'analyse vocale mettant en oeuvre un critère nombre d'interruptions de parole d'un premier signal (C4) mis en oeuvre par un dispositif de traitement du
signal conformément à un procédé selon les revendications 7 et 10, caractérisé en ce
qu'il comprend deux modules M2, deux modules M3 et un module M4D à deux entrées, deux entrées de signal aptes à recevoir chacune un signal vocal étant reliées chacune à une entrée respective d'un module M2 et à une première entrée d'un module M3 de sorte que chaque module M2 ou M3 ne puisse recevoir qu'un seul signal vocal, la sortie de chaque module M2 étant reliée à la deuxième entrée du module M3 ayant pu recevoir le même signal vocal à sa première entrée que celui reçu par ce module M2, chacune des sorties des modules M3 étant respectivement reliée à une seule entrée du module
M4D de sorte que chaque entrée du module M4D ne puisse recevoir qu'un seul signal.
35. Procédé d'analyse vocale mettant en oeuvre un critère nombre d'interruptions débit de parole (C5) mis en oeuvre par un dispositif de traitement du signal
conformément à un procédé selon les revendications 7 et 10, caractérisé en ce qu'il
comprend les modules M2, M3 et M5, une entrée de signal apte à recevoir un signal vocal étant reliée à l'entrée du module M2 et aux premières entrées respectives des modules M3 et M5, les sorties des modules M2 et M3 étant respectivement reliées aux
deuxièmes entrées des modules M3 et M5.
36. Procédé d'analyse vocale mettant en oeuvre un critère tonicité vocale (C6) mis en oeuvre par un dispositif de traitement du signal conformément à un procédé selon les
revendications 7 et 10, caractérisé en ce qu'il comprend les modules M2, M3 et M9, une
entrée de signal apte à recevoir un signal vocal étant reliée à l'entrée du module M2 et aux premières entrées respectives des modules M3 et M9, les sorties des modules M2 et
M3 étant respectivement reliées aux deuxièmes entrées des modules M3 et M9.
37. Procédé d'analyse vocale mettant en òuvre un critère présence vocale (C7) mis en oeuvre par un dispositif de traitement du signal conformément à un procédé selon les
revendications 7, 9 et 10, caractérisé en ce qu'il comprend les modules M2, M3, M7,
M8 et M20, le module M20 étant apte à classer un signal vocal par niveau selon un modèle de présence vocale donné, une entrée de signal apte à recevoir un signal vocal étant reliée à l'entrée du module M2 et aux premières entrées respectives des modules M3, M7, M8 et M20, les sorties des modules M2, M3, M7 et M8 étant reliées
respectivement aux deuxièmes entrées des modules M3, M7, M8 et M20.
38. Procédé d'analyse vocale mettant en oeuvre un critère de tonicité vocale (C9) mis en oeuvre par un dispositif de traitement du signal conformément à un procédé selon
les revendications 7, 9 et 10, caractérisé en ce qu'il comprend les modules M2, M3, M7,
M8 et M13, une entrée de signal apte à recevoir un signal vocal étant reliée à l'entrée du module M2 et aux premières entrées respectives des modules M3, M7, M8 et M13, les sorties des modules M2, M3, M7 et M8 étant reliées respectivement aux deuxièmes
entrées des modules M3, M7, M8 et M13.
39. Procédé d'analyse vocale mettant en oeuvre un critère justesse de voix (C12) mis en oeuvre par un dispositif de traitement du signal conformément à un procédé selon
les revendications 7, 9 et 10, caractérisé en ce qu'il comprend les modules M2, M3, M7,
M16, une entrée de signal apte à recevoir un signal vocal étant reliée à l'entrée du module M2 et aux premières entrées respectives des modules M3, M7 et M16, les sorties des modules M2 et M3 étant respectivement reliées aux deuxièmes entrées des
modules M3 et M7, la sortie du module M7 étant reliée à l'entrée du module M16.
40. Procédé d'analyse vocale mettant en oeuvre un critère intonation de voix (C13) mis en oeuvre par un dispositif de traitement du signal conformément à un procédé selon
les revendications 7, 9 et 10, caractérisé en ce qu'il comprend les modules M2, M3, M7,
M17, une entrée de signal apte à recevoir un signal vocal étant reliée à l'entrée du module M2 et aux premières entrées respectives des modules M3, M7 et M17, les sorties des modules M2 et M3 étant respectivement reliées aux deuxièmes entrées des
modules M3 et M7, la sortie du module M7 étant reliée à l'entrée du module M17.
41. Procédé d'analyse vocale mettant en oeuvre un ensemble de modules pour diagnostiquer un niveau de tonicité vocale mis en oeuvre par un dispositif de traitement
du signal conformément à un procédé selon les revendications 7 et 9, caractérisé en ce
qu'il comprend un critère tonicité vocale (C6) conforme à la revendication 36 et des modules M7, M8 et M1O, les catégories mémorisées et utilisées lors de l'étape de comparaison au cours de la mise en oeuvre du module M1O sont des diagnostics délimités par des grandeurs représentatives de niveaux donnés de tonicité vocale, chaque grandeur étant fonction d'une catégorie de son d'entrée du module, l'entrée de signal (apte à recevoir un signal vocal) du critère tonicité vocale (C6) étant en outre reliée à l'entrée et aux premières entrées respectives des modules M7 et M8, la sortie du module M3 du critère tonicité vocale (C6) étant en outre reliée à la deuxième entrée du module M7, la sortie du module M7 étant reliée à la deuxième entrée du module M8, les sorties du module M8 et du module M9 du critère tonicité vocale (C6) étant
respectivement reliées aux deuxième et première entrées du module Ml0.
FR0214865A 2002-11-27 2002-11-27 Analyse de la qualite de signal vocal selon des criteres de qualite Expired - Fee Related FR2847706B1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
FR0214865A FR2847706B1 (fr) 2002-11-27 2002-11-27 Analyse de la qualite de signal vocal selon des criteres de qualite
PCT/IB2003/006355 WO2004049303A1 (fr) 2002-11-27 2003-11-27 Analyse de la qualite d'un signal vocal en fonction des criteres de qualite
AU2003288475A AU2003288475A1 (en) 2002-11-27 2003-11-27 Analysis of the vocal signal quality according to quality criteria

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0214865A FR2847706B1 (fr) 2002-11-27 2002-11-27 Analyse de la qualite de signal vocal selon des criteres de qualite

Publications (2)

Publication Number Publication Date
FR2847706A1 true FR2847706A1 (fr) 2004-05-28
FR2847706B1 FR2847706B1 (fr) 2005-05-20

Family

ID=32241659

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0214865A Expired - Fee Related FR2847706B1 (fr) 2002-11-27 2002-11-27 Analyse de la qualite de signal vocal selon des criteres de qualite

Country Status (3)

Country Link
AU (1) AU2003288475A1 (fr)
FR (1) FR2847706B1 (fr)
WO (1) WO2004049303A1 (fr)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4377158A (en) * 1979-05-02 1983-03-22 Ernest H. Friedman Method and monitor for voice fluency
GB2345183A (en) * 1998-12-23 2000-06-28 Canon Res Ct Europe Ltd Monitoring speech presentation
US6397185B1 (en) * 1999-03-29 2002-05-28 Betteraccent, Llc Language independent suprasegmental pronunciation tutoring system and methods

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4377158A (en) * 1979-05-02 1983-03-22 Ernest H. Friedman Method and monitor for voice fluency
GB2345183A (en) * 1998-12-23 2000-06-28 Canon Res Ct Europe Ltd Monitoring speech presentation
US6397185B1 (en) * 1999-03-29 2002-05-28 Betteraccent, Llc Language independent suprasegmental pronunciation tutoring system and methods

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WANG K ET AL: "AUDITORY ANALYSIS OF SPECTRO-TEMPORAL INFORMATION IN ACOUSTIC SIGNALS", IEEE ENGINEERING IN MEDICINE AND BIOLOGY MAGAZINE, IEEE INC. NEW YORK, US, vol. 14, no. 2, 1 March 1995 (1995-03-01), pages 186 - 194, XP000505069, ISSN: 0739-5175 *

Also Published As

Publication number Publication date
FR2847706B1 (fr) 2005-05-20
AU2003288475A1 (en) 2004-06-18
WO2004049303A1 (fr) 2004-06-10

Similar Documents

Publication Publication Date Title
Eyben Real-time speech and music classification by large audio feature space extraction
Triantafyllopoulos et al. Towards robust speech emotion recognition using deep residual networks for speech enhancement
Schuller Intelligent audio analysis
EP2419900B1 (fr) Procede et dispositif d&#39;evaluation objective de la qualite vocale d&#39;un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal
EP1593116B1 (fr) Procédé pour le traitement numérique différencié de la voix et de la musique, le filtrage de bruit, la création d&#39;effets spéciaux et dispositif pour la mise en oeuvre dudit procédé
US11894012B2 (en) Neural-network-based approach for speech denoising
FR2522179A1 (fr) Procede et appareil de reconnaissance de paroles permettant de reconnaitre des phonemes particuliers du signal vocal quelle que soit la personne qui parle
Reby et al. Cepstral coefficients and hidden Markov models reveal idiosyncratic voice characteristics in red deer (Cervus elaphus) stags
FR2943875A1 (fr) Procede et dispositif de classification du bruit de fond contenu dans un signal audio.
EP2418643A1 (fr) Procédé exécuté sur ordinateur et système pour analyser des données vocales numériques
Poorjam et al. Automatic quality control and enhancement for voice-based remote Parkinson’s disease detection
EP1606792B1 (fr) Procede d analyse d informations de frequence fondament ale et procede et systeme de conversion de voix mettant en oeuvre un tel procede d analyse
Airaksinen et al. Data augmentation strategies for neural network F0 estimation
Xiong et al. Exploring auditory-inspired acoustic features for room acoustic parameter estimation from monaural speech
CN108369803A (zh) 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法
Sephus et al. Modulation spectral features: In pursuit of invariant representations of music with application to unsupervised source identification
EP1846918B1 (fr) Procede d&#39;estimation d&#39;une fonction de conversion de voix
Sheela et al. Linear discriminant analysis F-Ratio for optimization of TESPAR & MFCC features for speaker recognition.
Fahmeeda et al. Voice Based Gender Recognition Using Deep Learning
FR2847706A1 (fr) Analyse de la qualite de signal vocal selon des criteres de qualite
FR2627887A1 (fr) Systeme de reconnaissance de parole et procede de formation de modeles pouvant etre utilise dans ce systeme
Connor et al. Automating identification of avian vocalizations using time–frequency information extracted from the Gabor transform
Mohamed et al. " I have vxxx bxx connexxxn!": Facing Packet Loss in Deep Speech Emotion Recognition
Sabu et al. Improving the Noise Robustness of Prominence Detection for Children's Oral Reading Assessment
Bous A neural voice transformation framework for modification of pitch and intensity

Legal Events

Date Code Title Description
ST Notification of lapse

Effective date: 20060731

RN Application for restoration
FC Decision of inpi director general to approve request for restoration
ST Notification of lapse

Effective date: 20130731