EP2269183A1

EP2269183A1 - Dispositif et procédé de reproduction vocale à perception multi-sensorielle contrôlée

Info

Publication number: EP2269183A1
Application number: EP09738358A
Authority: EP
Inventors: Maryvonne Zimmermann
Original assignee: Feldmar Jacques
Current assignee: Feldmar Jacques
Priority date: 2008-04-28
Filing date: 2009-04-24
Publication date: 2011-01-05
Also published as: FR2930671A1; FR2930671B1; WO2009133324A1

Abstract

La présente invention concerne un procédé de reproduction vocale d'un son de référence (6) par au moins un utilisateur (1), ledit procédé comprenant une étape d'acquisition (I) de signaux d'entrée, une étape de traitement (II) desdits signaux d'entrée acquis en vue de fournir (III) des signaux de sortie comprenant au moins une information de comparaison entre un signal sonore d'entrée acquis et le signal dudit son de référence (6), et une étape de perception multi-sensorielle (IV) par l'utilisateur (1 ) d'au moins un desdits signaux de sortie en vue de permettre audit utilisateur (1 ) d'atteindre ledit son de référence (6), caractérisé en ce que le niveau de perception multi-sensorielle d'au moins un signal de sortie comprenant au moins une information de comparaison entre un signal sonore d'entrée acquis et le signal dudit son de référence (6) est contrôlé par l'ajustement d'au moins un paramètre d'un signal parmi ledit signal de sortie, ledit signal d'entrée acquis et ledit signal du son de référence (6), en fonction de l'état de performance de l'utilisateur (1 ). La présente invention concerne également un dispositif de reproduction vocale mettant en oevre un tel procédé.

Description

DISPOSITIF ET PROCÉDÉ DE REPRODUCTION VOCALE À PERCEPTION MULTI-SENSORIELLE CONTRÔLÉE

La présente invention concerne un dispositif et un procédé de reproduction vocale à perception multi-sensorielle contrôlée.

DOMAINE TECHNIQUE

La présente invention se rapporte au domaine de l'entraînement vocal en vue de la reproduction d'un son de référence. Ce son de référence peut être une note, un rythme, une mélodie, une gamme ou séquence sonore à reproduire.

Elle se rapporte plus particulièrement à un procédé de reproduction vocale d'un son de référence par au moins un utilisateur, ledit procédé comprenant une étape d'acquisition de signaux d'entrée, une étape de traitement desdits signaux d'entrée acquis en vue de fournir des signaux de sortie comprenant au moins une information de comparaison entre un signal sonore d'entrée acquis et le signal dudit son de référence, et une étape de perception multi-sensorielle par l'utilisateur d'au moins un desdits signaux de sortie en vue de permettre audit utilisateur d'atteindre ledit son de référence.

ÉTAT DE LA TECHNIQUE ANTERIEURE

Un tel procédé vise à être utilisé notamment pour des applications d'apprentissage du chant, d'imitation et de jeu musicaux, ainsi qu'à des fins orthophoniques. Dans ce contexte, il peut être mis en œuvre aussi bien par un amateur qu'un chanteur professionnel, un orateur ou un acteur, sans que cela soit limitatif. Il permet à l'utilisateur de s'entraîner afin d'harmoniser ses fonctions vocales en vue d'atteindre la reproduction d'un son de référence. Les fonctions vocales mises en œuvres comprennent par exemple le contrôle du diaphragme et des muscles, la vibration des cordes vocales, le contrôle des articulateurs. Les articulateurs peuvent être par exemple les lèvres, la mâchoire, la langue, le voile du palais, la luette.

L'état de la technique dans ce domaine comporte des procédés et dispositifs utilisant les capacités physiques et mentales de l'utilisateur. Des procédés et dispositifs de reproduction vocale utilisent à ce titre des moyens d'affichage pour fournir un retour visuel à l'utilisateur concernant la différence entre le son qu'il a produit et le son de référence qu'il souhaite produire. Dans le domaine du karaoké, des logiciels permettent ainsi de chanter dans un microphone pour reproduire des notes dont la hauteur et la durée sont affichées sur un écran. À la fin de chaque session de reproduction, un score de similarité est calculé puis affiché sur l'écran. Un tel procédé est décrit dans le document de brevet US 5,889,224, qui concerne l'évaluation en temps réel de la performance vocale d'un chanteur à partir d'une mélodie sans paroles de type karaoké. Pour cela, la voix du chanteur et la mélodie sont détectées séparément. Le signal de la voix du chanteur ainsi détecté est échantillonné. Les données échantillonnées ainsi obtenues sont comparées aux données du son de référence à produire pour obtenir des données différentielles. Ces données sont utilisées pour calculer un score de similarité représentant le degré de déviation de la voix du chanteur.

L'inconvénient d'un tel procédé réside dans l'incapacité à exploiter la sollicitation des différents sens de l'utilisateur en vue de le faire atteindre le son de référence de manière progressive et intuitive. D'une part, les différents sens ne sont pas exploités en même temps, alors que le cerveau est parfaitement capable d'intégrer des informations provenant de plusieurs sens en même temps.

Une solution permettant d'exploiter plusieurs sens de l'utilisateur est décrite dans le document de brevet US 2004/0194610. Dans ce document, un procédé d'entraînement consiste à faire générer à l'utilisateur un son vocal et à faire ajuster le son vocal dudit utilisateur afin d'atteindre une note ciblée en mettant en œuvre des moyens de retour sensoriel - ou effecteurs. Ces moyens de retour sensoriel sont choisis parmi des moyens de retour visuel, auditif, tactile, ou une combinaison de ceux-ci. Ces moyens de retour indiquent la différence entre le son vocal produit et la note ciblée, ce qui permet à l'utilisateur de diminuer en temps réel cette différence en ajustant sa production sonore. La multiplicité des moyens de retour sensoriel, ainsi que leur différence de nature, permet d'exploiter plusieurs sens de l'utilisateur à la fois, ce qui, par intégration de multiples informations en même temps par le cerveau, offre la possibilité à celui- ci de bénéficier de plus d'informations et donc d'améliorer l'ajustement intuitif de sa production vocale.

Néanmoins, cette solution présente l'inconvénient de ne pas exploiter au mieux les différents sens de l'utilisateur, les sens sollicités n'étant pas excités par les effecteurs de manière optimale. En particulier, il n'est pas possible de tenir compte des capacités de perception des différents sens de l'utilisateur de sorte à fournir à l'utilisateur des informations en retour de sa production qui soient dépendantes de son état de performance. Dans une moindre mesure, les retours auditifs et visuels ne permettent pas d'indiquer de façon suffisamment claire les corrections à apporter à la voix et aux mouvements du visage de sorte que ces informations soient intégrées par le cerveau et que l'ajustement soit rendu plus intuitif.

Ainsi, aucune solution de l'état de la technique ne permet de disposer d'un procédé ou d'un dispositif de reproduction vocale d'un son de référence par un utilisateur qui exploite de manière optimale les capacités physiques et mentales de l'utilisateur, de sorte à lui permettre d'ajuster le son qu'il produit vis-à-vis du son de référence à produire de manière intuitive.

OBJET DE L'INVENTION

Le but de la présente invention est de remédier à ce problème technique, en permettant d'exploiter de manière optimale la capacité de perception de l'utilisateur ainsi que son état de performance. La solution de l'invention réside dans la mise en œuvre d'un système de contrôle du niveau de perception par l'utilisateur des informations fournies par les signaux de sortie calculés à partir des signaux d'entrée acquis.

L'approche de la solution a consisté à rechercher des façons de mettre en œuvre les moyens de perception multi-sensorielle de sorte à fournir au cerveau des informations plus pertinentes et susceptibles d'être mieux intégrées. Il est alors apparu que l'utilisation d'un système de contrôle peut permettre de régler le niveau de perception des informations en retour du son produit, en ajustant plus particulièrement l'information de comparaison entre un signal d'entée acquis en rapport avec le son émis par l'utilisateur et le son de référence.

Dans ce but, l'invention a pour objet un procédé de reproduction vocale tel que du type mentionné ci-dessus dans lequel, outre les caractéristiques déjà mentionnées, le niveau de perception multi-sensorielle d'au moins un signal de sortie comprenant au moins une information de comparaison entre un signal sonore d'entrée acquis et le signal du son de référence est contrôlé par l'ajustement d'au moins un paramètre d'un signal parmi le signal de sortie, ledit signal d'entrée acquis et ledit signal du son de référence, en fonction de l'état de performance de l'utilisateur.

Cela permet à l'utilisateur de contrôler lui-même la perception de la reproduction vocale, en particulier le niveau de difficulté de la reproduction vocale, l'intensité des signaux de sortie qu'il perçoit via les moyens de perception et les options de traitement des signaux d'entrée acquis.

Ainsi ce procédé, constitué de la combinaison entre un procédé classique de d'entraînement vocal et une perception multi-sensorielle dont le niveau est contrôlé, permet à l'utilisateur d'optimiser l'ajustement de sa production en fonction de sa perception.

Avantageusement, il est prévu que l'ajustement d'au moins un paramètre d'un signal parmi ledit signal de sortie, ledit signal d'entrée acquis et ledit signal du son de référence, soit réalisé de manière automatique et dynamique. L'utilisateur peut ainsi régler lui-même le niveau de perception de la comparaison entre le son qu'il a produit et le son de référence en fonction, d'une part, de son état de performance et, d'autre part, de sa sensibilité de perception.

Avantageusement, il est prévu que l'ajustement d'au moins un paramètre d'un signal parmi ledit signal de sortie, ledit signal d'entrée acquis et ledit signal du son de référence, soit réalisé par l'utilisateur. L'utilisateur peut ainsi disposer d'un ajustement en temps réel du niveau de perception et la comparaison entre le son qu'il a produit et le son de référence en fonction de son état de performance ainsi que, par exemple, de l'évolution temporelle de cet état.

Dans un mode de réalisation visant à utiliser pour cela le rôle non symétrique des deux oreilles ainsi que l'intégration par le cerveau des informations provenant des différents sens, il est prévu que, lors de l'étape de perception multi- sensorielle, une partie au moins desdits signaux de sortie fournis est perçue de manière auditive, lesdits signaux de sortie fournis et perçus de manière auditive étant constitués de sorte à fournir à l'utilisateur deux signaux de sortie différents en liaison avec le signal dudit son de référence et un signal sonore d'entrée acquis.

L'utilisation de cette perception auditive asymétrique - ou binaurale - est connue dans le domaine de l'orthophonie. Elle consiste à exploiter le rôle non symétrique des oreilles afin de séparer ou de localiser spatialement les sons. Ce type d'audition convient aux personnes aveugles pour transcrire la position d'un curseur sur un écran. L'axe gauche-droite peut être codé par l'intensité relative du son donné par une paire d'écouteurs dans chaque oreille. L'axe haut-bas peut être codé par la hauteur - note, fréquence - de ce son.

Un tel procédé, combinant le contrôle de la perception multi-sensorielle et la perception auditive asymétrique, permet de fournir au cerveau des informations permettant à l'utilisateur de corriger de façon intuitive sa production en fonction de sa perception sonore binaurale. Selon un premier mode de mise en œuvre de cette perception auditive, il est prévu que les signaux de sortie fournis et perçus de manière auditive proviennent d'une même source sonore.

Selon un deuxième mode de mise en œuvre de cette perception auditive, il est prévu que les signaux de sortie fournis et perçus de manière auditive proviennent de deux sources sonores spatialement séparées et agencées pour fournir à chaque oreille de l'utilisateur l'un parmi les deux signaux de sortie différents en liaison avec le signal dudit son de référence et un signal sonore d'entrée acquis.

Préférentiellement, il est prévu que les signaux sonores de sortie fournis à chaque oreille de l'utilisateur et perçus de manière auditive soient constitués d'une combinaison de signaux parmi au moins un signal sonore d'entrée acquis, le signal du son de référence et un indicateur de la différence entre au moins un signal sonore d'entrée acquis et le signal dudit son de référence, ledit indicateur portant sur au moins une caractéristique desdits signaux. Il est ainsi possible d'injecter toute sorte de combinaison ou d'information entre au moins un signal sonore d'entrée acquis et le signal du son de référence en vue de fournir au cerveau des informations pertinentes qu'il pourra intégrer afin d'améliorer sa production en fonction de sa perception.

Selon un mode particulier de réalisation, il est prévu que les signaux sonores de sortie fournis à chaque oreille de l'utilisateur et perçus de manière auditive comportent respectivement au moins en partie le signal du son de référence et un signal sonore d'entrée acquis. La répartition de ces signaux entre les deux oreilles fournie par la perception sonore binaurale assure alors que l'utilisateur diminue cet écart de façon intuitive.

Selon un mode particulier de réalisation, il est prévu que les signaux sonores de sortie fournis à chaque oreille de l'utilisateur et perçus de manière auditive soient respectivement le signal de référence et un signal sonore d'entrée acquis. Selon un mode particulier de réalisation, il est prévu que les signaux sonores de sortie fournis à chaque oreille de l'utilisateur et perçus de manière auditive sont respectivement le signal de référence et la différence entre un signal sonore d'entrée acquis et ledit signal de référence.

Dans un premier mode de mise en œuvre de l'invention visant à faire intégrer au cerveau la différence algébrique (signée) entre le signal sonore d'entrée acquis et le son du signal de référence, il est prévu que l'affectation des signaux sonores de sortie fournis à chaque oreille de l'utilisateur et perçus de manière auditive soit fonction du signe de la différence entre un signal sonore d'entrée acquis et ledit signal de référence.

Dans un deuxième mode de mise en œuvre de l'invention visant à faire intégrer au cerveau la différence algébrique (signée) entre le signal sonore d'entrée acquis et le son du signal de référence, il est prévu que l'amplitude des signaux sonores de sortie fournis à chaque oreille de l'utilisateur et perçus de manière auditive soit fonction du signe de la différence entre un signal sonore d'entrée acquis et ledit signal de référence.

Dans un mode de réalisation visant à améliorer la perception multi-sensorielle de la production sonore de l'utilisateur, il est prévu que, lors de l'étape de perception multi-sensorielle, une partie au moins desdits signaux de sortie fournis soit perçue de manière visuelle, lesdits signaux de sortie fournis et perçus de manière visuelle étant en rapport avec au moins un signal sonore d'entrée acquis et le signal dudit son de référence. Cette perception visuelle agit en complément de la perception auditive binaurale, de sorte à être intégrée par le cerveau de manière complémentaire aux signaux sonores fournis. Le cerveau intègre en effet les informations visuelles et auditives de manière simultanée. Cela permet donc à l'utilisateur d'ajuster de manière plus optimale sa production en fonction de sa perception. Dans un mode de réalisation préférentiel mettant en œuvre la perception visuelle, il est prévu que les signaux de sortie fournis et perçus de manière visuelle soient constitués d'une combinaison de signaux parmi au moins un signal sonore d'entrée acquis, le signal du son de référence et un indicateur de la différence entre au moins un signal sonore d'entrée acquis et le signal dudit son de référence, ledit indicateur portant sur au moins une caractéristique desdits signaux. Il est ainsi possible de donner à voir à l'utilisateur toute sorte de combinaison ou d'information entre au moins un signal sonore d'entrée acquis et le signal du son de référence en vue de fournir au cerveau des informations pertinentes.

Dans un autre mode de réalisation préférentiel mettant en œuvre la perception visuelle, il est prévu que les signaux de sortie fournis et perçus de manière visuelle soient perçus par l'affichage d'un visage virtuel tridimensionnel de correction indiquant les mouvements du visage de l'utilisateur nécessaires à la reproduction du son de référence. Cet affichage permet de fournir à l'utilisateur la différence algébrique (signée) entre ce qui a été produit et ce qui devrait être produit. Dans la mesure où nos sens s'attendent à des signaux cohérents, les mouvements de la bouche d'un locuteur devraient correspondre aux sons émis. Si une personne voit des mouvements de lèvres incompatibles avec ce qu'elle entend, elle est perturbée. Cette incompatibilité est ainsi utilisée comme information visuelle intégrée par le cerveau de sorte à ajuster la reproduction vocale de l'utilisateur.

Dans un mode de réalisation visant à améliorer la perception multi-sensorielle de la production sonore de l'utilisateur, il est prévu que, lors de l'étape de perception multi-sensorielle, une partie au moins desdits signaux de sortie fournis soit perçue de manière tactile, lesdits signaux de sortie fournis et perçus de manière tactile étant en rapport avec au moins un signal sonore d'entrée acquis et le signal dudit son de référence. Cette perception tactile agit en complément de la perception sonore binaurale, et éventuellement également visuelle, de sorte à être intégrée par le cerveau de manière complémentaire aux signaux sonores fournis.

Préférentiellement, le procédé de reproduction vocale fonctionne en boucle fermée. Cette boucle fermée entre la production et la perception sonore permet d'ajuster dynamiquement le lien entre la production et la perception pour arriver au résultat de reproduction vocale du son de référence.

Avantageusement, il est prévu qu'un retard soit introduit au niveau des signaux d'entrée acquis de sorte à synchroniser lesdits signaux d'entrée acquis sur les signaux de sortie fournis.Cela permet d'effectuer des combinaisons entre les signaux d'entrée et de sortie synchronisés, de sorte à permettre à l'utilisateur d'intégrer en temps réel l'écart entre sa production vocale et sa perception afin de l'ajuster en temps réel.

L'invention concerne également un dispositif de reproduction vocale d'un son de référence par au moins un utilisateur, comprenant un système d'acquisition de signaux d'entrée, lesdits signaux d'entrée comprenant au moins un signal sonore d'entrée, un système de traitement desdits signaux d'entrée acquis apte à fournir des signaux de sortie comprenant au moins une information de comparaison d'un signal sonore d'entrée acquis avec le signal dudit son de référence, et un système de perception multi-sensorielle desdits signaux de sortie fournis, agencé de manière à permettre à l'utilisateur d'atteindre ledit son de référence. Ce dispositif comprend un système de contrôle du niveau de perception multi- sensorielle d'au moins un signal de sortie comprenant au moins une information de comparaison entre un signal sonore d'entrée acquis et le signal dudit son de référence, ledit système de contrôle comportant des moyens d'ajustement d'au moins un paramètre d'un signal parmi ledit signal de sortie, ledit signal d'entrée acquis et ledit signal du son de référence, en fonction de l'état de performance de l'utilisateur. Ce dispositif, constitué de la combinaison entre un dispositif classique de d'entraînement vocal et un moyen de perception multi-sensorielle et sonore binaurale, permet à l'utilisateur d'optimiser l'ajustement de sa production en fonction de sa perception. Selon un autre mode de réalisation préférentiel de ce dispositif, il est prévu qu'il comprenne des moyens d'enregistrement et de stockage des signaux d'entrée acquis et des signaux de sortie fournis en vue d'établir un indicateur de progrès de la reproduction vocale du son de référence par l'utilisateur. Cela permet à l'utilisateur de connaître l'évolution de la reproduction vocale du son de référence, de sorte à déterminer lui-même le progrès effectué.

Selon un autre mode de réalisation préférentiel de ce dispositif, il est prévu que le système d'acquisition des signaux d'entrée comprenne des moyens de perception au moins parmi des moyens de perception auditive, visuelle et tactile, lesdits des moyens de perception étant disposés de sorte à fournir à l'utilisateur au moins un signal de sortie en rapport avec au moins un signal sonore d'entrée acquis et le signal dudit son de référence.

BRÈVE DESCRIPTION DES DESSINS

L'invention sera mieux comprise à la lecture de la description détaillée d'un exemple non limitatif de réalisation, accompagnée de figures représentant respectivement : la figure 1 , un schéma de principe d'un dispositif et d'un procédé de reproduction vocale mono-utilisateur selon la présente invention, la figure 2, un schéma d'un dispositif de reproduction vocale monoutilisateur selon un mode de réalisation de l'invention, - la figure 3, des moyens de perception auditive d'un dispositif de reproduction vocale mono-utilisateur selon un mode de réalisation de l'invention, la figure 4, des moyens de perception visuelle d'un dispositif de reproduction vocale mono-utilisateur selon un mode de réalisation de l'invention, et - la figure 5, un schéma de principe d'un dispositif de reproduction vocale multi-utilisateurs selon la présente invention. EXPOSÉ DÉTAILLÉ DE MODES DE RÉALISATION PARTICULIERS

On entendra dans le présent brevet par état de performance de l'utilisateur le niveau de reproduction d'un son de référence atteint par l'utilisateur, c'est-à-dire l'écart entre le son que l'utilisateur a produit et le son de référence. Cet état de référence peut être déterminé selon un ou plusieurs paramètres des signaux respectivement du son que l'utilisateur a produit et du son de référence.

La figure 1 représente un schéma de principe d'un dispositif et d'un procédé de reproduction vocale selon la présente invention. Ce dispositif comprend un système d'acquisition 2, un système de traitement 3, un système de perception mufti-sensorielle 4, ainsi qu'un système de contrôle 5.

Le système d'acquisition 2 permet la captation d'une pluralité de signaux provenant du comportement de l'utilisateur 1. Il réalise l'acquisition de signaux d'entrée, lesdits signaux d'entrée comprenant au moins un signal sonore d'entrée. Il comporte des moyens d'acquisition parmi lesquels des moyens d'acquisition sonore 21 , de mouvement 22, de respiration 23, tactile 24 et de souffle 25. Ces moyens sont respectivement constitués d'un microphone, d'un accéléromètre, d'un électrocardiographe, d'un clavier et d'un spiromètre.

Dans d'autres modes de réalisation, ces moyens d'acquisitions comprennent une pluralité de microphones, un joystick, un volant, une caméra, un dispositif de stéréo-vision, un tapis, un capteur de vibration, un capteur de pression, un électroencéphalographe, une hélice, une bande à induction ou un téléphone.

Le système de perception multi-sensorielle 4 permet de faire ressentir à l'utilisateur 1 l'écart entre le son qu'il a produit et le son de référence 6 qu'il souhaite reproduire, dans le but de l'aider à reproduire ledit son de référence 6. Il reçoit pour cela les signaux de sortie fournis et les transmet à l'utilisateur 1. Il comprend des moyens de perception sonore 41 et 42, visuelle 43, tactile 44 et vibrationnelle 45. Ces moyens de perception sont respectivement constitués d'écouteurs, d'un écran, d'un volant à retour d'effort et d'une électrode de stimulation musculaire.

Dans d'autres modes de réalisation, ces moyens de perception comprennent un afficheur de données, une pluralité de haut-parleurs, un casque sonore, un dispositif de lecture en braille, un robot ou un enrouleur.

Le système de traitement 3 comprend des moyens de traitement 31 des signaux d'entrée acquis de sorte à fournir des signaux de sortie. Les traitements sont opérés de sorte à ce que ces signaux de sortie comprenant au moins une information de comparaison d'un signal sonore d'entrée acquis avec le signal du son de référence 6.

Ces moyens de traitement 31 peuvent être par exemple constitués d'un ordinateur, d'un PDA, d'un DVD, d'un téléphone.

Les signaux de sortie calculés par les moyens de traitement 31 peuvent être en particulier des indices acoustiques, comme la tension des cordes vocales, le registre de la parole, la sonie, la prosodie ou le suprasegmental, le segmentai, le timbre vocal, la coordination supraglottique ou glottique, le mouvement turbulent de l'air, les perturbations stochastiques de la vibration des plis vocaux, les vibrations non sollicitées des plis ventriculaires ou des plis ary-epiglottiques, les transitions incontrôlées ou les vibrations non-modales.

Le système de traitement 3 comprend également des moyens d'enregistrement et de stockage 32 des signaux d'entrée acquis et des signaux de sortie fournis. Ces moyens 32 permettent d'établir un indicateur de progrès de la reproduction vocale du son de référence 6 par l'utilisateur 1. Cet indicateur peut être utilisé par exemple pour fournir à l'utilisateur des informations de progrès en fonction du temps sous la forme de graphiques, ou pour contrôler le niveau de perception par l'ajustement automatique et dynamique d'au moins un paramètre d'un signal parmi ledit signal de sortie, ledit signal d'entrée acquis et ledit signal du son de référence 6, en fonction de l'état de performance de l'utilisateur 1.

Le système de contrôle 5 assure le contrôle du niveau de perception multi- sensorielle d'au moins un signal de sortie comprenant au moins une information de comparaison entre un signal sonore d'entrée acquis et le signal dudit son de référence 6. Il comprend pour cela des moyens d'ajustement d'au moins un paramètre d'un signal parmi ledit signal de sortie, ledit signal d'entrée acquis et ledit signal du son de référence 6, en fonction de l'état de performance de l'utilisateur 1.

Selon un premier mode de réalisation, ces moyens sont des moyens d'ajustement manuel du niveau de perception, constitués d'éléments manipulables par l'utilisateur 1 , ce dernier pouvant ainsi régler le niveau de perception multi-sensorielle en fonction de son état de performance. Selon un deuxième mode de réalisation, ces moyens sont des moyens d'ajustement automatique et dynamique, constitués d'éléments de calculs aptes à déterminer l'état de performance de l'utilisateur et à en déduire le niveau de perception correspondant. Ils peuvent pour cela intégrer des informations d'écart entre son produit et son à reproduire sur un large intervalle de temps, ce qui permet de déterminer l'état de performance de l'utilisateur de façon plus précise.

Ce système de contrôle 5 rend ainsi possible le réglage du niveau de perception multi-sensorielle en fonction de l'état de performance de l'utilisateur. Par exemple, pour un utilisateur débutant, l'écart entre le son produit et le son à reproduire sera très grand, et alors le système de contrôle 5 assurera une faible dynamique du niveau de perception de sorte que les signaux de sortie comprenant l'information de différence entre les deux sons ne soient pas perçus de façon trop néfaste. Au contraire, dans le cas d'un utilisateur expert, l'écart entre le son produit et le son à reproduire sera très faible, et alors le système de contrôle 5 assurera une dynamique élevée de sorte que l'utilisateur puisse atteindre plus finement du son à reproduire. Les moyens de contrôle manuel peut être par exemple constitués d'un clavier, d'une souris, d'une table de mixage, d'un volant ou d'un joystick. Les moyens de contrôle automatique et dynamique peuvent être par exemple constitués d'un processeur.

La transmission des signaux entre les systèmes d'acquisition 2, de traitement 3, de perception 4 et de contrôle est assurée par voie filaire. Selon d'autres modes de réalisation, cette transmission est sans fil ou réalisée via un réseau local ou externe, par exemple de type Internet.

Le signal du son de référence 6 est disposé sur un support de stockage de données en vue de le fournir au système de traitement 3. Ce support peut être par exemple un CD standard, un fichier au format midi, ou tout autre type de support permettant l'enregistrement, du signal.

En référence toujours à la figure 1 , le procédé de reproduction vocale fonctionne en boucle fermée. Selon ce procédé, on procède tout d'abord à l'acquisition (I) de signaux d'entrée par les moyens d'acquisition 21 , 22, 23, 24 et 25 du système d'acquisition 2. Les signaux d'entrée comportent au moins un signal sonore correspondant au son produit par l'utilisateur 1.

Les signaux d'entrée acquis sont ensuite traités (II) en vue de fournir (III) des signaux de sortie comprenant au moins une information de comparaison entre un signal sonore d'entrée acquis et le signal dudit son de référence 6.

Les traitements réalisés peuvent être des calculs ou des effets. Ces calculs sont par exemple, sans que ce soit limitatif, le calcul de la fréquence fondamentale (pitch, hauteur, note), le volume, l'intensité, le rythme, la dynamique (attaque, soutien, relâche), le timbre, la nasalité, le vibrato, le souffle (effet voilé), l'articulation, le calcul de moyenne, de l'historique ou de l'indication de progrès de l'utilisateur, la discrimination de son, la classification de sons, la mesure de similarités de signaux, l'analyse de pose et de mouvement dans les images. Ces effets sont par exemple le changement de pitch, le changement de tempo, la séparation musique parole, la réverbération, le calage sur une note juste, le décalage d'octave.

Au moins un des signaux de sortie est ensuite perçu (IV) par l'utilisateur 1 de manière multi-sensorielle en vue de permettre audit utilisateur 1 d'atteindre le son de référence 6.

Le signal du son de référence 6 est fourni (V) au système de traitement 3 avant l'acquisition des signaux d'entrée, de sorte à faire tenir compte les traitements (II) à la fois des signaux d'entrée et du signal du son de référence 6.

Ce procédé de reproduction vocale comprend également des étapes (VII), (VIII) et (IX) de contrôle du niveau de perception multi-sensorielle d'au moins un signal de sortie comprenant au moins une information de comparaison entre un signal sonore d'entrée acquis et le signal du son de référence 6. Ce contrôle est réalisé par l'ajustement d'au moins un paramètre d'un signal parmi le signal de sortie (VII), le signal d'entrée acquis (VIII) et le signal du son de référence 6 (IX).

Dans la mesure où le signal perçu par l'utilisateur 1 est un signal de sortie comprenant une information de comparaison entre un signal sonore d'entrée acquis et le signal du son de référence 6, il est possible d'ajuster le signal de sortie, le signal d'entrée acquis ou le signal du son de référence, ou une combinaison des trois, de manière à modifier la dynamique de l'écart entre le son produit et le son à reproduire.

Ce contrôle s'effectue soit manuellement par l'utilisateur 1 en fonction de l'état de performance qu'il détermine lui-même et du niveau de perception dont il souhaite disposé, soit de manière automatique et dynamique en fonction de l'état de performance de l'utilisateur déterminé lors de l'étape de traitement (II).

Dans ce mode de réalisation préférentiel, la perception multi-sensorielle (IV) des signaux de sortie fournis s'opère selon une combinaison des modes de perception auditive, visuelle et tactile. Selon d'autres modes de réalisation, il peut être prévu de n'utiliser que deux modes de perception parmi les trois ci-dessus.

Parmi les signaux de sortie fournis et perçus, deux sont perçus de manière auditive. Ces signaux de sortie sont en liaison avec le signal du son de référence 6 et un signal sonore d'entrée acquis, et comprennent ainsi une information de comparaison entre son de référence 6 le son émis par l'utilisateur 1.

Ces signaux sont de plus constitués de sorte à fournir à l'utilisateur 1 deux signaux de sortie différents. Cela permet de fournir par comparaison des deux signaux une information perceptible en rapport avec la différence entre le son produit et le son à reproduire.

Dans le mode de réalisation retenu, ces deux signaux de sortie proviennent de deux sources sonores spatialement séparées. Les deux sources sont agencées pour fournir à chaque oreille de l'utilisateur 1 un signal différent parmi les deux signaux. Cela peut être réalisé par exemple en utilisant deux écouteurs, chaque écouteur étant disposé contre une oreille et émettant un signal différent.

Selon un autre mode de réalisation, ces deux signaux de sortie proviennent d'une même source sonore. La source émet alors un seul signal contenant les deux signaux différents. Dans ce cas, la capacité d'audition binaurale des deux oreilles de l'utilisateur est mise en œuvre de sorte à séparer les deux signaux.

De sorte à fournir à l'utilisateur l'information de comparaison entre le son produit et le son à reproduire, les signaux sonores de sortie fournis à chaque oreille de l'utilisateur 1 sont respectivement le signal de référence (6) et un signal sonore d'entrée acquis. Dans ce cas, l'utilisateur peut directement percevoir la différence entre le son produit et le son à reproduire.

Dans un autre mode de réalisation, les signaux sonores de sortie fournis à chaque oreille de l'utilisateur 1 sont respectivement le signal de référence 6 et la différence entre un signal sonore d'entrée acquis et ledit signal de référence 6.

Dans un autre mode de réalisation, l'un des deux signaux de sortie comprend un indicateur portant sur au moins une caractéristique des signaux d'entrée et du son de référence.

De sorte à faire percevoir le signe de la différence entre le son produit et le son à reproduire, l'étape de perception auditive comprend une sous-étape d'affectation des deux signaux en fonction du signe de la différence entre le signal sonore d'entrée acquis et le signal du son de référence 6. Ainsi, dans le cas où le son d'entrée est supérieur au son de référence, le son d'entrée acquis sera émis dans l'oreille gauche et le son de référence dans l'oreille droite, cette affectation étant inversée lorsque le son d'entrée est inférieur au son de référence 6.

Dans un autre mode de réalisation, la perception du signe de la différence est opérée par l'ajustement de l'amplitude des deux signaux en fonction du signe de cette différence.

Parmi les signaux de sortie fournis et perçus lors de l'étape de perception multi- sensorielle (IV), au moins un est perçu de manière visuelle et un autre de manière tactile. Ces signaux de sortie sont également en liaison avec le signal du son de référence 6 et un signal sonore d'entrée acquis.

Dans tout ce procédé de reproduction vocale, un retard est introduit au niveau des signaux d'entrée acquis de sorte à les synchroniser sur les signaux de sortie fournis. Ce retard permet ainsi de réaliser une mise en correspondance exacte entre les signaux d'entrée et de sortie au niveau de l'étape de perception multi- sensorielle (IV).

Les figures 2 à 4 représentent des schémas d'un dispositif de reproduction vocale selon un mode de réalisation de l'invention. En référence à la figure 2, le dispositif comprend dans ce mode de réalisation un microphone 50, une unité centrale 51 , un écran de visualisation 52, une paire d'écouteurs 53 et un volant 54.

Le microphone 50 réalise l'acquisition du son émis par l'utilisateur 1 et la conversion de ce son émis en signal d'entrée. Le microphone est relié à l'unité centrale 51 qui réalise le traitement des signaux d'entrée en vue d'obtenir des signaux de sortie, ainsi que l'enregistrement local des données (signaux d'entrée et de sortie).

L'unité centrale 51 est reliée au volant 54. Ce volant permet à l'utilisateur d'assurer le contrôle manuel du niveau de perception de la différence entre le son produit (le son acquis par le microphone 50) et le son à reproduire (le son de référence). L'utilisateur 1 tourne le volant 54 dans un sens ou dans l'autre de sorte à diminuer ou augmenter la dynamique dudit niveau de perception multi- sensorielle. Il peut ainsi régler lui-même son niveau de perception en fonction de son état de performance. Dans un autre mode de réalisation, le volant 54 est remplacé par un clavier de contrôle apte à réaliser les mêmes opérations d'ajustement de la différence entre le son produit et le son à reproduire.

L'unité centrale 51 est également reliée aux moyens de perception multi- sensorielle parmi lesquels la paire 53 d'écouteurs et l'écran 52 de visualisation.

En référence à la figure 3, des signaux de sortie différents sont transmis aux écouteurs 53' et 53" de la paire 53 d'écouteurs. Par exemple, dans le cas où l'amplitude du signal d'entrée est supérieure à celle du signal du son de référence, le signal transmis à l'écouteur 53' est le signal d'entrée capté par le microphone et le signal transmis à l'écouteur 53" est le signal du son de référence. Dans le cas où l'amplitude du signal d'entrée est inférieure à celle du signal du son de référence, le signal transmis à l'écouteur 53' est le signal du son de référence et le signal transmis à l'écouteur 53" est le signal d'entrée capté par le microphone. Il est ainsi possible pour l'utilisateur 1 de percevoir le signe de la différence entre les deux signaux.

En référence à la figure 4, il est affiché sur l'écran 52 de visualisation un visage virtuel tridimensionnel de correction. Ce visage indique les mouvements du visage de l'utilisateur 1 nécessaires à la reproduction du son de référence. Pour chaque affichage sur l'écran 52, le visage virtuel tridimensionnel de correction indique le type de correction à apporter (labial, articulatoire, etc.) et la courbe indique la différence entre le son produit et le son à reproduire, éventuellement avec une indication de progrès en fonction du temps. Parmi les affichages possibles sur l'écran 52, l'affichage 52' concerne une correction labiale, l'affichage 52" une correction articulatoire et l'affichage 52'" une correction vibratoire par le souffle.

Pour le chant, la position du corps et la respiration sont en effet indispensables. La position du corps peut être acquise par une caméra - ou deux caméras dans le cas de la stéréoscopie - associée à du traitement d'images. Un logiciel plus spécifiquement dédié à l'analyse du visage permet aussi d'avoir des informations sur les lèvres - en particulier leur ouverture, étirement et protrusion - de l'utilisateur, sur l'ouverture de la mâchoire et sur la hauteur de la tête relativement aux épaules. Pour la respiration et le souffle, il peut être utilisé des bandes à inductions autour de la poitrine et des abdominaux, et un capteur à hélice disposé devant la bouche.

Dans un autre mode de réalisation, le dispositif comprend également des moyens de perception tactile en complément de la paire 53 d'écouteurs et de l'écran 52 de visualisation. Ces moyens de perception tactile peuvent être par exemple constitués d'une électrode de stimulation musculaire.

Les modes de réalisation précédemment décrits de la présente invention sont donnés à titre d'exemples et ne sont nullement limitatifs. Il est entendu que l'homme du métier est à même de réaliser différentes variantes de l'invention sans pour autant sortir du cadre du brevet.

En particulier, le dispositif et le procédé peut être appliqué dans des applications multi-utilisateurs. En référence à la figure 5, qui montre un exemple de réalisation à deux utilisateurs (1 ,1 '), chaque utilisateur dispose notamment de moyens d'acquisition et de perception. Les moyens de traitement sont mutualisés via une connexion à un réseau local ou externe comme Internet. Selon un autre mode de réalisation, les moyens de traitement peuvent être propres à chaque utilisateur. Les sons de référence (6,6') à reproduire peuvent être identiques ou différents.

Claims

REVENDICATIONS

1 - Procédé de reproduction vocale d'un son de référence (6) par au moins un utilisateur (1 ), ledit procédé comprenant une étape d'acquisition (I) de signaux d'entrée, une étape de traitement (II) desdits signaux d'entrée acquis en vue de fournir (III) des signaux de sortie comprenant au moins une information de comparaison entre un signal sonore d'entrée acquis et le signal dudit son de référence (6), et une étape de perception multi-sensorielle (IV) par l'utilisateur (1 ) d'au moins un desdits signaux de sortie en vue de permettre audit utilisateur (1 ) d'atteindre ledit son de référence (6), caractérisé en ce que le niveau de perception multi-sensorielle d'au moins un signal de sortie comprenant au moins une information de comparaison entre un signal sonore d'entrée acquis et le signal dudit son de référence (6) est contrôlé par l'ajustement d'au moins un paramètre d'un signal parmi ledit signal de sortie, ledit signal d'entrée acquis et ledit signal du son de référence (6), en fonction de l'état de performance de l'utilisateur (1 ).

2 - Procédé de reproduction vocale selon la revendication 1 , dans lequel l'ajustement d'au moins un paramètre d'un signal parmi ledit signal de sortie, ledit signal d'entrée acquis et ledit signal du son de référence (6), est réalisé de manière automatique et dynamique.

3 - Procédé de reproduction vocale selon l'une quelconque des revendications 1 ou 2, dans lequel l'ajustement d'au moins un paramètre d'un signal parmi ledit signal de sortie, ledit signal d'entrée acquis et ledit signal du son de référence (6), est réalisé par l'utilisateur (1).

4 - Procédé de reproduction vocale selon l'une quelconque des revendications précédentes, dans lequel, lors de l'étape de perception multi- sensorielle (IV), une partie au moins desdits signaux de sortie fournis est perçue de manière auditive, lesdits signaux de sortie fournis et perçus de manière auditive étant constitués de sorte à fournir à l'utilisateur (1 ) deux signaux de sortie différents en liaison avec le signal dudit son de référence (6) et un signal sonore d'entrée acquis.

5 - Procédé de reproduction vocale selon la revendication 4, dans lequel lesdits signaux de sortie fournis et perçus de manière auditive proviennent d'une même source sonore.

6 - Procédé de reproduction vocale selon la revendication 4, dans lequel lesdits signaux de sortie fournis et perçus de manière auditive proviennent de deux sources sonores spatialement séparées et agencées pour fournir à chaque oreille de l'utilisateur (1) l'un parmi les deux signaux de sortie différents en liaison avec le signal dudit son de référence (6) et un signal sonore d'entrée acquis.

7 - Procédé de reproduction vocale selon l'une quelconque des revendications 4 à 6, dans lequel les signaux sonores de sortie fournis à chaque oreille de l'utilisateur (1) et perçus de manière auditive sont constitués d'une combinaison de signaux parmi au moins un signal sonore d'entrée acquis, le signal du son de référence (6) et un indicateur de la différence entre au moins un signal sonore d'entrée acquis et le signal dudit son de référence (6), ledit indicateur portant sur au moins une caractéristique desdits signaux.

8 - Procédé de reproduction vocale selon la revendication 7, dans lequel les signaux sonores de sortie fournis à chaque oreille de l'utilisateur (1) et perçus de manière auditive comportent respectivement au moins en partie le signal du son de référence (6) et un signal sonore d'entrée acquis.

9 - Procédé de reproduction vocale selon la revendication 8, dans lequel les signaux sonores de sortie fournis à chaque oreille de l'utilisateur (1) et perçus de manière auditive sont respectivement le signal de référence (6) et un signal sonore d'entrée acquis.

10 - Procédé de reproduction vocale selon la revendication 8, dans lequel les signaux sonores de sortie fournis à chaque oreille de l'utilisateur (1) et perçus de manière auditive sont respectivement le signal de référence (6) et la différence entre un signal sonore d'entrée acquis et ledit signal de référence (6).

11 - Procédé de reproduction vocale selon l'une quelconque des revendications 8 à 10, dans lequel l'affectation des signaux sonores de sortie fournis à chaque oreille de l'utilisateur (1) et perçus de manière auditive est fonction du signe de la différence entre un signal sonore d'entrée acquis et ledit signal de référence (6).

12 - Procédé de reproduction vocale selon l'une quelconque des revendications 8 à 10, dans lequel l'amplitude des signaux sonores de sortie fournis à chaque oreille de l'utilisateur (1) et perçus de manière auditive est fonction du signe de la différence entre un signal sonore d'entrée acquis et ledit signal de référence (6).

13 - Procédé de reproduction vocale selon l'une quelconque des revendications précédentes, dans lequel, lors de l'étape de perception multi- sensorielle (IV), une partie au moins desdits signaux de sortie fournis est perçue de manière visuelle, lesdits signaux de sortie fournis et perçus de manière visuelle étant en rapport avec au moins un signal sonore d'entrée acquis et le signal dudit son de référence (6).

14 - Procédé de reproduction vocale selon la revendication 13, dans lequel les signaux de sortie fournis et perçus de manière visuelle sont constitués d'une combinaison de signaux parmi au moins un signal sonore d'entrée acquis, le signal du son de référence (6) et un indicateur de la différence entre au moins un signal sonore d'entrée acquis et le signal dudit son de référence (6), ledit indicateur portant sur au moins une caractéristique desdits signaux.

15 - Procédé de reproduction vocale selon l'une quelconque des revendications 13 ou 14, dans lequel les signaux de sortie fournis et perçus de manière visuelle sont perçus par l'affichage d'un visage virtuel tridimensionnel de correction indiquant les mouvements du visage de l'utilisateur (1) nécessaires à la reproduction du son de référence (6).

16 - Procédé de reproduction vocale selon l'une quelconque des revendications précédentes, dans lequel, lors de l'étape de perception multi- sensorielle (IV), une partie au moins desdits signaux de sortie fournis est perçue de manière tactile, lesdits signaux de sortie fournis et perçus de manière tactile étant en rapport avec au moins un signal sonore d'entrée acquis et le signal dudit son de référence (6).

17 - Procédé de reproduction vocale selon l'une quelconque des revendications précédentes, fonctionnant en boucle fermée.

18 - Procédé de reproduction vocale selon l'une quelconque des revendications précédentes, dans lequel un retard est introduit au niveau des signaux d'entrée acquis de sorte à synchroniser lesdits signaux d'entrée acquis sur les signaux de sortie fournis.

19 - Dispositif de reproduction vocale d'un son de référence (6) par au moins un utilisateur (1), comprenant un système d'acquisition (2) de signaux d'entrée, lesdits signaux d'entrée comprenant au moins un signal sonore d'entrée, un système de traitement (3) desdits signaux d'entrée acquis apte à fournir des signaux de sortie comprenant au moins une information de comparaison d'un signal sonore d'entrée acquis avec le signal dudit son de référence (6), et un système de perception multi-sensorielle (4) desdits signaux de sortie fournis, agencé de manière à permettre à l'utilisateur (1) d'atteindre ledit son de référence (6), caractérisé en ce qu'il comprend un système de contrôle (5) du niveau de perception multi-sensorielle d'au moins un signal de sortie comprenant au moins une information de comparaison entre un signal sonore d'entrée acquis et le signal dudit son de référence (6), ledit système de contrôle comportant des moyens d'ajustement d'au moins un paramètre d'un signal parmi ledit signal de sortie, ledit signal d'entrée acquis et ledit signal du son de référence (6), en fonction de l'état de performance de l'utilisateur (1 ).

20 - Dispositif de reproduction vocale selon la revendication 19, comprenant des moyens d'enregistrement et de stockage (32) des signaux d'entrée acquis et des signaux de sortie fournis en vue d'établir un indicateur de progrès de la reproduction vocale du son de référence (6) par l'utilisateur (1 ).

21 - Dispositif de reproduction vocale selon l'une quelconque des revendications 19 ou 20, dans lequel le système d'acquisition (2) des signaux d'entrée comprend des moyens de perception au moins parmi des moyens de perception auditive (41 ,42), visuelle (43) et tactile (44,45), lesdits des moyens de perception étant disposés de sorte à fournir à l'utilisateur (1 ) au moins un signal de sortie en rapport avec au moins un signal sonore d'entrée acquis et le signal dudit son de référence (6).