FR2946175A1 - Procede pour detecter des paroles dans la voix et utilisation de ce procede dans un jeu de karaoke - Google Patents

Procede pour detecter des paroles dans la voix et utilisation de ce procede dans un jeu de karaoke Download PDF

Info

Publication number
FR2946175A1
FR2946175A1 FR0953603A FR0953603A FR2946175A1 FR 2946175 A1 FR2946175 A1 FR 2946175A1 FR 0953603 A FR0953603 A FR 0953603A FR 0953603 A FR0953603 A FR 0953603A FR 2946175 A1 FR2946175 A1 FR 2946175A1
Authority
FR
France
Prior art keywords
state
instantaneous
voice
signal
voicing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR0953603A
Other languages
English (en)
Other versions
FR2946175B1 (fr
Inventor
Nicolas Delorme
Damien Henry
Aymeric Zils
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
VOXLER
Original Assignee
VOXLER
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by VOXLER filed Critical VOXLER
Priority to FR0953603A priority Critical patent/FR2946175B1/fr
Priority to EP10728822.7A priority patent/EP2436004B1/fr
Priority to PCT/FR2010/051013 priority patent/WO2010136722A1/fr
Priority to ES10728822.7T priority patent/ES2477198T3/es
Publication of FR2946175A1 publication Critical patent/FR2946175A1/fr
Application granted granted Critical
Publication of FR2946175B1 publication Critical patent/FR2946175B1/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/932Decision in previous or following frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Telephonic Communication Services (AREA)

Abstract

La présente invention concerne essentiellement un procédé pour détecter la présence de paroles dans un signal (S) voix caractérisé en ce qu'il comporte - l'étape de mesurer à l'instant d'analyse (ti) une alternance phonémique (Vi) dans le signal (S) de voix sur une période de référence TRi, - si on ne détecte pas d'alternance phonémique pendant la période (TRi) de référence alors - on en déduit qu'il n'y a pas de prononciation de paroles dans le signal (S) de voix à l'instant d'analyse (ti), - sinon on en déduit qu'il y a prononciation de paroles dans le signal (S) de voix à l'instant (ti). L'invention trouve une application particulièrement avantageuse dans les applications de type jeu de Karaoké.

Description

PROCEDE POUR DETECTER DES PAROLES DANS LA VOIX ET UTILISATION DE CE PROCEDE DANS UN JEU DE KARAOKE
[1]. La présente invention concerne un procédé pour détecter des paroles chantées dans la voix. L'invention a notamment pour but de proposer un procédé simple à mettre en oeuvre et peu consommateur en ressources pour détecter des paroles dans la voix.
[2]. L'invention trouve une application particulièrement avantageuse, mais non exclusive, pour des applications de type Karaoké . On rappelle que le Karaoké est un jeu dans lequel le joueur chante une chanson connue io sur un accompagnement généralement à la place du chanteur original, en suivant généralement les paroles sur un écran. En variante, l'invention pourrait également être utilisée dans des applications interactives vocales, par exemple dans tout jeu vidéo au sein duquel on souhaite détecter si le joueur parle.
15 [003]. Des jeux vidéos de Karaoké comme SingStar (marque déposée) évaluent uniquement la justesse du chant d'un joueur par rapport à une mélodie de référence. En conséquence, un joueur qui fredonne en rythme la mélodie (sans chanter les paroles) obtiendra le même score voire un meilleur score qu'un joueur qui chante effectivement les paroles. En effet, 20 en fredonnant, le joueur peut se concentrer uniquement sur la justesse de la mélodie et/ou la précision rythmique, ce qui est beaucoup plus facile que s'il devait faire l'effort de placer les bonnes paroles de la chanson sur la bonne mélodie et/ou sur le bon rythme.
[4]. En particulier dans certaines chansons de rap, il n'y a pas de 25 mélodie et le rythme est trop rapide pour être évalué de manière fiable. Dans ce cas, la détection des paroles dans la chanson est un critère pertinent pour évaluer le joueur.
[5]. Pour tenir compte des paroles dans le score du joueur, certains jeux récents essayent d'intégrer de la reconnaissance de paroles, avec des 30 performances discutables, ces mécanismes de reconnaissance de parole étant très difficiles à réaliser et très coûteux algorithmiquement. En effet, ils nécessitent des calculs complexes (utilisation de modèles HMM) afin de reconnaître des mots complets, ce qui est difficile à mettre en oeuvre et entraîne des erreurs fréquentes ainsi qu'une importante latence. [006]. La présente invention permet de vérifier si le joueur chante les paroles de manière beaucoup plus simple que la reconnaissance vocale traditionnelle, en abordant le problème de manière originale : on ne cherche pas à reconnaître les mots chantés par le joueur, ce qui n'a pas vraiment de sens puisque ceux-ci sont déjà connus (ils sont affichés sur l'écran), mais io à vérifier si le joueur chante des paroles, au lieu de par exemple simplement fredonner la mélodie.
[007]. L'invention part ainsi du constat que tout langage parlé et a fortiori chanté est caractérisé par une alternance de sons variés (différents phonèmes) appelée dans ce document alternance phonémique . On 15 entend par phonémique ce qui se rapporte aux phonèmes, c'est-à-dire à chacun des sons composant une langue. Cette alternance phonémique peut par exemple être définie par une alternance entre des voyelles et des consonnes, ou entre des sons voisés et des sons non-voisés, ou entre diverses voyelles, ou entre diverses consonnes etc...
20 [008]. On entend par fredonnement l'absence d'alternance phonémique. Par exemple, lorsque l'on fredonne, on émet uniquement des sons voisés de type la la la , mmmm , ah ah ah caractérisés par une absence d'alternance entre sons voisés et sons non-voisés et donc une absence d'alternance phonémique si on choisit de la définir par une alternance de 25 sons voisés et de sons non voisés. A contrario, une personne qui chante les paroles d'une chanson alterne, sauf exception, l'émission de sons voisés et de sons non voisés.
[009]. L'invention propose de distinguer l'alternance phonémique, c'est-à-dire la prononciation de paroles par rapport à l'absence d'alternance 30 phonémique (fredonnement). [010]. On rappelle qu'un son est dit voisé Si sa production s'accompagne d'une vibration des cordes vocales, et non-voisé sinon. Etant donné que le langage parlé est un assemblage de voyelles et de consonnes voisées qui font vibrer les cordes vocales et de consonnes non voisées qui ne font pas vibrer les cordes vocales, on observe naturellement cette alternance entre sons voisés et non voisés. Ce constat vaut pour les principales langues parlées dans le monde. En revanche, lorsque l'on fredonne, le son émis correspond à une émission continue de sons voisés de type lalala ou aaaaaaa ou mmmmmmm .
io [011]. Dans l'invention on observe si, pendant une période de référence, la voix du joueur présente des variations de voisement ou non. Si c'est le cas, alors on en déduit que le joueur est en train de chanter des paroles sur cette période de référence ; alors que si ce n'est pas le cas, on en déduit que le joueur est en train de fredonner sur cette période de référence. On s'est 15 aperçu qu'une période de référence d'une seconde environ permettait d'obtenir de bons résultats. Toutefois toute autre période de référence est envisageable.
[12]. Dans une mise en oeuvre, on mesure l'alternance phonémique liée au caractère voisé et non voisé de la voix. A cet effet on calcule un 20 coefficient de voisement de la voix qui présente des valeurs élevées lorsque le son de la voix est voisé et des valeurs basses lorsque le son de la voix n'est pas voisé. Dans un exemple, ce coefficient de voisement correspond à la mesure de la qualité de l'extraction des fréquences du signal de voix. Lorsque ce coefficient de voisement est supérieur à une valeur seuil pendant 25 toute la période de référence alors on en déduit que le joueur est en train de fredonner ; en revanche lorsque le coefficient de voisement n'est pas supérieur à la valeur seuil pendant toute la période de référence, on en déduit que le joueur est en train de chanter.
[13]. L'invention consiste ainsi à vérifier uniquement si le joueur 30 prononce de véritables paroles et n'est pas en train de fredonner, sans s'assurer que les paroles correspondent effectivement aux paroles de la chanson. Il n'est donc pas utile de vérifier si les paroles chantées sont les vraies paroles de la chanson, mais uniquement si des paroles sont chantées. En effet, si le fredonnement est une aide importante dans ce genre de jeux, le fait de chanter d'autres paroles sur une chanson est plutôt une difficulté supplémentaire pour le joueur. [014]. Plus généralement, la mesure de voisement/non-voisement n'est qu'une façon de mesurer l'alternance phonémique. Toute autre méthode permettant de mesurer une variation, par exemple variation des consonnes prononcées (mesure de la présence de certaines consonnes par d'autres méthodes que la mesure du taux de voisement) ou variation des voyelles io prononcées (dans le triangle vocalique), produirait le même type de résultat.
[15]. Ainsi, alternativement, si on choisit de caractériser l'alternance phonémique par l'alternance de voyelles différentes, on mesure une variation de timbre dans le triangle vocalique. Car un joueur qui fredonne ne fait pas varier le timbre de sa voix tandis que le joueur qui chante des paroles fait 15 varier naturellement le timbre de sa voix. Dans le cas où on ne détecte pas de variation du timbre de la voix dans le triangle vocalique sur la période de référence, on en déduit que le joueur est en train de fredonner ; alors que dans le cas où on détecte une variation du timbre de la voix dans le triangle vocalique sur la période de référence, on en déduit que le joueur est en train 20 de chanter des paroles.
[16]. Alternativement, on sépare les consonnes et ou les voyelles en plusieurs groupes, par exemple quatre groupes de consonnes et de voyelles. Si toutes les consonnes et toutes les voyelles appartiennent au même groupe, alors on peut considérer que la personne fredonne. A contrario si le 25 groupe auquel appartiennent les consonnes et ou les voyelles varie, la personne est en train de dire des paroles c'est-à-dire un texte dont le contenu varie en termes de consonnes et/ou de voyelles.
[17]. L'invention concerne donc un procédé pour détecter la présence de paroles dans un signal de voix caractérisé en ce qu'il comporte l'étape de 30 - mesurer à un instant d'analyse l'alternance phonémique dans le signal de voix caractérisée par une alternance de sons variés sur une période de référence, - si on ne détecte pas d'alternance phonémique sur la période de référence alors - on en déduit qu'il n'y a pas prononciation de paroles dans le signal de voix s à l'instant d'analyse, - sinon on en déduit qu'il y a prononciation de paroles dans le signal de voix à l'instant d'analyse.
[018]. Selon une mise en oeuvre, la période de référence précède l'instant d'analyse.
io [019]. Selon une mise en oeuvre, il utilise le coefficient de voisement comme mesure de l'alternance phonémique et comporte l'étape de - comparer le coefficient de voisement à une valeur seuil, et - si le coefficient de voisement est supérieur à la valeur seuil pendant la période de référence alors 15 - on en déduit qu'il y a aucun instant non voisé dans la voix pendant cette durée seuil et qu'il n'y a donc pas prononciation de paroles à l'instant d'analyse, - sinon on en déduit qu'il y a prononciation de paroles à l'instant d'analyse.
[20]. Selon une mise en oeuvre, le coefficient de voisement est le 20 paramètre de qualité dans l'extraction de la fréquence du signal de voix.
[21]. Selon une mise en oeuvre, la période de référence est de l'ordre de 1 seconde.
[22]. Selon une mise en oeuvre, l'étape de comparaison du paramètre de voisement avec la valeur seuil est effectuée uniquement si l'énergie du 25 signal de voix est supérieure à une valeur seuil.
[23]. Selon une mise en oeuvre, le signal de voix étant échantillonné, il comporte les étapes suivantes : - calculer une intensité instantanée et un coefficient de voisement instantané pour des points du signal de voix à des instants d'analyse espacés entre eux par une période d'analyse sur la période de référence, - déterminer les états instantanés du signal de voix à chaque instant d'analyse à partir des mesures de l'énergie instantanée et du coefficient de voisement du signal de voix, ces états instantanés pouvant être l'état voisé correspondant à l'émission d'un son de nature voisée, ou l'état non voisé correspondant à l'émission d'un son de nature non voisée, - si tous les états instantanés sont de type voisés sur la période de référence alors on en déduit qu'il n'y a pas prononciation de paroles dans le signal de voix à l'instant d'analyse, io - sinon on en déduit qu'il y a prononciation de paroles dans le signal de voix à l'instant d'analyse.
[024]. Selon une mise en oeuvre, pour déterminer l'état instantané du signal de voix à l'instant d'analyse, - on compare le coefficient de voisement avec un seuil, 15 - si le coefficient de voisement est inférieur au seuil alors l'état instantané est non voisé , - sinon on en déduit que l'état instantané est voisé .
[025]. Selon une mise en oeuvre, l'état instantané peut prendre en outre l'état silence correspondant à l'absence d'un son de puissance suffisante, 20 - si les N derniers états instantanés sur la période de référence sont de type silence alors on en déduit que le signal ne contient pas de voix à l'instant, sinon - on conserve, sur la période de référence, uniquement les états instantanés de type voisés ou non voisés à l'exclusion des états instantanés de 25 type silence .
[026]. Selon une mise en oeuvre, pour déterminer l'état instantané du signal de voix, - on compare l'énergie instantanée du signal de voix à un premier seuil, - si l'énergie du signal est inférieure au seuil, alors on en déduit que l'état 30 instantané vaut silence , - sinon on compare le coefficient de voisement avec un deuxième seuil, - si le coefficient de voisement est inférieur au deuxième seuil alors l'état instantané vaut non voisé , - sinon on en déduit que l'état instantané State_Pi vaut voisé .
[027]. Selon une mise en oeuvre, la période d'analyse vaut 20ms et la durée de la période de référence 1s. [028]. Selon une mise en oeuvre, le signal de voix est échantillonné à 16kHz.
[29]. L'invention concerne en outre l'utilisation du procédé selon l'invention dans une application de type jeu de Karaoké.
[30]. Selon une utilisation, on inhibe la mise en oeuvre du procédé selon io l'invention pour les passages voisés de chanson ayant une durée supérieure à la durée de la période de référence ou sur des passages de chansons arbitrairement choisis.
[31]. L'invention sera mieux comprise à la lecture de la description qui suit et à l'examen des figures qui l'accompagnent. Ces figures ne sont 15 données qu'à titre illustratif mais nullement limitatif de l'invention. Elles montrent :
[32]. Figure 1 : une représentation graphique de l'amplitude d'un signal de voix en fonction du temps et du signal de fréquence qui en a été extrait à l'aide d'un algorithme de détection de la fréquence ainsi que le signal de 20 qualité de l'extraction de la fréquence ;
[33]. Figure 2 : une représentation schématique des étapes du procédé selon l'invention permettant de calculer des états instantanés du signal de voix ;
[34]. Figure 3 : une représentation schématique des étapes du procédé 25 selon l'invention permettant de détecter si le joueur chante des paroles ou fredonne à partir des états instantanés du signal de voix ; [035]. Figure 4 : une représentation graphique de l'amplitude du signal de voix correspondant à des paroles chantées ainsi que l'état activé ou désactivé de la fonction de détection de paroles selon l'invention au cours de la chanson. [036]. Les éléments identiques conservent la même référence d'une figure à l'autre.
[37]. La Figure 1 montre une représentation schématique de l'amplitude d'un signal S de voix en fonction du temps t.
[38]. Dans une première étape 10 du procédé selon l'invention montrée io sur la Figure 2, on mesure l'énergie Ei instantanée et le coefficient Vi de voisement représentatif du voisement de la voix pour tous les points Pi du signal S de voix analysés aux instants d'analyse ti espacés entre eux dans le temps par une période TA d'analyse. Plus le coefficient Vi est élevé, plus le son de la voix à l'instant ti est voisé ; tandis que plus ce coefficient Vi est 15 faible, moins le son de la voix à l'instant ti est voisé.
[39]. A partir de ces mesures, on en déduit l'état instantané State_Pi du signal S de voix en chaque point Pi, cet état State_Pi pouvant être l'état silence correspondant à l'absence d'un signal de voix de puissance suffisante, l'état voisé correspondant à l'émission d'un son de nature 20 voisée, et l'état non voisé correspondant à l'émission d'un son de nature non voisée.
[40]. A cet effet, on compare dans une étape 13 l'énergie Ei instantanée du signal S de voix à un seuil A. Dans un exemple ce seuil vaut 0.02 pour un signal normalisé. Si l'énergie Ei du signal est inférieure au seuil A, alors on 25 en déduit dans une étape 15 que l'état instantané State_Pi du point Pi est silence . En revanche si l'énergie Ei du signal de voix est supérieure au seuil A, alors on en déduit qu'un son de puissance suffisante sort effectivement de la bouche du joueur et on détermine ensuite si le son est voisé ou non voisé. [41]. A cet effet, on compare dans une étape 17 le coefficient de voisement Vi avec un seuil B. Dans un exemple, B vaut 0.3 pour un signal normalisé. Si le coefficient Vi de voisement est inférieur au seuil B alors on en déduit que le son est non-voisé dans une étape 18 (l'état instantané State_Pi vaut alors non voisé ). Cela signifie que le joueur est vraisemblablement en train de prononcer un son notamment de type P, T, K, B, D, G, CH, F, S.
[42]. Tandis que si le coefficient Vi de voisement est supérieur au seuil B alors on en déduit que le son est voisé dans une étape 19 (l'état instantané io State_Pi vaut alors voisé ). Cela signifie que le joueur est vraisemblablement en train de prononcer une voyelle ou une consonne voisée.
[43]. Dans un exemple, pour calculer l'énergie instantanée Ei et le coefficient Vi de voisement, on applique au signal S de voix un algorithme qui 15 permet d'extraire les fréquences de ce signal S représentées en fonction du temps par la courbe S' sur la Figure 1.
[44]. Le coefficient Vi de voisement correspond au coefficient Q de la mesure de la qualité de la détection de la fréquence par l'algorithme de détection de la fréquence représenté en fonction du temps par la courbe S". 20 La qualité Q de l'extraction de la fréquence du signal de voix S, qui est en relation très étroite avec le voisement de la voix, sera très élevée pour les parties voisées de la voix au cours desquelles les cordes vocales vibrent, ce qui permet d'extraire facilement la fréquence du signal S de voix. Tandis que la qualité Q de l'extraction de la fréquence du signal S de voix sera peu 25 élevée pour les parties non voisées au cours desquelles les cordes vocales ne vibrent pas ou très peu, ce qui rend difficile l'extraction de la fréquence du signal S de voix.
[45]. Dans un exemple, l'algorithme de détection de la fréquence est l'algorithme YIN. Cet algorithme, connu de l'homme du métier, est 30 précisément décrit dans le document de brevet de France Télécom ayant le numéro d'enregistrement national français 0107284. La qualité de détection de la hauteur est la valeur (1-d'), d' étant la fonction différence moyennée et normalisée de l'algorithme de YIN telle que décrite au sein du document de brevet de France Télécom ayant le numéro d'enregistrement national français 0107284, et représentée en fonction du temps par la courbe S". [046]. En variante, le coefficient de voisement est par exemple une mesure du bruit non-harmonique contenu dans le signal audio, mesuré par exemple par le zero-crossing rate (ZCR), une valeur faible de ZCR étant caractéristique d'un son voisé tandis qu'une valeur élevée de ZCR est caractéristique d'un son non voisé. L'utilisation du ZCR est particulièrement io avantageuse dans le cas où l'on souhaite réduire au maximum la consommation CPU du système.
[47]. Dans un exemple, le signal de voix S étant échantillonné à 16kHz, l'énergie instantanée Ei et la qualité Qi sont calculés tous les TA=20 ms en appliquant l'algorithme de détection de la fréquence sur les derniers 1024 15 points échantillonnés du signal S de manière à effectuer un recoupement entre les différents morceaux du signal S analysé (les derniers 1024 points correspondant à environ 3 périodes TA de 20ms). En variante, il n'y a pas de recoupement entre les différents morceaux du signal analysés.
[48]. Ensuite, comme représenté sur la Figure 3, dans une étape 25, on 20 effectue une analyse du signal S de voix sur une période de référence TRi de durée de référence TR (environ une seconde) avant l'instant ti, ce qui revient à conserver les 50 derniers états instantanés State_Pj pour TA=20 ms. En variante, le nombre d'états instantanés State_Pj conservés pourrait être différent pour effectuer une analyse sur une période de référence TRi plus ou 25 moins longue. En variante la période de référence TRi peut être remplacée par un ensemble de points autour de l'instant ti, que ces points soient avant ou après l'instant ti.
[49]. Dans une étape 27, on analyse si les N derniers états (typiquement N=5 soit 100ms) instantanés State_Pj du signal S sont des 30 silences. Si c'est le cas, on en déduit que l'instant ti d'analyse est un instant de silence. Sinon on en déduit que ti n'est pas un instant de silence et on détermine alors si il s'agit d'un instant ti chanté ou fredonné.
[050]. A cet effet, dans une étape 30, on conserve parmi les 50 derniers états instantanés du signal uniquement les états instantanés State_Pj de type voisé ou non voisé à l'exclusion des états de silence. Puis on analyse dans une étape 33 si tous les états instantanés State_Pj conservés sont des états voisés . Si c'est le cas, alors on en déduit à l'étape 34 que le signal S de voix correspond à un fredonnement à l'instant ti puisqu'il est a priori impossible de ne pas observer au moins un passage non voisé au cours de la période de référence TRi dans un langage chanté. En io revanche, si il n'y a pas uniquement des états voisés, alors on en déduit à l'étape 35 que le signal S de voix correspond à un chant de paroles à l'instant ti puisqu'il est a priori naturel d'observer au moins un passage non voisé au cours de la période de référence TRi dans un langage chanté avec des paroles.
15 [051]. Lors de l'utilisation de l'invention dans un Karaoké, le joueur pourra être pénalisé pour chaque instant ti pendant lequel il a fredonné au lieu de chanter les paroles de la chanson à interpréter, ou au contraire récompensé pour chaque instant ti où il a chanté avec les paroles.
[052]. Il est possible que certaines chansons présentent des passages 20 voisés ayant une durée supérieure à la durée TR de la période de référence. Ainsi la Figure 4 montre l'amplitude 41 du signal S de voix correspondant aux paroles 42 d'une chanson dans laquelle le passage 42.1 entièrement voisé la lune mon ami (en grisé) a une durée TD supérieure à la durée TR de la période de référence.
25 [053]. Afin d'éviter de fausses détections de fredonnement sur ces paroles particulières, il peut être utile d'inhiber la fonction de détection des paroles sur toute la durée TD du passage voisé 42.1. Ainsi comme montré dans le bandeau 43 de la Figure 4, la fonction de détection de paroles selon l'invention est inhibée sur la période TD (mise sur OFF) mais activée pour le 30 reste de la chanson (mise sur ON). [054]. On peut aussi activer cette fonction de détection des paroles pendant une partie seulement de la chanson (par exemple le refrain) pour laquelle il faut connaître les paroles et pas pendant d'autres (par exemple les couplets) pendant lesquelles la connaissance des paroles devient facultative. [055]. On note que la détection des silences dans le signal S de voix optimise le fonctionnement du procédé selon l'invention car il évite que certains bruits blancs parasites ne soient arbitrairement considérés comme des sons de type voisé ou non voisé. Toutefois en variante, dans un fonctionnement dégradé, on supprime les étapes 13, 15, 27 et 29 de io détection des silences et on analyse simplement si l'état instantané State_Pi du signal S est voisé ou non voisé , puis on analyse les états instantanés du signal S de voix sur la période de référence TRi. On en déduit que le joueur fredonne si tous ces états instantanés sont de type voisés et qu'il chante dans le cas contraire.

Claims (14)

  1. REVENDICATIONS1. Procédé pour détecter la présence de paroles dans un signal (S) de voix caractérisé en ce qu'il comporte l'étape de - mesurer à un instant d'analyse (ti) l'alternance phonémique dans le signal (S) de voix caractérisée par une alternance de sons variés sur une période de référence (TRi), - si on ne détecte pas d'alternance phonémique sur la période de référence (TRi) alors io - on en déduit qu'il n'y a pas prononciation de paroles dans le signal (S) de voix à l'instant d'analyse (ti), - sinon on en déduit qu'il y a prononciation de paroles dans le signal (S) de voix à l'instant d'analyse (ti). 15
  2. 2. Procédé selon la revendication 1, caractérisé en ce que la période de référence (TRi) précède l'instant d'analyse (ti).
  3. 3. Procédé selon la revendication 1 ou 2, caractérisé en ce qu'il utilise le coefficient de voisement (Vi) comme mesure de l'alternance phonémique 20 et comporte l'étape de - comparer le coefficient (Vi) de voisement à une valeur seuil (B), et - si le coefficient (Vi) de voisement est supérieur à la valeur seuil (B) pendant la période (TRi) de référence alors - on en déduit qu'il y a aucun instant non voisé dans la voix pendant 25 cette durée seuil et qu'il n'y a donc pas prononciation de paroles à l'instant d'analyse (ti), - sinon on en déduit qu'il y a prononciation de paroles à l'instant d'analyse (ti). 30
  4. 4. Procédé selon l'une des revendications 1 à 3, caractérisé en ce que le coefficient (Vi) de voisement est le paramètre de qualité (Q) dans l'extraction de la fréquence (f) du signal (S) de voix.
  5. 5. Procédé selon l'une des revendications 1 à 4, caractérisé en ce que 35 la période (TRi) de référence est de l'ordre de 1 seconde.
  6. 6. Procédé selon l'une des revendications 3 à 5, caractérisé en ce que l'étape de comparaison du paramètre (Vi) de voisement avec la valeur seuil (B) est effectuée uniquement si l'énergie (Ei) du signal (S) de voix est supérieure à une valeur seuil (A).
  7. 7. Procédé selon la revendication 1 ou 2, caractérisé en ce que le signal de voix (S) étant échantillonné, il comporte les étapes suivantes : - calculer une intensité instantanée (Ei) et un coefficient (Vi) de io voisement instantané pour des points (Pi) du signal de voix à des instants (ti) d'analyse espacés entre eux par une période d'analyse (TA) sur la période de référence (TRi), - déterminer les états instantanés State_Pi du signal (S) de voix à chaque instant ti à partir des mesures de l'énergie Ei instantanée et du 15 voisement (Vi) du signal (S) de voix, ces états instantanés pouvant être l'état voisé correspondant à l'émission d'un son de nature voisée, ou l'état non voisé correspondant à l'émission d'un son de nature non voisée, - si tous les états instantanés State_Pj sont de type voisés sur la période (TRi) de référence alors on en déduit qu'il n'y a pas prononciation 20 de paroles dans le signal (S) de voix à l'instant d'analyse (ti), - sinon on en déduit qu'il y a prononciation de paroles dans le signal (S) de voix à l'instant d'analyse (ti).
  8. 8. Procédé selon la revendication 7, caractérisé en ce que pour 25 déterminer l'état instantané State_Pi du signal S de voix à l'instant d'analyse (ti), - on compare le coefficient de voisement Vi avec un seuil (B), - si le coefficient (Vi) de voisement est inférieur au seuil (B) alors l'état instantané State_Pi vaut non voisé , 30 - sinon on en déduit que l'état instantané State_Pi vaut voisé .
  9. 9. Procédé selon la revendication 7, caractérisé en ce que l'état instantané State_Pi peut prendre en outre l'état silence correspondant à l'absence d'un son de puissance suffisante, 35 - si les N derniers états instantanés State_Pj sur la période (TRi)de référence sont de type silence alors on en déduit que le signal ne contient pas de voix à l'instant (ti), sinon - on conserve, sur la période de référence (TRi), uniquement les états instantanés de type voisés ou non voisés à l'exclusion des états instantanés State_Pj de type silence .
  10. 10. Procédé selon la revendication 9, caractérisé en ce que pour déterminer l'état instantané State_Pi du signal (S) de voix, - on compare l'énergie (Ei) instantanée du signal S de voix à un premier seuil (A), - si l'énergie (Ei) du signal est inférieure au seuil (A), alors on en déduit que l'état instantané State_Pi vaut silence , - sinon on compare le coefficient de voisement (Vi) avec un deuxième seuil (B), si le coefficient (Vi) de voisement est inférieur au deuxième seuil (B) alors l'état instantané State Pi vaut non voisé , sinon on en déduit que l'état instantané State_Pi vaut voisé .
  11. 11. Procédé selon l'une des revendications 7 à 10, caractérisé en ce que la période (TA) d'analyse vaut 20ms et la durée (TR) de la période de référence 1s.
  12. 12. Procédé selon la revendication 7 à 11, caractérisé en ce que le signal de voix (S) est échantillonné à 16kHz.
  13. 13. Utilisation du procédé selon l'une des revendications 1 à 12 dans une application de type jeu de Karaoké.
  14. 14. Utilisation selon la revendication 13, caractérisée en ce que on inhibe la mise en oeuvre du procédé selon l'une des revendications 1 à 12 pour les passages voisés (42.1) de chanson ayant une durée (TD) supérieure à la durée (TR) de la période de référence ou sur des passages de chansons arbitrairement choisis.
FR0953603A 2009-05-29 2009-05-29 Procede pour detecter des paroles dans la voix et utilisation de ce procede dans un jeu de karaoke Active FR2946175B1 (fr)

Priority Applications (4)

Application Number Priority Date Filing Date Title
FR0953603A FR2946175B1 (fr) 2009-05-29 2009-05-29 Procede pour detecter des paroles dans la voix et utilisation de ce procede dans un jeu de karaoke
EP10728822.7A EP2436004B1 (fr) 2009-05-29 2010-05-27 Procede pour detecter des paroles chantees et utilisation de ce procede dans un jeu de karaoke
PCT/FR2010/051013 WO2010136722A1 (fr) 2009-05-29 2010-05-27 Procede pour detecter des paroles dans la voix et utilisation de ce procede dans un jeu de karaoke
ES10728822.7T ES2477198T3 (es) 2009-05-29 2010-05-27 Procedimiento para detectar palabras cantadas y utilización de este procedimiento en un juego de Karaoke

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0953603A FR2946175B1 (fr) 2009-05-29 2009-05-29 Procede pour detecter des paroles dans la voix et utilisation de ce procede dans un jeu de karaoke

Publications (2)

Publication Number Publication Date
FR2946175A1 true FR2946175A1 (fr) 2010-12-03
FR2946175B1 FR2946175B1 (fr) 2021-06-04

Family

ID=41227263

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0953603A Active FR2946175B1 (fr) 2009-05-29 2009-05-29 Procede pour detecter des paroles dans la voix et utilisation de ce procede dans un jeu de karaoke

Country Status (4)

Country Link
EP (1) EP2436004B1 (fr)
ES (1) ES2477198T3 (fr)
FR (1) FR2946175B1 (fr)
WO (1) WO2010136722A1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2988894A1 (fr) * 2012-03-30 2013-10-04 Adeunis R F Procede de detection de la voix

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930873B (zh) * 2012-09-29 2014-04-09 福州大学 基于信息熵的音乐哼唱检测方法
US9202520B1 (en) * 2012-10-17 2015-12-01 Amazon Technologies, Inc. Systems and methods for determining content preferences based on vocal utterances and/or movement by a user
CN109147783B (zh) * 2018-09-05 2022-04-01 厦门巨嗨科技有限公司 基于k歌系统的语音识别方法、介质及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6023674A (en) * 1998-01-23 2000-02-08 Telefonaktiebolaget L M Ericsson Non-parametric voice activity detection
WO2008077281A1 (fr) * 2006-12-27 2008-07-03 Intel Corporation Procédé et appareil pour la segmentation du discours

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7674181B2 (en) * 2005-08-31 2010-03-09 Sony Computer Entertainment Europe Ltd. Game processing

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6023674A (en) * 1998-01-23 2000-02-08 Telefonaktiebolaget L M Ericsson Non-parametric voice activity detection
WO2008077281A1 (fr) * 2006-12-27 2008-07-03 Intel Corporation Procédé et appareil pour la segmentation du discours

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DE CHEVEIGNÉ ALAIN ET AL: "YIN, a fundamental frequency estimator for speech and musica)", JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA, AIP / ACOUSTICAL SOCIETY OF AMERICA, MELVILLE, NY, US, vol. 111, no. 4, 1 April 2002 (2002-04-01), pages 1917 - 1930, XP012002854, ISSN: 0001-4966 *
P. PRADEEP KUMAR ET AL: "Note Onset Detection in Natural Humming", PROCEEDINGS INTERNATIONAL CONFERENCE ON COMPUTATIONAL INTELLIGENCE AND MULTIMEDIA APPLICATIONS (ICCIMA 2007), vol. 4, 13 December 2007 (2007-12-13), pages 176 - 180, XP002554181, ISBN: 978-0-7695-3050-5 *
WU CHOU ET AL: "Robust singing detection in speech/music discriminator design", 2001 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING. PROCEEDINGS. (ICASSP). SALT LAKE CITY, UT, MAY 7 - 11, 2001; [IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP)], NEW YORK, NY : IEEE, US, vol. 2, 7 May 2001 (2001-05-07), pages 865 - 868, XP010803742, ISBN: 978-0-7803-7041-8 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2988894A1 (fr) * 2012-03-30 2013-10-04 Adeunis R F Procede de detection de la voix

Also Published As

Publication number Publication date
EP2436004B1 (fr) 2014-04-02
WO2010136722A1 (fr) 2010-12-02
ES2477198T3 (es) 2014-07-16
FR2946175B1 (fr) 2021-06-04
EP2436004A1 (fr) 2012-04-04

Similar Documents

Publication Publication Date Title
Marolt A connectionist approach to automatic transcription of polyphonic piano music
Li et al. Separation of singing voice from music accompaniment for monaural recordings
EP2419900B1 (fr) Procede et dispositif d'evaluation objective de la qualite vocale d'un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal
Kos et al. Acoustic classification and segmentation using modified spectral roll-off and variance-based features
US20130025435A1 (en) Musical harmony generation from polyphonic audio signals
US8158871B2 (en) Audio recording analysis and rating
Rocamora et al. Comparing audio descriptors for singing voice detection in music audio files
EP2415047A1 (fr) Procede et dispositif de classification du bruit de fond contenu dans un signal audio
US20090171485A1 (en) Segmenting a Humming Signal Into Musical Notes
EP2436004B1 (fr) Procede pour detecter des paroles chantees et utilisation de ce procede dans un jeu de karaoke
Sonnleitner et al. A simple and effective spectral feature for speech detection in mixed audio signals
Mertens Polytonia: a system for the automatic transcription of tonal aspects in speech corpora
Barbancho et al. Transcription and expressiveness detection system for violin music
CN105895079B (zh) 语音数据的处理方法和装置
EP2186315A1 (fr) Procédé pour composer automatiquement une sonnerie personnalisée à partir d'un enregistrement de voix fredonnée et téléphone portable mettant en oeuvre ce procédé
Ohishi et al. Discrimination between singing and speaking voices.
TWI299855B (en) Detection method for voice activity endpoint
Shenoy et al. Singing voice detection for karaoke application
Oudre Template-based chord recognition from audio signals
CN113129923A (zh) 一种艺术测评中多维度唱奏分析测评方法及系统
JP2011022489A (ja) 音高認識方法、音高認識プログラム、記録媒体、及び音高認識システム
JP4367436B2 (ja) 音声信号処理装置、音声信号処理方法および音声信号処理プログラム
Rao et al. Vocal melody detection in the presence of pitched accompaniment using harmonic matching methods
Gainza et al. Onset detection and music transcription for the Irish tin whistle
Cai Analysis of Acoustic Feature Extraction Algorithms in Noisy Environments

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 8

PLFP Fee payment

Year of fee payment: 9

PLFP Fee payment

Year of fee payment: 10

PLFP Fee payment

Year of fee payment: 11

PLFP Fee payment

Year of fee payment: 12

PLFP Fee payment

Year of fee payment: 13

PLFP Fee payment

Year of fee payment: 14

PLFP Fee payment

Year of fee payment: 15