EP2436004A1 - Procede pour detecter des paroles dans la voix et utilisation de ce procede dans un jeu de karaoke - Google Patents

Procede pour detecter des paroles dans la voix et utilisation de ce procede dans un jeu de karaoke

Info

Publication number
EP2436004A1
EP2436004A1 EP10728822A EP10728822A EP2436004A1 EP 2436004 A1 EP2436004 A1 EP 2436004A1 EP 10728822 A EP10728822 A EP 10728822A EP 10728822 A EP10728822 A EP 10728822A EP 2436004 A1 EP2436004 A1 EP 2436004A1
Authority
EP
European Patent Office
Prior art keywords
state
voice
instantaneous
signal
voicing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP10728822A
Other languages
German (de)
English (en)
Other versions
EP2436004B1 (fr
Inventor
Nicolas Delorme
Damien Henry
Aymeric Zils
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Voxler
Original Assignee
Voxler
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Voxler filed Critical Voxler
Publication of EP2436004A1 publication Critical patent/EP2436004A1/fr
Application granted granted Critical
Publication of EP2436004B1 publication Critical patent/EP2436004B1/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/932Decision in previous or following frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Definitions

  • the present invention relates to a method for detecting lyrics sung in the voice.
  • the invention aims in particular to provide a simple method to implement and little consumer resources to detect speech in the voice.
  • the invention finds a particularly advantageous, but not exclusive, application for "karaoke" type applications. Recall that Karaoke is a game in which the player sings a known song on an accompaniment usually in place of the original singer, usually following the lyrics on a screen. Alternatively, the invention could also be used in voice interactive applications, for example in any video game in which it is desired to detect if the player speaks.
  • Karaoke video games such as "SingStar” (registered trademark) only evaluate the accuracy of a player's song in relation to a reference melody. As a result, a player who hums in rhythm the melody (without singing the lyrics) will get the same score or a better score than a player who actually sings the lyrics. Indeed, by humming, the player can focus only on the accuracy of the melody and / or the rhythmic precision, which is much easier than if he had to make the effort to place the good lyrics of the song on the good melody and / or on the right rhythm.
  • the present invention makes it possible to check whether the player sings the lyrics in a much simpler way than the traditional voice recognition, by tackling the problem in an original way: one does not seek to "recognize” the words sung by the player, which does not does not really make sense since these are already known (they are displayed on the screen), but to "check” if the player sings words, instead of for example simply humming the melody.
  • phonemic alternation means what relates to phonemes, that is to say to each of the sounds composing a language.
  • This phonemic alternation can for example be defined by an alternation between vowels and consonants, or between voiced sounds and voiceless sounds, or between various vowels, or between various consonants etc.
  • Hum is understood to be the absence of phonemic alternation.
  • voiced sounds such as “la la la”, “mmmm”, “ah ah ah” characterized by an absence of alternation between voiced sounds and voiceless sounds and therefore a absence of phonemic alternation if one chooses to define it by an alternation of voiced sounds and unvoiced sounds.
  • a person who sings the lyrics of a song alternates, except exception, the emission of voiced sounds and unvoiced sounds.
  • the invention proposes to distinguish the phonemic alternation, that is to say the pronunciation of words in relation to the absence of phonemic alternation (humming). [010].
  • a sound is said “voiced” if its production is accompanied by a vibration of the vocal chords, and “voiceless” otherwise.
  • the spoken language is a collection of voices and voiced consonants that vibrate the vocal chords and unvoiced consonants that do not vibrate the vocal chords, we naturally observe this alternation between voiced and unvoiced sounds. This is true for the main languages spoken in the world.
  • the sound emitted corresponds to a continuous emission of voiced sounds of the type "IaIaIa” or "aaaaaa” or "mmmmmmm".
  • the phonemic alternation related to the voiced and unvoiced character of the voice is measured.
  • a voicing coefficient of the voice is calculated which has high values when the sound of the voice is voiced and low values when the sound of the voice is not voiced.
  • this voicing coefficient corresponds to the measurement of the quality of the extraction of the fundamental frequency of the voice signal.
  • the invention thus consists in verifying only if the player utters real words and is not humming, without ensuring that the lyrics actually correspond to the lyrics of the song. It is therefore not useful to check if "the" sung words are the true lyrics of the song, but only if "lyrics” are sung. Indeed, if the humming is an important help in this kind of games, singing other lyrics on a song is rather an additional difficulty for the player.
  • the measure of voicing / non-voicing is only one way of measuring phonemic alternation. Any other method of measuring a variation, such as variation in pronounced consonants (measuring the presence of certain consonants by other methods than measuring the rate of voicing) or variation of pronounced vowels (in the vowel triangle), would produce the same type of result.
  • consonants and / or vowels are separated into several groups, for example four groups of consonants and vowels. If all consonants and vowels belong to the same group, then the person can be considered to be humming. On the other hand, if the group to which the consonants and or vowels belong varies, the person is saying words, that is to say a text whose content varies in terms of consonants and / or vowels.
  • the invention thus relates to a method for distinguishing the pronunciation of words with respect to the humming in a voice signal of a user, characterized in that it comprises the following steps:
  • the reference period precedes the instant of analysis.
  • the voicing coefficient is the quality parameter in the extraction of the fundamental frequency of the voice signal.
  • the reference period is of the order of 1 second.
  • the step of comparing the voicing parameter with the threshold value is performed only if the energy of the voice signal is greater than a threshold value.
  • the voice signal being sampled it comprises the following steps:
  • the voicing coefficient is compared with a threshold
  • the instantaneous state can also take the "silence" state corresponding to the absence of a sound of sufficient power
  • the instantaneous energy of the voice signal is compared with a first threshold
  • the analysis period is 20ms and the duration of the reference period 1 s.
  • the voice signal is sampled at 16kHz.
  • the invention further relates to the use of the method according to the invention in a Karaoke game type application.
  • the implementation of the method according to the invention is inhibited for voiced passages of song having a duration greater than the duration of the reference period or on passages of songs arbitrarily chosen.
  • Figure 1 a graphical representation as a function of time of the amplitude of a voice signal and of the fundamental frequency which has been extracted using a fundamental frequency detection algorithm and the quality signal the extraction of the fundamental frequency;
  • Figure 2 a schematic representation of the steps of the method according to the invention for calculating instantaneous states of the voice signal
  • Figure 3 a schematic representation of the steps of the method according to the invention for detecting whether the player sings words or hums from the instantaneous states of the voice signal;
  • FIG. 4 a graphical representation of the amplitude of the voice signal corresponding to sung words as well as the activated or deactivated state of the speech detection function according to the invention during the course of the song.
  • Figure 1 shows a schematic representation of the amplitude of a voice signal S as a function of time t.
  • the instantaneous energy E.sub.i and the voicing coefficient V.sub.re of the voicing of the voice are measured for all the points Pi of the signal S of the voices analyzed at the instants of Analysis ti spaced apart over time by a period of analysis TA.
  • this state “State_Pi” can be the state “silence” corresponding to the absence of a voice signal of sufficient power, the "voiced” state corresponding to the emission of a sound of voiced nature, and the "unvoiced” state corresponding to the emission of a sound of unvoiced nature.
  • the instantaneous energy Ei of the voice signal S is compared in a step 13 with a threshold A.
  • this threshold is equal to 0.02 for a normalized signal. If the energy Ei of the signal is lower than the threshold A, then it is deduced in a step 15 that the instantaneous state "State_Pi" of the point Pi is
  • the voicing coefficient Vi with a threshold B is compared in a step 17.
  • B is equal to 0.3 for a normalized signal. If the voicing coefficient Vi is lower than the threshold B then deduces that the sound is unvoiced in a step 18 (the instantaneous state "State_Pi" is then "unvoiced”). This means that the player is probably pronouncing a sound including P, T, K, B 1 D 1 G 1 CH 1 F 1 S.
  • the voicing coefficient Vi corresponds to the Q coefficient of the measurement of the fundamental frequency detection quality by the frequency detection algorithm represented as a function of time by the curve S.
  • the extraction quality corresponds to the reliability of the detection of the fundamental frequency
  • the quality Q of the extraction of the fundamental frequency of the voice signal S which is in very close relation with the voicing of the voice, will be very high for the voiced parts of the voice at during which the vocal chords vibrate, which makes it possible to easily extract the fundamental frequency of the signal S of voice
  • the quality Q of the extraction of the fundamental frequency of the signal S of voice will be low for the parts not voiced at during which the vocal chords do not vibrate or very little, which makes it difficult to extract the fundamental frequency of the signal S of voice.
  • the fundamental frequency detection algorithm is the YIN algorithm.
  • This algorithm known to those skilled in the art, is precisely described in the France Telecom patent document having the French national registration number 0107284.
  • the quality of detection of the height is the value (1-d 1 ), d 'being the function the averaged and standardized difference of the YIN algorithm as described in the France Telecom patent document having the French national registration number 0107284, and represented as a function of time by the curve S ".
  • the voicing coefficient is for example a measure of the non-harmonic noise contained in the audio signal, measured for example by the zero-crossing rate (ZCR), a low value of ZCR being characteristic of a voiced sound while a high value of ZCR is characteristic of an unvoiced sound.
  • ZCR zero-crossing rate
  • the use of the ZCR is particularly advantageous in the case where it is desired to minimize the CPU consumption of the system.
  • TRi reference duration
  • the number of stored state_Pj instantaneous states could be different to perform analysis over a shorter or longer reference period TRi.
  • the reference period TRi may be replaced by a set of points around the instant ti, whether these points are before or after the instant ti.
  • State_Pj instantaneous of the signal S are silences. If this is the case, we deduce that the instant ti of analysis is a moment of silence. Otherwise we deduce that ti is not a moment of silence and we then determines whether it is a moment ti sung or hummed.
  • a step 30 For this purpose, in a step 30, one keeps among the last 50 instantaneous states of the signal only the instantaneous states "State_Pj" of type “voiced” or "unvoiced” excluding the states of silence. Then, in a step 33, it is analyzed whether all the stored "State_Pj" instantaneous states are "voiced” states. If this is the case, then it is deduced in step 34 that the signal S of voice corresponds to a hum at time ti since it is a priori impossible to not observe at least one unvoiced passage during of the TRi reference period in a sung language.
  • step 35 the voice signal S corresponds to a song of words at the instant ti since it is a priori natural to observe at least one unvoiced passage during the TRi reference period in a language sung with words.
  • the player may be penalized for each moment ti during which he hummed instead of singing the lyrics of the song to be interpreted, or otherwise rewarded for each moment ti where he has sung with the words.
  • FIG. 4 shows the amplitude 41 of the voice signal S corresponding to the words 42 of a song in which the entirely voiced passage 42.1 "the moon my friend" (in gray) has a duration TD greater than the duration TR of the reference period.
  • the speech detection function according to the invention is inhibited over the period TD (turned OFF) but activated for the rest of the song (turned ON). [054].
  • the detection of silences in the voice signal S optimizes the operation of the method according to the invention as it prevents certain parasitic white noise from being arbitrarily considered as voiced or unvoiced type sounds.
  • the steps 13, 15, 27 and 29 for silence detection are suppressed and the instantaneous state "State_Pi" of the signal S is "voiced” or "unvoiced”, and then simply analyzed.
  • the instantaneous states of the voice signal S are analyzed over the reference period TRi. We deduce that the player hums if all these instantaneous states are of type voiced and that he sings in the opposite case.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Telephonic Communication Services (AREA)

Abstract

La présente invention concerne essentiellement un procédé pour détecter la présence de paroles dans un signal (S) voix caractérisé en ce qu'il comporte: l'étape de mesurer à l'instant d'analyse (ti) une alternance phonémique (Vi) dans le signal (S) de voix sur une période de référence TRi; si on ne détecte pas d'alternance phonémique pendant la période (TRi) de référence, alors on en déduit qu'il n'y a pas de prononciation de paroles dans le signal (S) de voix à l'instant d'analyse (ti), sinon on en déduit qu'il y a prononciation de paroles dans le signal (S) de voix à l'instant (ti). L'invention trouve une application particulièrement avantageuse dans les applications de type jeu de Karaoké.

Description

PROCEDE POUR DETECTER DES PAROLES DANS LA VOIX ET UTILISATION DE CE PROCEDE DANS UN JEU DE KARAOKE
[001]. La présente invention concerne un procédé pour détecter des paroles chantées dans la voix. L'invention a notamment pour but de proposer un procédé simple à mettre en œuvre et peu consommateur en ressources pour détecter des paroles dans la voix.
[002]. L'invention trouve une application particulièrement avantageuse, mais non exclusive, pour des applications de type « Karaoké ». On rappelle que le Karaoké est un jeu dans lequel le joueur chante une chanson connue sur un accompagnement généralement à la place du chanteur original, en suivant généralement les paroles sur un écran. En variante, l'invention pourrait également être utilisée dans des applications interactives vocales, par exemple dans tout jeu vidéo au sein duquel on souhaite détecter si le joueur parle.
[003]. Des jeux vidéos de Karaoké comme « SingStar » (marque déposée) évaluent uniquement la justesse du chant d'un joueur par rapport à une mélodie de référence. En conséquence, un joueur qui fredonne en rythme la mélodie (sans chanter les paroles) obtiendra le même score voire un meilleur score qu'un joueur qui chante effectivement les paroles. En effet, en fredonnant, le joueur peut se concentrer uniquement sur la justesse de la mélodie et/ou la précision rythmique, ce qui est beaucoup plus facile que s'il devait faire l'effort de placer les bonnes paroles de la chanson sur la bonne mélodie et/ou sur le bon rythme.
[004]. En particulier dans certaines chansons de rap, il n'y a pas de mélodie et le rythme est trop rapide pour être évalué de manière fiable. Dans ce cas, la détection des paroles dans la chanson est un critère pertinent pour évaluer le joueur.
[005]. Pour tenir compte des paroles dans le score du joueur, certains jeux récents essayent d'intégrer de la reconnaissance de paroles, avec des performances discutables, ces mécanismes de reconnaissance de parole étant très difficiles à réaliser et très coûteux algorithmiquement. En effet, ils nécessitent des calculs complexes (utilisation de modèles HMM) afin de reconnaître des mots complets, ce qui est difficile à mettre en œuvre et entraîne des erreurs fréquentes ainsi qu'une importante latence.
[006]. La présente invention permet de vérifier si le joueur chante les paroles de manière beaucoup plus simple que la reconnaissance vocale traditionnelle, en abordant le problème de manière originale : on ne cherche pas à « reconnaître » les mots chantés par le joueur, ce qui n'a pas vraiment de sens puisque ceux-ci sont déjà connus (ils sont affichés sur l'écran), mais à « vérifier » si le joueur chante des paroles, au lieu de par exemple simplement fredonner la mélodie.
[007]. L'invention part ainsi du constat que tout langage parlé et a fortiori chanté est caractérisé par une alternance de sons variés (différents phonèmes) appelée dans ce document « alternance phonémique ». On entend par phonémique ce qui se rapporte aux phonèmes, c'est-à-dire à chacun des sons composant une langue. Cette alternance phonémique peut par exemple être définie par une alternance entre des voyelles et des consonnes, ou entre des sons voisés et des sons non-voisés, ou entre diverses voyelles, ou entre diverses consonnes etc ..
[008]. On entend par fredonnement l'absence d'alternance phonémique. Par exemple, lorsque l'on fredonne, on émet uniquement des sons voisés de type « la la la », « mmmm », « ah ah ah » caractérisés par une absence d'alternance entre sons voisés et sons non-voisés et donc une absence d'alternance phonémique si on choisit de la définir par une alternance de sons voisés et de sons non voisés. A contrario, une personne qui chante les paroles d'une chanson alterne, sauf exception, l'émission de sons voisés et de sons non voisés.
[009]. L'invention propose de distinguer l'alternance phonémique, c'est-à- dire la prononciation de paroles par rapport à l'absence d'alternance phonémique (fredonnement). [010]. On rappelle qu'un son est dit « voisé » si sa production s'accompagne d'une vibration des cordes vocales, et « non-voisé » sinon. Etant donné que le langage parlé est un assemblage de voyelles et de consonnes voisées qui font vibrer les cordes vocales et de consonnes non voisées qui ne font pas vibrer les cordes vocales, on observe naturellement cette alternance entre sons voisés et non voisés. Ce constat vaut pour les principales langues parlées dans le monde. En revanche, lorsque l'on fredonne, le son émis correspond à une émission continue de sons voisés de type « IaIaIa » ou « aaaaaaa » ou « mmmmmmm ».
[011]. Dans l'invention on observe si, pendant une période de référence, la voix du joueur présente des variations de voisement ou non. Si c'est le cas, alors on en déduit que le joueur est en train de chanter des paroles sur cette période de référence ; alors que si ce n'est pas le cas, on en déduit que le joueur est en train de fredonner sur cette période de référence. On s'est aperçu qu'une période de référence d'une seconde environ permettait d'obtenir de bons résultats. Toutefois toute autre période de référence est envisageable.
[012]. Dans une mise en oeuvre, on mesure l'alternance phonémique liée au caractère voisé et non voisé de la voix. A cet effet on calcule un coefficient de voisement de la voix qui présente des valeurs élevées lorsque le son de la voix est voisé et des valeurs basses lorsque le son de la voix n'est pas voisé. Dans un exemple, ce coefficient de voisement correspond à la mesure de la qualité de l'extraction de la fréquence fondamentale du signal de voix. Lorsque ce coefficient de voisement est supérieur à une valeur seuil pendant toute la période de référence alors on en déduit que le joueur est en train de fredonner ; en revanche lorsque le coefficient de voisement n'est pas supérieur à la valeur seuil pendant toute la période de référence, on en déduit que le joueur est en train de chanter.
[013]. L'invention consiste ainsi à vérifier uniquement si le joueur prononce de véritables paroles et n'est pas en train de fredonner, sans s'assurer que les paroles correspondent effectivement aux paroles de la chanson. Il n'est donc pas utile de vérifier si « les » paroles chantées sont les vraies paroles de la chanson, mais uniquement si « des » paroles sont chantées. En effet, si le fredonnement est une aide importante dans ce genre de jeux, le fait de chanter d'autres paroles sur une chanson est plutôt une difficulté supplémentaire pour le joueur.
[014]. Plus généralement, la mesure de voisement/non-voisement n'est qu'une façon de mesurer l'alternance phonémique. Toute autre méthode permettant de mesurer une variation, par exemple variation des consonnes prononcées (mesure de la présence de certaines consonnes par d'autres méthodes que la mesure du taux de voisement) ou variation des voyelles prononcées (dans le triangle vocalique), produirait le même type de résultat.
[015]. Ainsi, alternativement, si on choisit de caractériser l'alternance phonémique par l'alternance de voyelles différentes, on mesure une variation de timbre dans le triangle vocalique. Car un joueur qui fredonne ne fait pas varier le timbre de sa voix tandis que le joueur qui chante des paroles fait varier naturellement le timbre de sa voix. Dans le cas où on ne détecte pas de variation du timbre de la voix dans le triangle vocalique sur la période de référence, on en déduit que le joueur est en train de fredonner ; alors que dans le cas où on détecte une variation du timbre de la voix dans le triangle vocalique sur la période de référence, on en déduit que le joueur est en train de chanter des paroles.
[016]. Alternativement, on sépare les consonnes et ou les voyelles en plusieurs groupes, par exemple quatre groupes de consonnes et de voyelles. Si toutes les consonnes et toutes les voyelles appartiennent au même groupe, alors on peut considérer que la personne fredonne. A contrario si le groupe auquel appartiennent les consonnes et ou les voyelles varie, la personne est en train de dire des paroles c'est-à-dire un texte dont le contenu varie en termes de consonnes et/ou de voyelles.
[017]. L'invention concerne donc un procédé pour distinguer la prononciation de paroles par rapport au fredonnement dans un signal de voix d'un utilisateur caractérisé en ce qu'il comporte les étapes suivantes :
- mesurer un coefficient de voisement à différents instants d'une période de référence,
- comparer les coefficients de voisement ainsi mesurés sur la période de référence à une valeur seuil, et
- en fonction des résultats des ces comparaisons sur la période de référence, déduire si l'utilisateur est en train de prononcer des paroles ou est en train de fredonner à un instant d'analyse.
[018]. Selon une mise en œuvre, la période de référence précède l'instant d'analyse.
[019]. Selon une mise en oeuvre : - si le coefficient de voisement est supérieur à la valeur seuil pendant la période de référence, alors
- on en déduit qu'il y a aucun instant non voisé dans la voix pendant cette durée seuil et que l'utilisateur fredonne à l'instant d'analyse,
- sinon on en déduit que l'utilisateur prononce des paroles à l'instant d'analyse.
[020]. Selon une mise en œuvre, le coefficient de voisement est le paramètre de qualité dans l'extraction de la fréquence fondamentale du signal de voix.
[021]. Selon une mise en œuvre, la période de référence est de l'ordre de 1 seconde.
[022]. Selon une mise en œuvre, l'étape de comparaison du paramètre de voisement avec la valeur seuil est effectuée uniquement si l'énergie du signal de voix est supérieure à une valeur seuil.
[023]. Selon une mise en œuvre, le signal de voix étant échantillonné, il comporte les étapes suivantes :
- calculer une intensité instantanée et un coefficient de voisement instantané pour des points du signal de voix à des instants d'analyse espacés entre eux par une période d'analyse sur la période de référence,
- déterminer les états instantanés du signal de voix à chaque instant d'analyse à partir des mesures de l'énergie instantanée et du coefficient de voisement du signal de voix, ces états instantanés pouvant être l'état « voisé » correspondant à l'émission d'un son de nature voisée, ou l'état « non voisé » correspondant à l'émission d'un son de nature non voisée, - si tous les états instantanés sont de type « voisés » sur la période de référence alors on en déduit qu'il n'y a pas prononciation de paroles dans le signal de voix à l'instant d'analyse,
- sinon on en déduit qu'il y a prononciation de paroles dans le signal de voix à l'instant d'analyse.
[024]. Selon une mise en œuvre, pour déterminer l'état instantané du signal de voix à l'instant d'analyse,
- on compare le coefficient de voisement avec un seuil,
- si le coefficient de voisement est inférieur au seuil alors l'état instantané est « non voisé », - sinon on en déduit que l'état instantané est « voisé ».
[025]. Selon une mise en œuvre, l'état instantané peut prendre en outre l'état « silence » correspondant à l'absence d'un son de puissance suffisante,
- si les N derniers états instantanés sur la période de référence sont de type « silence » alors on en déduit que le signal ne contient pas de voix à l'instant, sinon
- on conserve, sur la période de référence, uniquement les états instantanés de type « voisés » ou « non voisés » à l'exclusion des états instantanés de type « silence ».
[026]. Selon une mise en œuvre, pour déterminer l'état instantané du signal de voix,
- on compare l'énergie instantanée du signal de voix à un premier seuil,
- si l'énergie du signal est inférieure au seuil, alors on en déduit que l'état instantané vaut « silence »,
- sinon on compare le coefficient de voisement avec un deuxième seuil, - si le coefficient de voisement est inférieur au deuxième seuil alors l'état instantané vaut « non voisé »,
- sinon on en déduit que l'état instantané « State_Pi » vaut « voisé ». [027]. Selon une mise en œuvre, la période d'analyse vaut 20ms et la durée de la période de référence 1 s.
[028]. Selon une mise en œuvre, le signal de voix est échantillonné à 16kHz.
[029]. L'invention concerne en outre l'utilisation du procédé selon l'invention dans une application de type jeu de Karaoké.
[030]. Selon une utilisation, on inhibe la mise en œuvre du procédé selon l'invention pour les passages voisés de chanson ayant une durée supérieure à la durée de la période de référence ou sur des passages de chansons arbitrairement choisis.
[031]. L'invention sera mieux comprise à la lecture de la description qui suit et à l'examen des figures qui l'accompagnent. Ces figures ne sont données qu'à titre illustratif mais nullement limitatif de l'invention. Elles montrent :
[032]. Figure 1 : une représentation graphique en fonction du temps de l'amplitude d'un signal de voix et de la fréquence fondamentale qui en a été extrait à l'aide d'un algorithme de détection de la fréquence fondamentale ainsi que le signal de qualité de l'extraction de la fréquence fondamentale ;
[033]. Figure 2 : une représentation schématique des étapes du procédé selon l'invention permettant de calculer des états instantanés du signal de voix ;
[034]. Figure 3 : une représentation schématique des étapes du procédé selon l'invention permettant de détecter si le joueur chante des paroles ou fredonne à partir des états instantanés du signal de voix ;
[035]. Figure 4 : une représentation graphique de l'amplitude du signal de voix correspondant à des paroles chantées ainsi que l'état activé ou désactivé de la fonction de détection de paroles selon l'invention au cours de la chanson.
[036]. Les éléments identiques conservent la même référence d'une figure à l'autre.
[037]. La Figure 1 montre une représentation schématique de l'amplitude d'un signal S de voix en fonction du temps t.
[038]. Dans une première étape 10 du procédé selon l'invention montrée sur la Figure 2, on mesure l'énergie Ei instantanée et le coefficient Vi de voisement représentatif du voisement de la voix pour tous les points Pi du signal S de voix analysés aux instants d'analyse ti espacés entre eux dans le temps par une période TA d'analyse. Plus le coefficient Vi est élevé, plus le son de la voix à l'instant ti est voisé ; tandis que plus ce coefficient Vi est faible, moins le son de la voix à l'instant ti est voisé.
[039]. A partir de ces mesures, on en déduit l'état instantané « State_Pi » du signal S de voix en chaque point Pi, cet état « State_Pi » pouvant être l'état « silence » correspondant à l'absence d'un signal de voix de puissance suffisante, l'état « voisé » correspondant à l'émission d'un son de nature voisée, et l'état « non voisé » correspondant à l'émission d'un son de nature non voisée.
[040]. A cet effet, on compare dans une étape 13 l'énergie Ei instantanée du signal S de voix à un seuil A. Dans un exemple ce seuil vaut 0.02 pour un signal normalisé. Si l'énergie Ei du signal est inférieure au seuil A, alors on en déduit dans une étape 15 que l'état instantané « State_Pi » du point Pi est
« silence ». En revanche si l'énergie Ei du signal de voix est supérieure au seuil A, alors on en déduit qu'un son de puissance suffisante sort effectivement de la bouche du joueur et on détermine ensuite si le son est voisé ou non voisé.
[041]. A cet effet, on compare dans une étape 17 le coefficient de voisement Vi avec un seuil B. Dans un exemple, B vaut 0.3 pour un signal normalisé. Si le coefficient Vi de voisement est inférieur au seuil B alors on en déduit que le son est non-voisé dans une étape 18 (l'état instantané « State_Pi » vaut alors « non voisé »). Cela signifie que le joueur est vraisemblablement en train de prononcer un son notamment de type P, T, K, B1 D1 G1 CH1 F1 S.
[042]. Tandis que si le coefficient Vi de voisement est supérieur au seuil B alors on en déduit que le son est voisé dans une étape 19 (l'état instantané « State_Pi » vaut alors « voisé »). Cela signifie que le joueur est vraisemblablement en train de prononcer une voyelle ou une consonne voisée.
[043]. Dans un exemple, pour calculer l'énergie instantanée Ei et le coefficient Vi de voisement, on applique au signal S de voix un algorithme qui permet d'extraire les fréquences fondamentales de ce signal S représentées en fonction du temps par la courbe S' sur la Figure 1.
[044]. Le coefficient Vi de voisement correspond au coefficient Q de la mesure de la qualité de la détection de la fréquence fondamentale par l'algorithme de détection de la fréquence représenté en fonction du temps par la courbe S". La qualité d'extraction correspond à la fiabilité de la détection de la fréquence fondamentale. La qualité Q de l'extraction de la fréquence fondamentale du signal de voix S, qui est en relation très étroite avec le voisement de la voix, sera très élevée pour les parties voisées de la voix au cours desquelles les cordes vocales vibrent, ce qui permet d'extraire facilement la fréquence fondamentale du signal S de voix. Tandis que la qualité Q de l'extraction de la fréquence fondamentale du signal S de voix sera peu élevée pour les parties non voisées au cours desquelles les cordes vocales ne vibrent pas ou très peu, ce qui rend difficile l'extraction de la fréquence fondamentale du signal S de voix.
[045]. Dans un exemple, l'algorithme de détection de la fréquence fondamentale est l'algorithme YIN. Cet algorithme, connu de l'homme du métier, est précisément décrit dans le document de brevet de France Télécom ayant le numéro d'enregistrement national français 0107284. La qualité de détection de la hauteur est la valeur (1-d1), d' étant la fonction différence moyennée et normalisée de l'algorithme de YIN telle que décrite au sein du document de brevet de France Télécom ayant le numéro d'enregistrement national français 0107284, et représentée en fonction du temps par la courbe S".
[046]. En variante, le coefficient de voisement est par exemple une mesure du bruit non-harmonique contenu dans le signal audio, mesuré par exemple par le zero-crossing rate (ZCR), une valeur faible de ZCR étant caractéristique d'un son voisé tandis qu'une valeur élevée de ZCR est caractéristique d'un son non voisé. L'utilisation du ZCR est particulièrement avantageuse dans le cas où l'on souhaite réduire au maximum la consommation CPU du système.
[047]. Dans un exemple, le signal de voix S étant échantillonné à 16kHz, l'énergie instantanée Ei et la qualité Qi sont calculés tous les TA=20 ms en appliquant l'algorithme de détection de la fréquence fondamentale sur les derniers 1024 points échantillonnés du signal S de manière à effectuer un recoupement entre les différents morceaux du signal S analysé (les derniers 1024 points correspondant à environ 3 périodes TA de 20ms). En variante, il n'y a pas de recoupement entre les différents morceaux du signal analysés.
[048]. Ensuite, comme représenté sur la Figure 3, dans une étape 25, on effectue une analyse du signal S de voix sur une période de référence TRi de durée de référence TR (environ une seconde) avant l'instant ti, ce qui revient à conserver les 50 derniers états instantanés State_Pj pour TA=20 ms. En variante, le nombre d'états instantanés State_Pj conservés pourrait être différent pour effectuer une analyse sur une période de référence TRi plus ou moins longue. En variante la période de référence TRi peut être remplacée par un ensemble de points autour de l'instant ti, que ces points soient avant ou après l'instant ti.
[049]. Dans une étape 27, on analyse si les N derniers états
(typiquement N=5 soit 100ms) instantanés State_Pj du signal S sont des silences. Si c'est le cas, on en déduit que l'instant ti d'analyse est un instant de silence. Sinon on en déduit que ti n'est pas un instant de silence et on détermine alors si il s'agit d'un instant ti chanté ou fredonné.
[050]. A cet effet, dans une étape 30, on conserve parmi les 50 derniers états instantanés du signal uniquement les états instantanés « State_Pj » de type « voisé » ou « non voisé » à l'exclusion des états de silence. Puis on analyse dans une étape 33 si tous les états instantanés « State_Pj » conservés sont des états « voisés ». Si c'est le cas, alors on en déduit à l'étape 34 que le signal S de voix correspond à un fredonnement à l'instant ti puisqu'il est a priori impossible de ne pas observer au moins un passage non voisé au cours de la période de référence TRi dans un langage chanté. En revanche, si il n'y a pas uniquement des états voisés, alors on en déduit à l'étape 35 que le signal S de voix correspond à un chant de paroles à l'instant ti puisqu'il est a priori naturel d'observer au moins un passage non voisé au cours de la période de référence TRi dans un langage chanté avec des paroles.
[051]. Lors de l'utilisation de l'invention dans un Karaoké, le joueur pourra être pénalisé pour chaque instant ti pendant lequel il a fredonné au lieu de chanter les paroles de la chanson à interpréter, ou au contraire récompensé pour chaque instant ti où il a chanté avec les paroles.
[052]. Il est possible que certaines chansons présentent des passages voisés ayant une durée supérieure à la durée TR de la période de référence. Ainsi la Figure 4 montre l'amplitude 41 du signal S de voix correspondant aux paroles 42 d'une chanson dans laquelle le passage 42.1 entièrement voisé « la lune mon ami » (en grisé) a une durée TD supérieure à la durée TR de la période de référence.
[053]. Afin d'éviter de fausses détections de fredonnement sur ces paroles particulières, il peut être utile d'inhiber la fonction de détection des paroles sur toute la durée TD du passage voisé 42.1. Ainsi comme montré dans le bandeau 43 de la Figure 4, la fonction de détection de paroles selon l'invention est inhibée sur la période TD (mise sur OFF) mais activée pour le reste de la chanson (mise sur ON). [054]. On peut aussi activer cette fonction de détection des paroles pendant une partie seulement de la chanson (par exemple le refrain) pour laquelle il faut connaître les paroles et pas pendant d'autres (par exemple les couplets) pendant lesquelles la connaissance des paroles devient facultative.
[055]. On note que la détection des silences dans le signal S de voix optimise le fonctionnement du procédé selon l'invention car il évite que certains bruits blancs parasites ne soient arbitrairement considérés comme des sons de type voisé ou non voisé. Toutefois en variante, dans un fonctionnement dégradé, on supprime les étapes 13, 15, 27 et 29 de détection des silences et on analyse simplement si l'état instantané « State_Pi » du signal S est « voisé » ou « non voisé », puis on analyse les états instantanés du signal S de voix sur la période de référence TRi. On en déduit que le joueur fredonne si tous ces états instantanés sont de type voisés et qu'il chante dans le cas contraire.

Claims

REVENDICATIONS
1. Procédé pour distinguer la prononciation de paroles par rapport au fredonnement dans un signal (S) de voix d'un utilisateur caractérisé en ce qu'il comporte les étapes suivantes :
- mesurer un coefficient de voisement (Vi) à différents instants d'une période de référence (TRi),
- comparer les coefficients de voisement (Vi) ainsi mesurés sur la période de référence (TRi) à une valeur seuil (B), et - en fonction des résultats des ces comparaisons (State_Pj) sur la période de référence (TRi), déduire si l'utilisateur est en train de prononcer des paroles ou est en train de fredonner à un instant d'analyse (ti).
2. Procédé selon la revendication 1 , caractérisé en ce que la période de référence (TRi) précède l'instant d'analyse (ti).
3. Procédé selon la revendication 1 ou 2, caractérisé en ce que :
- si le coefficient (Vi) de voisement est supérieur à la valeur seuil (B) pendant la période (TRi) de référence, alors - on en déduit qu'il y a aucun instant non voisé dans la voix pendant cette durée seuil et que l'utilisateur fredonne à l'instant d'analyse (ti),
- sinon on en déduit que l'utilisateur prononce des paroles à l'instant d'analyse (ti).
4. Procédé selon l'une des revendications 1 à 3, caractérisé en ce que le coefficient (Vi) de voisement est le paramètre de qualité (Q) dans l'extraction de la fréquence fondamentale (f) du signal (S) de voix.
5. Procédé selon l'une des revendications 1 à 4, caractérisé en ce que la période (TRi) de référence est de l'ordre de 1 seconde.
6. Procédé selon l'une des revendications 3 à 5, caractérisé en ce que l'étape de comparaison du paramètre (Vi) de voisement avec la valeur seuil (B) est effectuée uniquement si l'énergie (Ei) du signal (S) de voix est supérieure à une valeur seuil (A).
7. Procédé selon la revendication 1 ou 2, caractérisé en ce que le signal de voix (S) étant échantillonné, il comporte les étapes suivantes :
- calculer une intensité instantanée (Ei) et un coefficient (Vi) de voisement instantané pour des points (Pi) du signal de voix à des instants (ti) d'analyse espacés entre eux par une période d'analyse (TA) sur la période de référence (TRi),
- déterminer les états instantanés « State_Pi » du signal (S) de voix à chaque instant ti à partir des mesures de l'énergie Ei instantanée et du voisement (Vi) du signal (S) de voix, ces états instantanés pouvant être l'état « voisé » correspondant à l'émission d'un son de nature voisée, ou l'état « non voisé » correspondant à l'émission d'un son de nature non voisée,
- si tous les états instantanés « State_Pj » sont de type « voisés » sur la période (TRi) de référence alors on en déduit qu'il n'y a pas prononciation de paroles dans le signal (S) de voix à l'instant d'analyse (ti),
- sinon on en déduit qu'il y a prononciation de paroles dans le signal (S) de voix à l'instant d'analyse (ti).
8. Procédé selon la revendication 7, caractérisé en ce que pour déterminer l'état instantané « State_Pi » du signal S de voix à l'instant d'analyse (ti),
- on compare le coefficient de voisement Vi avec un seuil (B),
- si le coefficient (Vi) de voisement est inférieur au seuil (B) alors l'état instantané « State_Pi » vaut « non voisé », - sinon on en déduit que l'état instantané State_Pi vaut « voisé ».
9. Procédé selon la revendication 7, caractérisé en ce que l'état instantané « State_Pi » peut prendre en outre l'état « silence » correspondant à l'absence d'un son de puissance suffisante, - si les N derniers états instantanés « State_Pj » sur la période (TRi) de référence sont de type « silence » alors on en déduit que le signal ne contient pas de voix à l'instant (ti), sinon
- on conserve, sur la période de référence (TRi), uniquement les états instantanés de type « voisés » ou « non voisés » à l'exclusion des états instantanés « State_Pj » de type « silence ».
10. Procédé selon la revendication 9, caractérisé en ce que pour déterminer l'état instantané « State_Pi » du signal (S) de voix,
- on compare l'énergie (Ei) instantanée du signal S de voix à un premier seuil (A),
- si l'énergie (Ei) du signal est inférieure au seuil (A), alors on en déduit que l'état instantané « State_Pi » vaut « silence »,
- sinon on compare le coefficient de voisement (Vi) avec un deuxième seuil (B), si le coefficient (Vi) de voisement est inférieur au deuxième seuil (B) alors l'état instantané « State Pi » vaut « non voisé », sinon on en déduit que l'état instantané « State_Pi » vaut « voisé ».
11. Procédé selon l'une des revendications 7 à 10, caractérisé en ce que la période (TA) d'analyse vaut 20ms et la durée (TR) de la période de référence 1 s.
12. Procédé selon la revendication 7 à 11 , caractérisé en ce que le signal de voix (S) est échantillonné à 16kHz.
13. Utilisation du procédé selon l'une des revendications 1 à 12 dans une application de type jeu de Karaoké.
14. Utilisation selon la revendication 13, caractérisée en ce que on inhibe la mise en œuvre du procédé selon l'une des revendications 1 à 12 pour les passages voisés (42.1 ) de chanson ayant une durée (TD) supérieure à la durée (TR) de la période de référence ou sur des passages de chansons arbitrairement choisis.
EP10728822.7A 2009-05-29 2010-05-27 Procede pour detecter des paroles chantees et utilisation de ce procede dans un jeu de karaoke Active EP2436004B1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0953603A FR2946175B1 (fr) 2009-05-29 2009-05-29 Procede pour detecter des paroles dans la voix et utilisation de ce procede dans un jeu de karaoke
PCT/FR2010/051013 WO2010136722A1 (fr) 2009-05-29 2010-05-27 Procede pour detecter des paroles dans la voix et utilisation de ce procede dans un jeu de karaoke

Publications (2)

Publication Number Publication Date
EP2436004A1 true EP2436004A1 (fr) 2012-04-04
EP2436004B1 EP2436004B1 (fr) 2014-04-02

Family

ID=41227263

Family Applications (1)

Application Number Title Priority Date Filing Date
EP10728822.7A Active EP2436004B1 (fr) 2009-05-29 2010-05-27 Procede pour detecter des paroles chantees et utilisation de ce procede dans un jeu de karaoke

Country Status (4)

Country Link
EP (1) EP2436004B1 (fr)
ES (1) ES2477198T3 (fr)
FR (1) FR2946175B1 (fr)
WO (1) WO2010136722A1 (fr)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2988894B1 (fr) * 2012-03-30 2014-03-21 Adeunis R F Procede de detection de la voix
CN102930873B (zh) * 2012-09-29 2014-04-09 福州大学 基于信息熵的音乐哼唱检测方法
US9202520B1 (en) * 2012-10-17 2015-12-01 Amazon Technologies, Inc. Systems and methods for determining content preferences based on vocal utterances and/or movement by a user
CN109147783B (zh) * 2018-09-05 2022-04-01 厦门巨嗨科技有限公司 基于k歌系统的语音识别方法、介质及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6023674A (en) * 1998-01-23 2000-02-08 Telefonaktiebolaget L M Ericsson Non-parametric voice activity detection
US7674181B2 (en) * 2005-08-31 2010-03-09 Sony Computer Entertainment Europe Ltd. Game processing
KR20120008088A (ko) * 2006-12-27 2012-01-25 인텔 코오퍼레이션 음성 세그먼트화를 위한 방법 및 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2010136722A1 *

Also Published As

Publication number Publication date
EP2436004B1 (fr) 2014-04-02
WO2010136722A1 (fr) 2010-12-02
FR2946175A1 (fr) 2010-12-03
FR2946175B1 (fr) 2021-06-04
ES2477198T3 (es) 2014-07-16

Similar Documents

Publication Publication Date Title
Marolt A connectionist approach to automatic transcription of polyphonic piano music
US8005666B2 (en) Automatic system for temporal alignment of music audio signal with lyrics
Li et al. Separation of singing voice from music accompaniment for monaural recordings
US8880409B2 (en) System and method for automatic temporal alignment between music audio signal and lyrics
US8158871B2 (en) Audio recording analysis and rating
Mertens Polytonia: a system for the automatic transcription of tonal aspects in speech corpora
EP2436004B1 (fr) Procede pour detecter des paroles chantees et utilisation de ce procede dans un jeu de karaoke
Sonnleitner et al. A simple and effective spectral feature for speech detection in mixed audio signals
JP2015068897A (ja) 発話の評価方法及び装置、発話を評価するためのコンピュータプログラム
JP5598516B2 (ja) カラオケ用音声合成システム,及びパラメータ抽出装置
Sharma et al. Automatic evaluation of song intelligibility using singing adapted STOI and vocal-specific features
CN105895079B (zh) 语音数据的处理方法和装置
Barbancho et al. Transcription and expressiveness detection system for violin music
CN115050387A (zh) 一种艺术测评中多维度唱奏分析测评方法及系统
Ohishi et al. Discrimination between singing and speaking voices.
WO2009022084A1 (fr) Procédé pour composer automatiquement une sonnerie personnalisée à partir d'un enregistrement de voix fredonnée et téléphone portable mettant en oeuvre ce procédé
TWI299855B (en) Detection method for voice activity endpoint
Cen et al. Segmentation of speech signals in template-based speech to singing conversion
JP2011022489A (ja) 音高認識方法、音高認識プログラム、記録媒体、及び音高認識システム
Baek et al. A study on voice sobriety test algorithm in a time-frequency domain
CN113129923A (zh) 一种艺术测评中多维度唱奏分析测评方法及系统
JP5810947B2 (ja) 発声区間特定装置、音声パラメータ生成装置、及びプログラム
Kalayar Khine et al. Exploring perceptual based timbre feature for singer identification
Rao et al. Vocal melody detection in the presence of pitched accompaniment using harmonic matching methods
Gainza et al. Onset detection and music transcription for the Irish tin whistle

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20111122

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO SE SI SK SM TR

DAX Request for extension of the european patent (deleted)
REG Reference to a national code

Ref country code: DE

Ref legal event code: R079

Ref document number: 602010014814

Country of ref document: DE

Free format text: PREVIOUS MAIN CLASS: G10L0011020000

Ipc: G10L0025780000

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

RIC1 Information provided on ipc code assigned before grant

Ipc: G10L 25/93 20130101ALI20131009BHEP

Ipc: G10L 25/78 20130101AFI20131009BHEP

Ipc: G10H 1/36 20060101ALI20131009BHEP

Ipc: G10L 25/90 20130101ALI20131009BHEP

RIC1 Information provided on ipc code assigned before grant

Ipc: G10H 1/36 20060101ALI20131011BHEP

Ipc: G10L 25/93 20130101ALN20131011BHEP

Ipc: G10L 25/78 20130101AFI20131011BHEP

Ipc: G10L 25/90 20130101ALN20131011BHEP

INTG Intention to grant announced

Effective date: 20131108

RIC1 Information provided on ipc code assigned before grant

Ipc: G10L 25/78 20130101AFI20131028BHEP

Ipc: G10H 1/36 20060101ALI20131028BHEP

Ipc: G10L 25/90 20130101ALN20131028BHEP

Ipc: G10L 25/93 20130101ALN20131028BHEP

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO SE SI SK SM TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

Ref country code: AT

Ref legal event code: REF

Ref document number: 660540

Country of ref document: AT

Kind code of ref document: T

Effective date: 20140415

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: FRENCH

REG Reference to a national code

Ref country code: DE

Ref legal event code: R096

Ref document number: 602010014814

Country of ref document: DE

Effective date: 20140515

REG Reference to a national code

Ref country code: ES

Ref legal event code: FG2A

Ref document number: 2477198

Country of ref document: ES

Kind code of ref document: T3

Effective date: 20140716

REG Reference to a national code

Ref country code: AT

Ref legal event code: MK05

Ref document number: 660540

Country of ref document: AT

Kind code of ref document: T

Effective date: 20140402

REG Reference to a national code

Ref country code: NL

Ref legal event code: VDEP

Effective date: 20140402

REG Reference to a national code

Ref country code: LT

Ref legal event code: MG4D

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140703

Ref country code: NL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

Ref country code: IS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140802

Ref country code: BG

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140702

Ref country code: NO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140702

Ref country code: LT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

Ref country code: CZ

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

Ref country code: HR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

Ref country code: PL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

Ref country code: LV

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140804

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

REG Reference to a national code

Ref country code: DE

Ref legal event code: R097

Ref document number: 602010014814

Country of ref document: DE

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MC

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

Ref country code: SK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

Ref country code: RO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20140531

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20140531

Ref country code: EE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

REG Reference to a national code

Ref country code: IE

Ref legal event code: MM4A

26N No opposition filed

Effective date: 20150106

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

REG Reference to a national code

Ref country code: DE

Ref legal event code: R097

Ref document number: 602010014814

Country of ref document: DE

Effective date: 20150106

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20140527

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SM

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 7

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LU

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20140527

Ref country code: TR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

Ref country code: HU

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT; INVALID AB INITIO

Effective date: 20100527

Ref country code: BE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140531

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 8

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20170530

Year of fee payment: 8

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: ES

Payment date: 20170601

Year of fee payment: 8

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 9

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140402

GBPC Gb: european patent ceased through non-payment of renewal fee

Effective date: 20180527

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20180527

REG Reference to a national code

Ref country code: ES

Ref legal event code: FD2A

Effective date: 20190913

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: ES

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20180528

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20230530

Year of fee payment: 14

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20240529

Year of fee payment: 15