FR2966635A1 - Procede et dispositif d'affichage de donnees vocales d'un contenu audio - Google Patents

Procede et dispositif d'affichage de donnees vocales d'un contenu audio Download PDF

Info

Publication number
FR2966635A1
FR2966635A1 FR1058568A FR1058568A FR2966635A1 FR 2966635 A1 FR2966635 A1 FR 2966635A1 FR 1058568 A FR1058568 A FR 1058568A FR 1058568 A FR1058568 A FR 1058568A FR 2966635 A1 FR2966635 A1 FR 2966635A1
Authority
FR
France
Prior art keywords
audio content
voice data
text
data
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
FR1058568A
Other languages
English (en)
Inventor
Edouard Marques
Roux Ronan Le
Guennec Philippe Le
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Priority to FR1058568A priority Critical patent/FR2966635A1/fr
Publication of FR2966635A1 publication Critical patent/FR2966635A1/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

Un dispositif d'affichage de données vocales d'un contenu audio (70) diffusé par un dispositif de diffusion sonore (80). Le dispositif d'affichage comprend un module de reconnaissance vocale (50) comprenant des moyens d'analyse (52) des données vocales du contenu audio en cours de diffusion par le dispositif de diffusion sonore (80) et des moyens de reconnaissance (53) des données vocales du contenu audio en fonction de données de texte (54) enregistrées sur le dispositif d'affichage et correspondant auxdites données vocales. Le dispositif d'affichage comprend en outre des moyens (60) pour afficher sous forme de texte les données vocales reconnues.

Description

Arrière-plan de l'invention L'invention se rapporte au domaine 'nénal de l'affichage de données vocales sous 5 forme de texte !os de !o diffusion d'un contenu audincomnle par exemple l'affichage des paroles d'une chanson lors de sa diffusion. Il existe aujourd'hui des systèmes capables d'afficher, lors de !a lecture d'une chanson ou d'un film, les paroles ou les dialogues associés. C'est notamment le cas avec des appareils de lecture audiode type kanaoké qui permettent d'afficher sur un écran les paroles d'une chanson en 10 cours de lecture ou des lecteurs de DVDs qui possèdent des fonctions d'affichage de sous-titres correspondants aux dialogues du film en cours de lecture. La synchronisation de l'affichage des données vocales sous forme de texte avec la diffusion sonore d'un contenu audio associé ne pose pas de problème avec ce type d'appareils car c'est le même dispositif qui est en charge de !a diffusion sonore du contenu audio et de l'affichage 15 des données vocales de ce contenu sous forme de texte. En effet, le ficher audio ou vidéo qui est utilisé dans ce type d'appareils contient également un fichier texte des données vocales à afficher, des repères temporels (ou "tags") étant en outre présent dans !e fichier afin de permettre un affichage des données vocales en synchronisation avec la diffusion des mêmes données vocales sous forme sonore. 20 Cependant, lorsque les contenus audio sont diffusés par un appareil indépendant de celui sur !uquel on souhaite afficher !es données vocales sous forme de texte, il est difficile d'assurer un affichage de ces dernières de façon coordonnée avec leur diffusion sonore. Ce problème se pose par exemple avec les applications embarquées sur des terminaux mobiles ou des ordinateurs be!!ca que !es applications connues sous les noms commerciaux de 25 5hazann®,TunaUcO ou Midomi(). Ces applications permettent, lors de !a diffusion d'un contenu audin, bsl qu'une chanson, par un appareil de diffusion sonore indépendant du terminal mobile ou de l'ordinateur, d'enregistrer un échantillon du contenu et de yenvoyerà un serveur distant pour identification. En réponse à cette requête, !e serveur renvoie des métadonnées associées à la chanson qui correspondent en général au titre et/ou à l'auteur de !a chanson ainsi que un ou 30 plusieurs liens permettant par exemple de télécharger la chanson. Ces applications ne permettent pas toutefois d'obtenir et d'afficher les paroles de la chanson. Même si tel était le cas, le terminal mobile ou l'ordinateur récepteur de ces informations ne serait pas capable d'afficher sous forme de texte les paroles de manière synchronisée avec leur diffusbn sonore puisque !e contenu oud!o est diffus~ per un système fonctionnant de façon 35 indëpendonbe vis-à-vis du 0ernninal mobile ou de l'ordinateur. 2 Objet et résumé de l'invention L'invention propose une nouvelle solution qui permet d'afficher sous forme de texte sur un premier dispositif, tel qu'un terminal mobile ou un ordinateur, les données vocales d'un contenu audio diffusé par un deuxième dispositif fonctionnant de façon indépendante vis-à-vis du premier dispositif, et ce de manière coordonnée avec !a diffusion sonore du contenu audio par le deuxième dispositif. Selon un premier aspect, !'invention vise un procédé d'affichage, sur un premier dispositif, de données vocales présentes dans un contenu audio diffusé par un deuxième dispositif, ledit procédé comprenant les étapes suivantes: ' analyse des données vocales du contenu audio en cours de diffusion par un module de reconnaissance vocale du premier dispositif, - reconnaissance des données vocales du contenu audio par ledit module de reconnaissance vocale en fonction de données de texte enregistrées sur le premier dispositif et correspondant auxdites données vocales, affichage sous forme de texte sur le premier dispositif des données vocales reconnues. Corrélativement, l'invention vise également un dispositif d'affichage de données vocales d'un contenu audio en cours de diffusion à partir d'un dispositif de diffusion sonore, ledit dispositif d'affichage comprenant un module de reconnaissance vocale comprenant des moyens d'analyse des données vocales du contenu audio en cous de diffusion par !e dispositif de diffusion sonore et des moyens de reconnaissance des données vocales du contenu audioen fonction de données de texte enregistrées sur !e dispositif d'affichage et correspondant auxdites données vocales, ledit dispositif d'affichage comprenant en outre des moyens pour afficher sous forme de texte !es données vocales reconnues. Ainsi, en mettant en oeuvre une reconnaissance des données vocales présentes dans le contenu audin en cours de diffusion, !'invention apporte une solution pour permettre !'affichage sous forme de texte des données vocales du contenu audioau fur et à mesure de leur diffusion. En outre, !es données vocales des contenus audio diffusés pouvant être dans différentes langues et prononcées par des locuteurs quelconques, !a présente invention propose d'utiliser avantageusement des données de texte correspondant aux données vocales qui doivent être neconnue5. La reconnaissance des données vocales et, par conséquent, leur affichage de façon coordonnée avec !es données vocales diffusées avec le contenu audio, est grandement facilitée et fiabilisée. Selon une caractéristique particulière de !'invention, une étape ou des moyens de réception par le premier dispositif ou ci'posiqf d'affichage données de texte sont prévues.
Si !u premier dispositif ou disposutif d'affichogc xe contient pas au pueuruble les dOnn~es detex(~cor espmndont~uxdom/~cs voca!es Ji of-ficher, CeUc_-Ti )Ui s8ntenvOyces afin de pu ri- une rerui-nul,,uince ,iblu innées 3 Selon une autre caractéristique particulière de !'invention, les données de texte sont reçues par ha premier dispositif ou dispositif d'affichage en réponse à une requête de reconnaissance du contenu audiu en cours de diffusion envoyée par ledit premier dispositif ou dispositif d'affichage bunserveur d'identification decontenu audio. 5 Le procédé et le dispositif d'affichage peuvent également comprendre respectivement une étape préalable ou des moyens de téléchargement des données de texte sur le premier dispositif ou d'enregistrement des données de texte sur !e premier dispositif à partir d'un support mémoire amovible. Dans oz cas, !a présente invention, combine avantageusement la reconnaissance du 10 contenu audio avec celle des données vocales de ce dernier, ce qui permet d'afficher, en outre des données d'identification du contenu audio (auteur, titre, etc.), le texte correspondant des données vocales (paroles de chanson, dialogue film, etc.) présentes dans le contenu audio. Selon une caractéristique de !'invention, !o reconnaissance des données vocales du contenu audio par !e module de reconnaissance vocale en fonction de données de texte 15 enregistrées sur le premier dispositif ou dispositif d'affichage est réalisée en continu pendant toute la durée de diffusion du contenu audio. Cette reconnaissance continue permet à !a fois d'assurer un affichage des données vocales en coordination permanente avec !8s instants de leur prononciation dans le contenu audio et de renforcer !a fiabilité de l'affichage des paroles tout au long de !a diffusion du contenu audio ZO en particulier dans !e cas de répétition de certaines données comme par exemple !e refrain d'une chanson. Dans un mode particulier de réalisation, les différentes étapes du procédé d'affichage sous forme de texte de données vocales d'un contenu æudio en cours do diffusion sont déterminées par des instructions de programmes d'ordinateurs. 25 En conséquence, !'invention vise aussi un programme d'ordinateur sur un support d'informations, cc programme étant susceptible d'être mis en oeuvre dans un ordinateur ou équivalent, ce programme comportant des instructions adaptées à la mise en oeuvre des étapes d'un procédé d'affichage de données vocales tels que décrits ci-dessus. Ce programme peut utiliser n'importe quel langage de programmation, et être sous la 30 forme de code source, code objet, ou de code intermédiaire entre code source et code objet, tel que dans une forme partiellement compilée, ou dans n'importe quelle autre forme souhaitable. L'invention vise aussi un support d'informations lisible par un ordinateur, et comportant des instructions d'un programme d'ordinateur tel que mentionné ci-dessus. Le support d'informations peut être n'importe quelle entité ou dispositif capable de 35 stocker le p,ognannnna. Par exemp!e' /e support peut com, Di ter un n~oyie/l de stockage, hel qu'une ROq, pa/ cxemp!e un Cr) ROM no une ROM de circuit micro& choniqxc, ou encore un moyen 4 D'autre part, !e support d'informations peut être un support transmissible iel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio cm par d'autres moyens. Le programme selon !'invention peut être en particulier téléchargé sur un réseau de type Internet. S Alternativement, le support d'informations peut être un circuit intégré dans lequel le programme est incorporé, !e circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé en question (par exemple un circuit ASIC). On peut également envisager, dans d'autres modes de réalisation, que /e procédé et /e dispositif d'affichage selon l'invention présentent en combinaison tout nu partie des 10 caractéristiques précitées.
Brève description des dessins D'autres caractéristiques et avantages de la présente invention ressortiront de la description faite ci-dessous, en référence aux dessins annexés qui en illustrent un exemple de 15 réalisation dépourvu de tout caractère limitatif. Sur !es figures : - la figure 1 représente de façon schématique un système dans lequel est mis en oeuvre le procédé d'affichage de données vocales de l'invention ; - !a figure 2 représenta un exemple d'utilisation d'un module de reconnaissance vocale conforme à l'invention, dans un mode particulier de réalisation ; 20 ' !es figures 3 et 4 sont des ordinogrammes montrant !es étapes d'un mode de réalisation particulier d'un procédé d'affichage dedonnées vocales conforme à !'invention.
Description détaillée d'un mode de réalisation Comme mentionné précédemment, l'invention propose une nouvelle méthode pour 25 afficher sous forme de texte des données vocales d'un contenu audindiffusé par un dispositif de diffusion sonore, £L ce sur un autre dispositif tel qu'un herminal mobile ou un ordinateur n'ayant pas !a possibilité d'interagir avec !e dispositif de diffusion sonore. L'invention permet également, mais non exclusivement, d'afficher les données vocales de façon synchronisée, c'est-à-dire quasiment en même temps que leur prononciation ou très peu de temps après. 30 Par ailleurs, !'invention apporte également une amélioration dans !a reconnaissance des données vocales des contenus audio. En effet, /es performances des systèmes de reconnaissance vocale sont évaluées vis-à-vis du taux d'erreur constaté dans la reconnaissance. Lee systèmes de reconnaissance vocale visent à reconstituer !e discours le plus probable en appliquant des algorithmes de co//rspondance de motifs /"pattern noahching"\ à un modèle de 35 langage. On obtient ainsi pour chnqxe suite de mots prononcés sa probabilité sous forme de texte dans !e langage cible (anglais, fronçais, ubz.). Une dqncu'tés principales de ce modèle de fonctionnement est !a Lo/rc du vocabu!airca p/cndrc ~n compte. Cela ne pose pas de difficultés lorsque !e vocabulaire est très !imité en termes de mot et de langue comme c'est !e cas, par 5 exemple, dans les systèmes de reconnaissance vocale de messageries téléphoniques où ne font partie du vocabulaire dbka que quelques nlot ("appeler, "suivant", "supprimer", etc.) dans une même langue. Dans ce cas, le taux d'erreur est très faible. A l'inverse, lorsque !e ou /es mots à décoder peuvent corvespondnaà n'importe que! ~ mot d'un dictionnaire d'une langue comprenant des dizaines de milliers de mots, la probabilité de décodage peut chuter et /etaux d'erreur estalors important. [e manque de fiabilité est encore aggravé lorsque !es données vocales à reconnaître sont prononcées par une grande variété de locuteurs et lorsque !es données vocales sont mélangées à d'autres sons (par exemple de la musique). Dans le cas de contenus audio correspondant par exemple à des chansons, la taille du 10 vocabulaire à prendre en compte est très importante car les mots faisant partie des paroles d'une chanson peuvent être issus d'un dictionnaire complet d'une langue donnée tout en pouvant en outre être prononcés par un grand nombre d'altistes différents. La procédé et le dispositif de l'invention s'adaptentà ces vocabulaires importants et à leurs locuteurs variés en utilisant pour !a reconnaissance vocale des données de texte 15 correspondant au vocabulaire des données vocales à reconnaître. On réduit ainsi considérablement la taille du vocabulaire à prendre en compte et on augmente fortement la probabilité de décodage. Comme décrit ci-après, les données de texte correspondant aux données vocales du contenu audio peuvent Atna envoyées au terminal destiné à afficher ces dernières par un système distant tel qu'un serveur, comme par exemple par un serveur d'identification audio an réponse à une requête 20 du terminal. Les données de texte peuvent être téléchargées depuis tout type de dispositif ou système distant accessible par le terminal. Par ailleurs, les données de texte peuvent être stockées préalablement sur le terminal ou sur un support mémoire amovible telle qu'une clé USB par exemple. La figure 1 illustre un système dans lequel !'invention peut être mise en oeuvre. Le 25 système comprend un terminal 10, tel qu'un téléphone mobile de type smortphone nu un ordinateur avec un accès réseau, et un serveur d'identification de contenus audio 20 accessible via un réseau 30 hs/ qu'lnkernetetcomprenant une base de données de contenus audiu 21 et une base de mé±adonnéesZ2 associées auxcontenus audio. Dans !a présente invention, !a base de nnétadonnéeG 22 contient, en outre des données habituellement associées aux contenus audio 30 telles que !e nom et l'auteur du contenu aud{o, des données sous forme de texte correspondant aux données vocales présentes dans les contenus audio, comme, par exemple, les paroles des chansons lorsque !es contenus aud/ocorrespondent à des chansons ou les dialogues lorsque les contenus æudiocorrespondent à des bandes sonores de films. Le terminal 10 comprend notamment un microphone 11, un écran 12, un processeur 35 13, une nlénsoh8inherne (ROM) 14, une i//tc/face audiO 15 en ~ioison cvec!e microphone 11, une pen)2tt:a/d nots.Eneneur l'accès r, 18 d'échanger des données entre eux. et au moins un bus .?Ltant au/. eleneets 15 à Comme illustré sur la figure 2, le terminal mobile comprend également un module de reconnaissance audio 40, un module de reconnaissance vocale 50 et un module de commande d'affichage 60. Les modules 40, 50 et 60 sont des applications informatiques qui peuvent être stockées sous forme d'instructions de programme d'ordinateur dans la mémoire interne 14 et exécutées par le processeur 13 (figure 1). Les figures 3 et 4 montrent les étapes réalisées lors de la mise en oeuvre d'un procédé de synchronisation de données de textes lors de la reconnaissance d'un contenu audio en cours de lecture. Le procédé commence lorsqu'un utilisateur du terminal mobile 10 entend un contenu audio, ici une chanson 70, en cours de diffusion par un dispositif de diffusion sonore indépendant 80 (chaîne hifi, système de sonorisation d'un bar, d'un cinéma, etc.) et dont il aimerait connaître le titre et/ou l'auteur ainsi que les paroles de ladite chanson. Dans une première étape S1, l'utilisateur active alors le module de reconnaissance audio 40. Il existe plusieurs produits ou technologie actuellement disponibles qui permettent une telle reconnaissance audio telle que les applications embarquées ShazamO, TunaticO ou MidomiO. Une technique de reconnaissance audio basée sur la comparaison d'un échantillon d'une chanson est décrite notamment dans le document US 2009/0265174. Selon cette dernière technique, un extrait ou échantillon, par exemple d'une dizaine de secondes, de la chanson 70 en cours de diffusion est enregistré par le module de reconnaissance audio 40, via le microphone 11 du terminal 10 (étape S2), qu'il envoie ensuite, sous forme d'une requête de reconnaissance audio Q1, au serveur de d'identification de contenus audio 20 (étape S3). Le serveur 20 génère à partir de l'échantillon une série "d'empreintes" remarquables qu'il compare aux empreintes de toutes les chansons stockées dans la base de données de contenu audio 21 (étape S4). Lorsqu'un nombre prédéterminé d'empreintes de l'échantillon correspondent à celles d'une chanson de la base de données de contenu audio 21, le serveur d'identification de contenus audio 20 extrait, à partir de la base 22 de métadonnées associées aux contenus audio, les métadonnées correspondantes de la chanson, à savoir ici les métadonnées METADATAI correspondant à des données d'identification de la chanson telles que le titre et/ou l'auteur de la chanson 21 ainsi que les métadonnées METADATA2 correspondant aux paroles de la chanson. Dans l'exemple décrit ici, les métadonnées METADATA2 correspondant aux paroles de la chanson, et plus généralement aux données de texte des données vocales, sont obtenues sur requête du module de reconnaissance audio 40 à partir d'une base de données 22 associée au serveur d'identification de contenus audio 20. Toutefois, les métadonnées METADATA2 ou données de texte correspondant aux données vocales du contenu audio peuvent être également obtenues sur requête d'un autre module du terminal, comme par exemple sur requête du module de reconnaissance vocale 50, auprès de serveurs autres que celui d'identification de contenus audio. Les données de texte peuvent encore être préalablement téléchargées sur le terminal ou déjà' présentes sur un support mémoire telle qu'une clé USB. 7 Dans l'exemple décrit ici !e serveur ZO envoie alors une réponse R1 au module de reconnaissance audio 40 du hsnninal mobile 10, !a réponse R1 contenant les métadonnées ME]iADATA1et METADATA2 (étape S5). Une fois !a réponse R1 reçue par le module de reconnaissance audin 40, oa dernier envoie au module de commande d'affichage 60 les 5 mëtadonnées METAD/T\1, correspondant par exemple au tiLreeUou l'auteur de !a chanson, pour que celles-ci soit affichées sur !'écran 12 du terminal 10 (étape S6). Dans !e nnêrne temps, !e module de reconnaissance audio 40 transmet !es métadonnées METADATA2, correspondant au fichier texte des paroles de la chanson, au module de reconnaissance vocale 50. Conformément à !'invention, le fichier texte contenant !es paroles de !a chanson en 10 cours de diffusion est utilisé par !e module de reconnaissance vocale SD afin de permettre une reconnaissance plus aisée des paroles de la chanson. La figure 4 illustre les différents traitements réalisés par le module de reconnaissance vocale 50. La chanson 70 en cous de diffusion est captée par !e microphone 11 (étape S10) et son signal sonore capté 71 est numérisé par un convertisseur analogique-numérique 51 (étape S11). 15 Avant ou après sa numérisation, le signal sonore capté 71 est traité, par exemple au moyen d'un éga!iseur, de manièveà accentuer, voire isoler, la voix dans l'enregistrement audio par rapport aux autres sons &s!s que !es instruments. Le signal sonore ainsi traité peut être en outre amplifié. Le signal numérisé est ensuite traité par un analyseur acoustique 52 (étape S12). L'analyseur réalise tout d'abord un traitement acoustique dit de "panannéthsatinn" qui a pour ZO fonction de transformer !e signal numérisé de !a chanson en une suite d'éléments ou de paramètres acoustiques constituant des "empreintes" caractéristiques du signal sonore numérisé à partir desquelles !a reconnaissance vocale proprement dite pourra être réalisée. Ces éléments acoustiques peuvent correspondre à des coefficients analytiques tels que des coefficients cepstraux. Dans ce cas, l'analyseur acoustique applique sur !e signal numérisé de !a chanson un 25 traitement permettant l'évaluation des coefficients cepstrauxen utilisant par exemple !a méthode d'analyse bien connue MFCC (pour "Mel sca!ed Fraqu2ncy CepStna! Coefficients"). D'autres méthodes d'analyse temps-fréquence du signal numérisé peuvent être utilisées pour générer des coefficients analytiques optes à constituer une signature sonore du signal. On peut citer par exemple l'analyse spectrale par Transformée de Fourier à Court Terme (TFCT) qui présente 30 !'avantage de produire des vecteurs d'une vingtaine de paramètres obtenus avec un faible volume de calcul. On peut également citer !a méthode dite d'analyse par prédiction linéaire (LPC) qui permet de passer d'un spectre échantillonné bruité à une représentation spectrale continue et lissée. Une fois les éléments ou bààmètres acoustiques obtenus, on procède au décodage 35 æcoustico-phonétique qui consiste à ducrire !e signal ccousUqme du chant Là termes d'unités linguistiques discrète,' (~tupe 5l3)Lcs xni~es ph/s uLXhecs snntles phVnen,es, , syllabes, les mots, etc. Dans !e cos dc~ !d~onüncs pàrcxcmph, [nno!ysm/ ncouStique 52 utü/se une méthode bien connue de déco age acoustico-phonétique (OAP) qui conYqe à découper le signal de la 8 parole en segments, puis à identifier ces segments et à leur affecter une étiquette phonétique. L'identification consiste àcomparer chaque spectre de ces segments à un ensemble de spectres de référence et à conserver !es plus ressemblants. Les techniques de comparaison couramment employées s'appuient Surdes méthodes classiques qui tiennent compte des variations individuelles S (accents, coarticulation, liaisons) et prosodiques (rythme, intensité, mélodie). Une fois les traitements décrits ci-dessus réalisés, la reconnaissance vocale proprement dite des paroles de !a chanson en cours de lecture peut commencer (étape S14). AceL effet et conformément à l'invention, le moteur de reconnaissance vocale 53 du module de reconnaissance vocale 58 utilise un dictionnaire ou grammaire 54 qui est établi à partir du fichier 10 texte des paroles de !a chanson transmis par !e module de reconnaissance audio. Pour l'établissement de la grammaire 54, le moteur de reconnaissance vocale 53 transforme le texte des paroles de !a chanson en une représentation acoustique qui est destinée à être comparée aux paroles de !a chanson prononcées. Plus précisément, le moteur de reconnaissance vocale 53 procèdcà une description acoustique des paroles présentes dans le fichier texte de !a chanson en 15 une pluralité d'unités acoustiques discrètes de même nature que celles utilisées pour décrire les paroles de la chanson prononcées (phonèmes, les syllabes, !es mois, etc.). Dans !c cas par exemple où )e signal acoustique des paroles du chant est décrit en termes de phonèmes, le moteur 53 transcrit la suite de lettres composant le texte des paroles de la chanson en une suite de phonèmes qui représentent les sons devant être prononcés dans l'ordre 20 des paroles de la chanson. Le moteur de reconnaissance vocale 53 effectue alors une comparaison des unités acoustiques du signæl sonore de !a chanson avec !es unités acoustiques stockées dans !a grammaire 54eLcorrespondant aux paroles de !a chanson. Dès qu'une suite d'unités acoustiques du signal sonore de !a chanson se rapproche d'une suite d'unités acoustiques du modèle de la 25 grammaire 54, !e moteur de reconnaissance vocal 53 transmet !es mots du texte de !a chanson correspondante au module de commande d'affichage 60 pour que ceux-ci soit affichés sur !'écran 12. On réalise ainsi un affichage synchronisé du texte des paroles de la chanson avec les paroles prononcées à ce moment là dans la chanson en cours de lecture. 30 Selon une première approche, une fois les premiers mots de k5 chanson reconnue !e texte des paroles de !a chanson peut être affiché progressivement, par tranches d'une dizaine de mots par exemple, en extrayant !es mots du fichier texte à partir des premiers mots reconnus par !æ moteur d8 reconnaissance vocale. Dans co cas, !a reconnaissance vocale est utilisée pour pointer/ dans [e [chieiexie, !'cnd/dU !ex!c des paroles correspondant à l'instant de la chanson 35 en cours (le 'notaire ex,tn dns paroles étant er ite affiché par ex tnits a Inten,ailes régufiers. 5~~n Une ceux appooche la reconnalssance tins ' ka chanson cnnti'we!lcmcnn:. ^!o!isée sur !a Canson en cours d- !ecnu~, s po/oHes ëioni aMidnO,as sur[,cran du termi/xal à ka suù- de leur reconnaissance par le module de reconnaissance vocale. Q Cette deuxième approche présente l'avantage de permettre un affichage des paroles en permanence synchronisé avec les instants de leur prononciation dans ks chanson, aucune parole n'étant par exemple affichée lors des passages purement instrumentaux. Un autre avantage de cette approche est qu'elle renforce la fiabilité de l'affichage des paroles tout au long de la chanson. 5 En effet, ai !a reconnaissance vocale débute !os de !a prononciation d'un refrain et si la reconnaissance vocale n'est pas poursuivie après !e refrain, il n'est pas possible de savoir de façon absolue quel est !c coup!età venir après cc refrain. De même, certains refrains ou couplets sont parfois répété dans une chanson, sans une reconnaissance continue, si bien qu'il n'est pas possible de savoir avec exactitude si une partie du texte va être répété nu ai c'est déjà fait. 10 Comme indiqué précédemment, les données de texte peuvent être obtenues par tout moyen. B!e3 peuvent par exemple être té!échargéesà !'avance sur le dispositif d'affichage ou être disponible sur un support mémoire amovible (par exemple une clé USB) connecté audit dispositif d'affichage pour être utilisées ensuite par le module de reconnaissance vocale lors de son utilisation. Dans le cas d'une conférence, par exemple, les participants peuvent obtenir le texte du 15 ou des discours devant être prononcés par téléchargement depuis un serveur dédié ou en utilisant un support mémoire dédié et utiliser ensuite ces données de texte avec un dispositif d'affichage équipé d'un module de reconnaissance conforme à !'invention, ce qui permet notamment aux personnes malentendantes de suivre par écrit le discours prononcé.

Claims (11)

  1. REVENDICATIONS1. Procédé d'affichage sur un premier dispositif (10) de REVENDICATIONS1. Procédé d'affichage sur un premier dispositif (10) de données vocales présentes dans un contenu audio (70) diffusé par un deuxième dispositif (80), ledit procédé comprenant les étapes suivantes: analyse des données vocales du contenu audio (70) en cours de diffusion par un nxxju!e de reconnaissance vocale (50) du premier dispositif (10), reconnaissance des données vocales du contenu audio /70\ par ledit module de reconnaissance vocale (50) en fonction de données de texte (54) enregistrées sur le premier dispositif (10) et correspondant auxdites données vocales, affichage sous forme de texte sur !e premier dispositif (10) des données vocales reconnues.
  2. 2. Procédé selon ka revendication 1, caractérisé en ce qu'il comprend en outre, avant 15 !'étape de reconnaissance des données vocales, une étape de réception par le premier dispositif (10) des données de texte.
  3. 3. Procédé selon la revendication 2, caractérisé en ce que les données de texte sont reçues par !e premier dispositif (10) en réponse (R1) à une requête de reconnaissance (O1) du contenu 20 audioen cours de diffusion envoyée à un serveur d'identification de contenu audio (20).
  4. 4. Procédé selon ky revendicædon 1, caractérisé en cequ'il comprend en outre une étape préalable de téléchargement des données de texte sur ka premier dispositif /10> ou d'enregistrement des données de texte sur le premier dispositif (10) à partir d'un support mémoire 25 amovible.
  5. 5. Procédé selon !'une quelconque des revendications 1 à 4, caractérisé en ce que ks reconnaissance des données vocales du contenu audio (70) par ledit module de reconnaissance vocale /50\ en fonction de données de texte enregistrées sur le premier dispositif (10) est réalisée 30 en continu pendant toute la durée de diffusion du contenu audio.
  6. 6. Programme d'ordinateur comportant des instructions pour !'exécution des étapes du procédé d'affichage selon l'une quelconque des revendications 1 à 5 lorsque ledit programme est exécuté p@runo/dinaicur.
  7. 7. Support d'enregistrement limbe par un ordirioicor sur lequel est enregistré un prs:rad'ordinateur comprenant des instructions pour !'uxecuUon deS étæpes du d'affichage selon l'une quelconque des revendications 1 à 5. - 10 35 11
  8. 8. Dispositif d'affichage (11) de données vocales d'un contenu audk> (70) diffusé par un dispositif de diffusion sonore (80), ledit dispositif d'affichage comprenant un module de reconnaissance vocale (50) comprenant des moyens d'analyse (52) des données vocales du contenu æudio (70) en cours de diffusion par !c dispositif de diffusion sonore (80) et des moyens de reconnaissance (53) des données vocales du contenu audio en fonction de données de texte /54> enregistrées sur le dispositif d'affichage et correspondant auxdites données vocales, ledit dispositif d'affichage /11> comprenant en outre des moyens (60) pour afficher sous forme de texte les données vocales reconnues.
  9. 9. Dispositif d'affichage selon !a revendication 8, caractérisé en ce qu'il comprend en outre des moyens de réception des données de textes.
  10. 10. Dispositif selon ka revendication 8, caractérisé en ce qu'il comprend en outre des moyens d'envoi d'une requête de reconnaissance (Ql) du contenu audio en cours de diffusionà un serveur d'identification de contenu audio (IU) et des moyens de réception des données de textes enréponse (R1) à ladite requête.
  11. 11. Dispositif d'affichage se/on !a revendication 8, caractérisé en ce qu'il comprend en 28 outre des moyens pourhélécharger les données de textes ou des moyens d'enregistrement des données de texte sur le premier dispositif à partir d'un support mémoire amovible.
FR1058568A 2010-10-20 2010-10-20 Procede et dispositif d'affichage de donnees vocales d'un contenu audio Withdrawn FR2966635A1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR1058568A FR2966635A1 (fr) 2010-10-20 2010-10-20 Procede et dispositif d'affichage de donnees vocales d'un contenu audio

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR1058568A FR2966635A1 (fr) 2010-10-20 2010-10-20 Procede et dispositif d'affichage de donnees vocales d'un contenu audio

Publications (1)

Publication Number Publication Date
FR2966635A1 true FR2966635A1 (fr) 2012-04-27

Family

ID=43514047

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1058568A Withdrawn FR2966635A1 (fr) 2010-10-20 2010-10-20 Procede et dispositif d'affichage de donnees vocales d'un contenu audio

Country Status (1)

Country Link
FR (1) FR2966635A1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015116908A1 (fr) * 2014-01-30 2015-08-06 Musicplay Analytics, Llc Système et procédé de suivi d'œuvres audio soumises à droits d'auteur diffusées dans un établissement commercial

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080097754A1 (en) * 2006-10-24 2008-04-24 National Institute Of Advanced Industrial Science And Technology Automatic system for temporal alignment of music audio signal with lyrics
WO2008145994A1 (fr) * 2007-05-29 2008-12-04 Intrasonics S.A.R.L. Récupération de données cachées incorporées dans un signal audio
US20090006087A1 (en) * 2007-06-28 2009-01-01 Noriko Imoto Synchronization of an input text of a speech with a recording of the speech
US7482529B1 (en) * 2008-04-09 2009-01-27 International Business Machines Corporation Self-adjusting music scrolling system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080097754A1 (en) * 2006-10-24 2008-04-24 National Institute Of Advanced Industrial Science And Technology Automatic system for temporal alignment of music audio signal with lyrics
WO2008145994A1 (fr) * 2007-05-29 2008-12-04 Intrasonics S.A.R.L. Récupération de données cachées incorporées dans un signal audio
US20090006087A1 (en) * 2007-06-28 2009-01-01 Noriko Imoto Synchronization of an input text of a speech with a recording of the speech
US7482529B1 (en) * 2008-04-09 2009-01-27 International Business Machines Corporation Self-adjusting music scrolling system

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GARCIA J E ET AL: "Audio and text synchronization for TV news subtitling based on Automatic Speech Recognition", BROADBAND MULTIMEDIA SYSTEMS AND BROADCASTING, 2009. BMSB '09. IEEE INTERNATIONAL SYMPOSIUM ON, IEEE, PISCATAWAY, NJ, USA, 13 May 2009 (2009-05-13), pages 1 - 6, XP031480110, ISBN: 978-1-4244-2590-7 *
HIROMASA FUJIHARA ET AL: "Automatic Synchronization between Lyrics and Music CD Recordings Based on Viterbi Alignment of Segregated Vocal Signals", MULTIMEDIA, 2006. ISM'06. EIGHTH IEEE INTERNATIONAL SYMPOSIUM ON, IEEE, PI, 1 December 2006 (2006-12-01), pages 257 - 264, XP031041790, ISBN: 978-0-7695-2746-8 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015116908A1 (fr) * 2014-01-30 2015-08-06 Musicplay Analytics, Llc Système et procédé de suivi d'œuvres audio soumises à droits d'auteur diffusées dans un établissement commercial

Similar Documents

Publication Publication Date Title
EP1362343B1 (fr) Procede, module, dispositif et serveur de reconnaissance vocale
US7788095B2 (en) Method and apparatus for fast search in call-center monitoring
US8027836B2 (en) Phonetic decoding and concatentive speech synthesis
US8706488B2 (en) Methods and apparatus for formant-based voice synthesis
US10887764B1 (en) Audio verification
US9311914B2 (en) Method and apparatus for enhanced phonetic indexing and search
US20110004473A1 (en) Apparatus and method for enhanced speech recognition
US11580982B1 (en) Receiving voice samples from listeners of media programs
US9058384B2 (en) System and method for identification of highly-variable vocalizations
US20120016674A1 (en) Modification of Speech Quality in Conversations Over Voice Channels
EP1769489B1 (fr) Procede et systeme de reconnaissance vocale adaptes aux caracteristiques de locuteurs non-natifs
EP3839952A1 (fr) Systèmes et procédés de masquage
CN114125506B (zh) 语音审核方法及装置
FR2966635A1 (fr) Procede et dispositif d'affichage de donnees vocales d'un contenu audio
US11632345B1 (en) Message management for communal account
CN114783408A (zh) 一种音频数据处理方法、装置、计算机设备以及介质
EP3556102A1 (fr) Procede d'enregistrement d'un programme telediffuse a venir
FR3058253B1 (fr) Procede de traitement de donnees audio issues d'un echange vocal, systeme et programme d'ordinateur correspondant.
EP1741092B1 (fr) Reconnaissance vocale par modelisation contextuelle d'unites vocales
Huang et al. VPCID—A VoIP phone call identification database
FR3136884A1 (fr) Compression audio à très bas débit
Sapkota et al. Spoken Language Identification Using Convolutional Neural Network In Nepalese Context
WO2009101319A1 (fr) Procede, dispositif et programme d'ordinateur pour la recherche de mots-cles dans un signal de parole
EP4158622A1 (fr) Procede d'identification d'un locuteur
WO2023232609A1 (fr) Procédé et dispositif de vérification de l'utilisation d'une interface homme/machine par un opérateur humain

Legal Events

Date Code Title Description
ST Notification of lapse

Effective date: 20120629