FR2850783A1 - Dispositif pour indexer un signal audio continu de duree indeterminee - Google Patents

Dispositif pour indexer un signal audio continu de duree indeterminee Download PDF

Info

Publication number
FR2850783A1
FR2850783A1 FR0301218A FR0301218A FR2850783A1 FR 2850783 A1 FR2850783 A1 FR 2850783A1 FR 0301218 A FR0301218 A FR 0301218A FR 0301218 A FR0301218 A FR 0301218A FR 2850783 A1 FR2850783 A1 FR 2850783A1
Authority
FR
France
Prior art keywords
context
segment
signal
text
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
FR0301218A
Other languages
English (en)
Inventor
Ghislain Moncomble
Thierry Milin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Priority to FR0301218A priority Critical patent/FR2850783A1/fr
Priority to PCT/FR2004/000152 priority patent/WO2004079719A1/fr
Publication of FR2850783A1 publication Critical patent/FR2850783A1/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

Le dispositif détermine des contextes d'un signal audio (SA), comprenant un filtre (1) filtrant le signal audio en un signal vocal (SV) et un signal bruité, un analyseur (2) analysant le signal vocal pour produire des paramètres vocaux, et un module de reconnaissance vocale (3) convertissant le signal vocal en un signal textuel (ST). Le signal textuel est segmenté en des segments textuels temporels périodiques (Sn). Une unité (5) détermine un contexte (CSn) du segment courant en fonction des paramètres vocaux et du segment textuel. Une unité (6) détermine une borne temporelle supérieure de contexte général qui est confondue avec une borne temporelle supérieure du segment courant, respectivement du segment précédent, lorsque les contextes du segment courant et du segment précédent sont, respectivement ne sont pas similaires et qui est maintenue confondue avec une borne temporelle supérieure.

Description

Dispositif pour indexer un signal audio continu de durée indéterminée
La présente invention concerne un dispositif 5 pour indexer un signal audio continu de durée indéterminée.
Le développement des télécommunications a conduit à l'explosion de la quantité d'informations à 10 traiter et en parallèle, au besoin de classification automatique de l'information. Alors que des techniques existent depuis longtemps pour traiter de l'information textuelle, les techniques de traitement de l'information audio sont actuellement en plein 15 développement. La reconnaissance vocale ou encore la traduction automatique s'appuie sur des techniques résultant en partie d'études linguistiques. Celles-ci recourent notamment à des dictionnaires de vocabulaire, à l'application de règles grammaticales 20 et de la conjugaison des verbes, et plus récemment à la définition de contextes.
Le contexte d'un document multimédia est de définir, en analysant le document multimédia, le 25 sujet et le sens du document multimédia afin d'améliorer des transcriptions du document multimédia en document textuel ou audio. Au lieu de se contenter d'appliquer des correspondances simples par exemple entre une suite de phonèmes et sa représentation 30 textuelle, un contexte général du document multimédia est également considéré afin de minimiser les risques de mauvaise interprétation de la suite de phonèmes.
Par exemple si le contexte général du document multimédia est "les jours de la semaine", la suite de 35 phonèmes "[s] [a] [m] [d] [i]" sera interprété par un moteur de reconnaissance vocale à contexte comme le mot "samedi" et non pas l'expression "ça me dis".
Un contexte est constitué par une liste de mots ou expressions clés et de leurs équivalents. Chaque 5 mot ou expression clé caractérise un contexte susceptible d'être abordé dans n'importe quel document multimédia. Certains contextes sont des combinaisons de contextes, ou dans le cas de contextes d'actualités ou régionaux, des combinaisons 10 de contextes précisés par un nom propre, telles que par exemple: Météo Bretagne, Guerre Afghanistan, etc. Le brevet US 6.434.520 divulgue un système pour indexer des segments d'un document multimédia, 15 particulièrement audio, dans une base de données selon des informations caractérisant le document, comme l'identité du speaker et l'environnement sonore du document, mais également en se basant sur le contexte des paroles du speaker.
Le brevet US 6.212.494 décrit un procédé s'appuyant sur des analyses linguistiques d'un document technique en ligne afin d'extraire et de cataloguer l'essentiel des informations du document pour constituer par exemple un glossaire, un index ou 25 une aide à la compréhension du document. Ce procédé repose en outre sur une analyse morphologique, lexicale et syntaxique du document mais aussi sur l'analyse du contexte au niveau de chaque phrase.
La demande de brevet américain, dont le numéro 30 de publication est US 2002/0091509 Ai, concerne un procédé de traduction automatique de phrases de texte reposant en outre sur l'identification du contexte des phrases en analysant et en parcourant pas à pas le texte, et en tenant compte des analyses précédentes afin d'améliorer continuellement la qualité de la traduction.
Dans la suite de la description, on se réfère à
des signaux audio extraits de documents multimédias.
La technique de détermination de contexte telle que défini ci-dessus dans des transcriptions de document multimédia n'est pas adaptable en l'état à 10 un signal audio continu de durée indéterminée. En effet, dans les techniques antérieures citées cidessus, un contexte est déterminé sur un élément syntaxique connu, par exemple une phrase. Or lorsqu'un contexte est déterminé pour un signal audio 15 continu de durée indéterminée, il est impossible de prédire la fin de la phrase lorsque celle-ci n'existe pas encore. Contrairement au traitement de signaux audio de durée déterminée constituant des documents audio de durées limitées, une contrainte de 20 défilement temporelle forte existe dans le cas du traitement des signaux continus de durée indéterminée. La technique de détermination de contexte pour signal audio de durée déterminée ne s'applique donc pas aux signaux audio de durée 25 indéterminée.
L'objectif de la présente invention est de déterminer les contextes d'un signal audio continu de durée indéterminée et ainsi de remédier à la 30 contrainte de défilement temporelle afin de mettre en oeuvre des techniques de traitement spécifique aux signaux audio à durée déterminé sur des signaux audio à durée indéterminée.
Plus précisément, l'invention concerne un dispositif pour indexer un signal audio continu de durée indéterminée, comprenant un moyen pour filtrer le signal audio continu en un signal vocal et un 5 signal bruité, un moyen pour analyser le signal vocal afin de produire des paramètres vocaux, et un moyen de reconnaissance vocale convertissant le signal vocal en un signal textuel.
Les moyens énoncés ci-dessus du dispositif 10 d'indexation selon l'invention constituent une cascade de modules individuels connus servant au traitement vocal d'un signal audio.
Pour atteindre l'objectif précité, le dispositif d'indexation de l'invention est caractérisé en ce 15 qu'il comprend un moyen pour segmenter le signal textuel continu en des segments textuels temporels périodiques, un premier moyen pour déterminer un contexte du segment textuel courant en fonction des moyennes des paramètres vocaux sur la durée du 20 segment courant et du segment textuel respectif, et un deuxième moyen pour déterminer un contexte général qui est déduit de contextes similaires de segments précédents consécutifs et dont une borne temporelle supérieure est confondue avec une borne temporelle 25 supérieure du segment textuel courant lorsque les contextes du segment textuel courant et du segment textuel précédant le segment textuel courant sont similaires, et est maintenue confondue avec une borne temporelle supérieure du segment textuel précédant le 30 segment textuel courant lorsque le contexte du segment textuel courant n'est pas similaire au contexte du segment textuel précédent.
D'autres caractéristiques et avantages de la 35 présente invention apparaîtront plus clairement à la lecture de la description suivante de plusieurs réalisations préférées de l'invention en référence aux dessins annexés correspondants dans lesquels: - la figure 1 est un bloc-diagramme schématique 5 d'un dispositif d'indexation selon une première réalisation de l'invention; - la, figure 2 est un bloc-diagramme schématique d'un dispositif d'indexation selon une deuxième réalisation de l'invention; et - la figure 3 est un algorithme d'étapes exécutées par le dispositif d'indexation selon la première réalisation pour déterminer un contexte à partir d'un segment courant et d'un segment précédent dans un signal audio continu de durée indéterminée. 15 L'invention sera décrite ci-après dans le cadre de signaux audio, quelle que soit la provenance de ces signaux audio. Un signal audio est extrait d'un signal à plusieurs composantes comme les signaux 20 audio/vidéo ou multimédia, ou directement d'un signal uniquement audio. Quelques sources susceptibles de fournir des signaux audio avec ou sans filtrage sont par exemple des récepteurs de télévision, récepteurs radiophoniques ou terminaux personnels du type 25 ordinateur ou assistant numérique ou terminal téléphonique ou radiotéléphonique mobile. L'invention peut être implémentée aussi bien dans un terminal et/ou un serveur en fonction des caractéristiques de l'application qui met en oeuvre l'invention. 30 En référence à la figure 1, un dispositif d'indexation selon l'invention comprend un filtre 1, un analyseur vocal 2, un module de reconnaissance vocale 3, une unité de segmentation 4, une unité de détermination de contexte de segment 5 et une unité de détermination de contexte général 6.
Le filtre 1 reçoit en entrée un signal audio continu SA de durée indéterminée. Il sera supposé que 5 le signal audio SA est numérique; sinon, le signal audio reçu est analogique et converti par un convertisseur analogique-numérique inclus dans le filtre 1.
Le filtre 1 filtre par soustraction spectrale ou 10 filtrage adaptatif le signal audio SA afin de le dissocier en un signal comprenant uniquement de la voix et appelée signal SV et un signal comprenant des bruits de fond et appelé "signal bruité" ou signal résiduel SB. Le filtre 1 est par exemple basé sur une 15 analyse prédictive linéaire LPC (Linear Predictive Coding) et isole différentes composantes acoustiques dans un signal audio comme la voix, le bruit vocal et la musique pure. Le signal bruité SB qui est susceptible de perturber l'analyse vocale et la 20 reconnaissance vocale suivante n'est pas traité dans le dispositif d'indexation selon la première réalisation montrée à la figure 1.
Le signal vocal SV est ensuite traité en parallèle par l'analyseur vocal 2 et le module de 25 reconnaissance vocale 3.
L'analyseur vocal 2 analyse le signal vocal SV afin de déterminer en continu une liste de paramètres PVS caractérisant le signal vocal SV, appelée "liste de paramètres vocaux". La liste de paramètres vocaux 30 n'est pas fixe mais comporte entre autre des paramètres acoustiques et particulièrement prosodiques comme la fréquence de vibration, l'intensité, le débit, le timbre et également d'autres paramètres comme l'âge relatif du locuteur.
En parallèle à l'analyse vocale, le signal vocal SV est soumis au module de reconnaissance vocale 3.
Dans la réalisation montrée à la figure 1, la langue du signal audio est considérée comme connue. Le 5 module de reconnaissance vocale 3 transforme le signal vocal SV en un signal textuel ST.
Dans une variante, le module 3 considère les résultats d'une étude de contexte effectuée préalablement afin d'affiner la reconnaissance et la 10 transcription du signal vocal. Le contexte se traduit en des éléments syntaxiques, c'est-à-dire des mots et expressions clés, présentant des probabilités élevées pour être inclus dans une portion du signal vocal.
Par exemple, le contexte d'un spot publicitaire ou 15 d'actualités relativement périodique ou fréquent dans un signal audio émis par une station de radiodiffusion sonore est prédit en connaissant le programme détaillé de cette station, ou en le déduisant de spots publicitaires ou d'actualités 20 précédents. Divers contextes sous la forme de mots et expressions clés, comme définis ci-dessus, constituent des contextes prémémorisés et gérés dans une base de données contextuelle 45 liée au module 3 et aux unités 5 et 6. Les contextes dans la base 45 25 sont améliorés progressivement au cours du traitement du signal audio SA pour faciliter la reconnaissance vocale dans le module de reconnaissance vocale 3. Les contextes dans la base 45 sont également complétés et affinés par consultation automatique de base de 30 données externes en fonction des contextes récemment détectés. Le module 3 peut s'appuyer sur un logiciel de compréhension en langage naturel (Natural Language Understanding NLU).
L'unité de segmentation 4 segmente le signal 35 textuel ST en segments textuels temporels et périodiques..., Sn, ... au fur et à mesure de la réception du signal audio SA dans une mémoire tampon.
En effet l'unité de segmentation 4 comporte en outre une mémoire tampon mémorisant en continu le signal 5 audio SA pendant une durée supérieure à une durée prédéterminée DS de segments de signal audio. En pratique, la capacité de la mémoire tampon est telle qu'elle enregistre au maximum une portion du signal audio SA ayant une durée au moins dix fois environ 10 supérieure à celle DS des segments. La durée prédéterminée DS des segments de signal textuel dépend du rapport entre la qualité d'indexation du dispositif, c'est-à-dire la pertinence de l'indexation en fonction de la signification des mots 15 contenus dans le signal textuel, et le temps d'indexation du dispositif. Par exemple une durée de segment DS de 20 secondes comparativement à une durée de segment de 1 minute augmente la fréquence d'indexation du dispositif au détriment de la qualité 20 d'indexation. Une durée minimale de 15 secondes est typiquement suffisante au dispositif pour assurer une qualité minimale.
Dans une autre réalisation préférée de l'invention la segmentation n'est pas fondée sur une 25 caractéristique temporelle mais dépend d'un élément syntaxique comme un mot, ou un groupe de mots ou une phrase.
L'unité 5 détermine un ou plusieurs contextes CSn du segment textuel courant Sn en fonction de la 30 moyenne PVSn de chaque paramètre vocal PVS sur le segment textuel courant et du contenu du segment textuel courant Sn. Dans une variante préférée, des contextes établis et mémorisés précédemment servent également à la détermination du contexte dans l'unité 35 5 et contribuent à augmenter la pertinence de nouveaux contextes de segment qui participeront à leur tour à la détermination de contextes de prochains segments.
Dans une autre variante, un contexte général est 5 déterminé initialement avant toute indexation du signal audio SA en fonction de paramètres externes au dispositif d'indexation et liés entre autre à la source du signal audio telle que récepteur radiophonique, récepteur de télévision, terminal 10 téléphonique ou radiotéléphonique, ou enregistreur de conversations téléphoniques. Lorsque le signal audio SA à traiter est celui reçu par un récepteur radiophonique ou de télévision, des grilles de programme ou des informations sur celles-ci ainsi que 15 toutes informations susceptibles de renseigner le contexte de premiers segments textuels enrichissent la base de données contextuelle 45. Ce contexte général est basé par l'unité 5 sur le contexte d'un nombre déterminé de segment précédant le segment 20 courant Sn lorsque le contexte du segment immédiatement précédent n'est pas déterminé.
L'unité de détermination de contexte général 6 compare le contexte CSn du segment textuel courant Sn au contexte CSn-1 du segment textuel précédent Sn-1 25 afin de déterminer des bornes temporelles d'un contexte général courant CGm. Le contexte général CGm comparativement à un contexte de segment demeure inchangé au cours d'un ou plusieurs segments textuels consécutifs dont les contextes sont similaires et 30 définissent en commun le contexte général. L'ensemble des segments textuels consécutifs définissant le contexte général CGm est limité par des bornes temporelles respectivement confondues avec la borne inférieure, dite également borne antérieure, du 35 premier segment textuel traité de l'ensemble et la borne supérieure BSm, dite également borne postérieure, du dernier segment textuel traité de l'ensemble.
A des fins d'optimisation de l'indexation du 5 signal audio SA, des portions périodiques du signal vocal SV ayant une durée supérieure et proportionnelle à la durée DS des segments textuels Sn périodiques sont traitées chacun plusieurs fois par les moyens fonctionnels 2 à 6. Par exemple, un 10 passage d'une portion du signal vocal SV deux à K fois à travers les moyens 2 à 6 affine la pertinence des contextes de cette portion. Le nombre K de cycles de traitement d'une portion de signal audio, comme indiqué schématiquement en 26 dans la figure 1, 15 dépend des contraintes de temps, de la qualité de chaque traitement dans les moyens 2 à 6 et de la capacité de la mémoire tampon dans l'unité de segmentation 4. Plus le dispositif d'indexation doit traiter rapidement le signal audio, plus le nombre K 20 est petit.
Egalement à des fins d'optimisation de l'indexation, l'unité 5 détermine quelques contextes du segment textuel courant Sn pour segmenter davantage le signal textuel ST en différents 25 contextes généraux dans l'unité 6. Ainsi des intervalles de différents contextes généraux n'ayant pas a priori des bornes temporelles inférieures et supérieures confondues sont juxtaposés pendant des segments textuels communs, ce qui augmente la 30 précision des informations générales relatives au signal audio.
Selon une deuxième réalisation préférée montrée à la figure 2, le dispositif d'indexation comprend 35 également un comparateur audio 7. Le comparateur audio 7 est en relation avec une base de données audio 71 dans laquelle sont mémorisées des morceaux de données audio telles que des musiques, des chansons, des jingles publicitaires, des flashs 5 d'information et des bruitages. Plus généralement, la base de données 71 a enregistré préalablement tout morceau de donnée audio de préférence qualifié par des paramètres audio PASp et des contextes CAP dont les bornes temporelles sont échelonnées par rapport à 10 un repère fixe d'une donnée audio, telle que le début d'une chanson ou d'un jingle. La base de données 71 contient ainsi des morceaux de données audio typés qui sont utilisés pour interrompre le signal audio continu SA relativement à un contexte général, comme 15 on le verra plus loin à propos de "saut de contexte".
Le comparateur audio 7 comprend une mémoire tampon et une unité de segmentation. Le comparateur compare des échantillons de morceaux audio contenu dans la base de données audio 71. Les échantillons 20 sensiblement identiques permettent au comparateur de déterminer des portions de signal audio SA correspondant à des morceaux complets ou à des parties de morceaux audio contenus dans la base de données 71.
Les paramètres PASp et le contexte CAP de la portion identifiée du signal audio SA sont appliqués à l'unité 5 sur toute la durée de la portion déterminée, en remplacement des moyennes PVSn des paramètres vocaux sur le segment courant et du 30 contenu du segment textuel Sn. Les segments textuels Sn du signal textuel ST sont ainsi qualifiés respectivement par des paramètres vocaux PASp et des contextes audio CAp lus dans la base 71, ce qui inhibe un traitement de ces segments Sn par l'analyseur vocal 2 et l'unité de reconnaissance vocale 3, comme indiqué par la liaison 72.
Le comparateur audio 7 participe également à l'amélioration de la qualité de détermination des 5 contextes puisque les paramètres PASp et les contextes CAP associés aux données audio et contenus dans la base de données audio 71 sont déterminés aussi bien manuellement et donc très précisément, qu'automatiquement.
Dans un souci d'amélioration de la détermination des contextes, le signal bruité SB comportant la partie non vocale résiduelle du signal audio SA produit par le filtre 1 est appliqué par le filtre 1 au comparateur audio 7, afin de tenter de qualifier 15 le signal bruité SB par des paramètres PASp et des contextes CAp provenant de la base de données audio 71 et ainsi d'améliorer la détermination de contexte dans l'unité et de renseigner la base contextuelle 45 pour de nouveaux contextes. Afin de constituer 20 rapidement des données audio dans la base 71, les machines hébergeant le moyen de gestion gérant la base de données audio 71 peuvent être mutualisées.
Dans une autre variante, le moyen de gestion est associé au comparateur audio 7 dans le dispositif 25 d'indexation.
Une unité de détermination de langue connue 8 est insérée entre le filtre 1 et le module de reconnaissance vocale 3 afin de déterminer la langue du signal vocal SV si celle-ci n'est pas 30 préalablement connue. Pour des informations multilangues par exemple, la langue est reconnue ainsi en continue.
On se réfère maintenant à la figure 3 pour 35 décrire des étapes principales El à E82 exécutées par le dispositif d'indexation pour déterminer des contextes d'un signal audio continu indéterminé SA dans le cas de la première réalisation montrée à la figure 1.
Le segment Sn est filtré par le filtre 1 à l'étape El afin de constituer un signal vocal SV composé uniquement de la partie vocale du signal SA sans un quelconque bruit de fond. Le signal vocal SV est ensuite simultanément analysé dans l'analyseur 2 10 à l'étape E2 et traité par le module de reconnaissance vocale 3 à l'étape E3. Suite à l'analyse du signal SV à l'étape E2, l'analyseur 2 produit des paramètres vocaux PVS en continu du signal audio SA, et suite au traitement par 15 reconnaissance vocale à l'étape E3, le module 3 produit un signal textuel ST déduit du signal vocal SV.
A la quatrième étape E4, l'unité mémorise le signal textuel ST en mémoire tampon, éventuellement 20 après transformation numérique. Le temps pendant lequel des échantillons numériques du signal textuel ST reste en mémoire tampon dépend de la durée prédéterminée DS des segments Sn, et est au minimum égal à la durée de segment DS.
La segmentation temporelle et périodique du signal textuel ST se produit à la cinquième étape E5.
Le signal textuel ST est segmenté par l'unité 4 en segments textuels consécutifs Sn de durée DS. Dans la figure 3 est considéré le traitement d'un nième 30 segment courant Sn bien que chaque segment du signal textuel ST soit soumis aux même étapes suivantes au fur et à mesure de la réception du signal audio SA par le dispositif d'indexation.
En fonction des moyennes des paramètres vocaux 35 sur le segment courant PVSn et du segment textuel Sn, l'unité 5 détermine un contexte de segment CSn du segment vocal Sn à l'étape E6. Les bornes temporelles du contexte CSn du segment Sn sont connues puisqu'elles sont confondues avec les bornes BSn du 5 segment temporel Sn. Le contexte CSn et les paramètres vocaux PVSn sont mémorisés à l'étape E7 dans la base contextuelle 45. En variante cette mémorisation est temporaire, le temps de sauvegarde en mémoire dépendant de la durée des segments 10 textuels Sn et du temps de traitement d'un segment par les unités de détermination de contexte 5 et 6.
Les expressions et mots clés caractérisant un contexte sont déterminés à l'étape E6 par différents procédés d'analyse, comme la récupération des sujets 15 d'une phrase après suppression des propositions, adjectifs ou autres éléments. En variante tous les procédés existants de détermination de contexte seul ou combiné sont utilisés dans la présente invention.
L'unité 6 compare ensuite le contexte CSn au 20 contexte CSn-1 du segment précédent Sn-1 à l'étape E8.
Lorsque les deux contextes CSn et CSn-1 ne sont pas similaires, c'est-àdire n'ont quasiment aucun ou peu de mots et expressions clés en commun, l'étape 25 E81 déduit que la borne supérieure BSn-1 du segment précédent Sn1 est égale à la borne supérieure BCGm du contexte général courant CGm+ 1 dont le dernier segment textuel est le segment Sn-1. La borne inférieure du segment courant Sn définit alors la 30 borne inférieure du contexte général courant suivant BCGm+1 relatif au segment Sn et éventuellement aux segments suivant le segment Sn.
Lorsqu'à l'étape E8, les contextes CSn et CSn-1 sont similaires, c'est-àdire ont un nombre de mots 35 et expressions clés identiques ou synonymes supérieur à un seuil prédéterminé, par exemple égal à 2 ou 3, la borne supérieure BCGm du contexte général courant CGm est momentanément confondue avec la borne supérieure BSn du segment courant Sn à l'étape E82. 5 Le segment Sn peut être le dernier segment textuel relatif au contexte général CGm si ultérieurement les contextes des segments textuels Sn et Sn+1 ne sont pas similaires.
Au fur et à mesure de l'indexation individuelle 10 des segments textuels.. ., Sn-1, Sn, Sn+1, ... par les contextes respectifs..., CSn-1, CSn, CSn+1, ...
à l'étape E7, le signal audio continu SA est indexé par des contextes généraux successifs..., BCGm, ...
qui sont relatifs chacun à un ou plusieurs segments 15 textuels consécutifs indexés. Par exemple, le signal SA est indexé d'un sujet A jusqu'à la 8iéme minute depuis un instant de référence de début de segmentation dans l'unité 4, puis d'un sujet B de la 6ième à la 12 ème minute, puis d'un sujet C pendant 1 20 minute, puis à nouveau du sujet B, etc. pour une durée de segment DS de 30 secondes par exemple. Le sujet B est présent dans le signal SA à deux reprises après avoir été interrompu pendant 1 minute par le sujet C qui a été reconnu par le comparateur audio 7 25 dans la base de données audio 71. Ce phénomène est appelé saut de contexte. Les sujets A, B et C sont par exemple des actualités, une rubrique sur le cinéma et un ensemble d'encarts publicitaires.
Dans cet exemple, les unités de détermination de 30 contexte 5 et 6 commandent l'écriture du contexte du dernier segment textuel Sn temporel du sujet B précédant le sujet C ainsi que le contexte général du sujet B lorsque le comparateur 7 détecte l'ensemble des premiers segments consécutifs relatifs au sujet C 35 par comparaison aux segments de données audio dans la base de données audio 71. Au moins l'unité 6 récupère le contexte général du segment précédant ledit ensemble détecté du sujet C à la suite du dernier segment du sujet C ayant ainsi encore le même 5 contexte général que l'ensemble détecté du début du sujet C. Cette récupération évite que le dispositif d'indexation détermine à nouveau au moins un contexte général relativement aux premiers segments du sujet B suivant le sujet C, lequel contexte général et en 10 l'occurrence le contexte général précédant le sujet C. Dans une autre réalisation, les bornes temporelles déduites pour le contexte général CGm sont mémorisées dans la base contextuelle 45. Des 15 deuxièmes contextes et leurs paramètres contenus dans la base de données contextuelle 45 sont liés au contexte général lorsque le contexte général a des paramètres communs avec les paramètres des deuxièmes contextes. Ainsi le contexte CGm défini par quelques 20 mots clés est affiné par son rapprochement avec d'autres contextes contenus dans la base de données contextuelle 45. La base de données contextuelle est établie préalablement et contient une liste de sujets référencés et de mots clés associés, ainsi que 25 d'autres paramètres qualifiant un contexte. En variante, les deuxièmes contextes sont mémorisés dans une deuxième base de données contextuelle mutualisée entre des dispositifs d'indexation selon l'invention.

Claims (8)

REVENDICATIONS
1 - Dispositif pour indexer un signal audio continu (SA) de durée indéterminée, comprenant un 5 moyen (1) pour filtrer le signal audio continu en un signal vocal (SV) et un signal bruité (SB), un moyen (2) pour analyser le signal vocal (SV) afin de produire des paramètres vocaux (PVS), et un moyen de reconnaissance vocale (3) convertissant le signal 10 vocal (SV) en un signal textuel (ST), caractérisé en ce qu'il comprend un moyen (4) pour segmenter le signal textuel continu (ST) en des segments textuels temporels périodiques (Sn), un premier moyen (5) pour déterminer un contexte (CSn) du segment textuel courant (Sn) en fonction des moyennes (PVSn) des paramètres vocaux sur la durée du segment courant et du segment textuel respectif (Sn), et un deuxième moyen (6) pour déterminer un contexte général (BCGm) qui est déduit de contextes similaires de segments précédents consécutifs et dont une borne temporelle supérieure est confondue (E82) avec une borne temporelle supérieure (BSn) du segment 25 textuel courant (Sn) lorsque les contextes (CSn, CSn-1) du segment textuel courant et du segment textuel précédant le segment textuel courant sont similaires, et est maintenue confondue (E81) avec une borne temporelle supérieure (BSn-1) du segment 30 textuel (Sn-1) précédant le segment textuel courant lorsque le contexte (CSn) du segment textuel courant n'est pas similaire au contexte (CSn-1) du segment textuel précédent.
2 - Dispositif conforme à la revendication 1, dans lequel le moyen de reconnaissance vocale (3) produit un signal textuel (ST) en fonction des contextes déterminés par les premier et deuxième moyens.
3 - Dispositif conforme à la revendication 1 ou 2, dans lequel un contexte général initial est déterminé initialement à partir de paramètres 10 externes au dispositif et est basé par le premier moyen pour déterminer (5) sur le contexte textuel de segments textuels précédant le segment textuel courant lorsque le contexte du segment textuel immédiatement précédant n'est pas déterminé. 15 4 - Dispositif conforme à l'une quelconque des revendications 1 à 3, dans lequel des portions périodiques de durée supérieure et proportionnelle à la durée des segments textuels (Sn) sont traitées K 20 fois par le moyen pour analyser (2), le moyen de reconnaissance vocale (3) et les premier et deuxième moyens pour déterminer (5, 6) afin d'affiner la pertinence des contextes de ladite portion.
5 - Dispositif conforme à l'une quelconque des revendications 1 à 4, dans lequel le deuxième moyen pour déterminer (6) juxtapose plusieurs contextes généraux sur au moins un segment textuel.
6 - Dispositif conforme à l'une quelconque des revendications 1 à 5, comportant en outre un moyen (71) pour mémoriser préalablement des morceaux de données audio consécutifs avec des paramètres (PAS) et des contextes (CA) respectifs, et un moyen (7) 35 pour comparer un échantillon du signal audio (SA) à des échantillons de morceaux de données audio, afin de qualifier une portion courante du signal audio (SA) par des paramètres vocaux (PASp) et un contexte (CAp) de morceaux de données audio lorsque 5 l'échantillon du signal audio et un échantillon d'un morceaux de données audio sont sensiblement identiques.
7 - Dispositif conforme à la revendication 6, 10 dans lequel le moyen pour comparer (7) détecte un ensemble d'échantillons consécutifs dans le signal audio (SA) par comparaison aux échantillons de données audio dans le moyen pour mémoriser (71), et le deuxième moyen pour déterminer (6) récupère le 15 contexte général du segment précédant ledit ensemble détecté à la suite du dernier segment ayant encore le contexte général dudit ensemble.
8 - Dispositif conforme à la revendication 6 ou 20 7, dans lequel le moyen pour comparer (7) compare des portions du signal bruité (SB) produites par le moyen pour filtrer (1) afin d'améliorer la détermination de contexte dans le premier moyen pour déterminer.
9 - Dispositif conforme à l'une quelconque des revendications 1 à 8, comprenant un moyen (8) entre le moyen pour filtrer (1) et le moyen de reconnaissance vocale (3) pour déterminer une langue du signal vocal (SV).
- Dispositif conforme à l'une quelconque des revendications 1 à 9, comprenant un moyen (45) pour mémoriser et gérer des contextes déduits de segments textuels précédant le segment textuel courant (Sn) 35 et/ou d'une étude de contexte afin de faciliter la 2850783 20 reconnaissance vocale dans le moyen de reconnaissance vocale (3) et la détermination de contexte de segment textuel courant dans le premier moyen pour déterminer (5).
FR0301218A 2003-01-30 2003-01-30 Dispositif pour indexer un signal audio continu de duree indeterminee Withdrawn FR2850783A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
FR0301218A FR2850783A1 (fr) 2003-01-30 2003-01-30 Dispositif pour indexer un signal audio continu de duree indeterminee
PCT/FR2004/000152 WO2004079719A1 (fr) 2003-01-30 2004-01-23 Dispositif pour indexer un signal audio continu de duree indeterminee

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0301218A FR2850783A1 (fr) 2003-01-30 2003-01-30 Dispositif pour indexer un signal audio continu de duree indeterminee

Publications (1)

Publication Number Publication Date
FR2850783A1 true FR2850783A1 (fr) 2004-08-06

Family

ID=32696311

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0301218A Withdrawn FR2850783A1 (fr) 2003-01-30 2003-01-30 Dispositif pour indexer un signal audio continu de duree indeterminee

Country Status (2)

Country Link
FR (1) FR2850783A1 (fr)
WO (1) WO2004079719A1 (fr)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6185527B1 (en) * 1999-01-19 2001-02-06 International Business Machines Corporation System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval
EP1171871A1 (fr) * 1999-03-26 2002-01-16 Koninklijke Philips Electronics N.V. Moteurs de reconnaissance pourvus de modeles de langue complementaires
US6434520B1 (en) * 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6185527B1 (en) * 1999-01-19 2001-02-06 International Business Machines Corporation System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval
EP1171871A1 (fr) * 1999-03-26 2002-01-16 Koninklijke Philips Electronics N.V. Moteurs de reconnaissance pourvus de modeles de langue complementaires
US6526380B1 (en) * 1999-03-26 2003-02-25 Koninklijke Philips Electronics N.V. Speech recognition system having parallel large vocabulary recognition engines
US6434520B1 (en) * 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PONTE J M ET AL: "Text segmentation by topic", RESEARCH AND ADVANCED TECHNOLOGY FOR DIGITAL LIBRARIES. FIRST EUROPEAN CONFERENCE, ECDL '97 PROCEEDINGS,, 1 September 1997 (1997-09-01) - 3 September 1997 (1997-09-03), Pisa, Italy, Berlin, Germany, Springer-Verlag, Germany, pages 113 - 125, XP002257176, ISBN: 3-540-63554-8 *
SHRIBERG E ET AL: "Prosody-based automatic segmentation of speech into sentences and topics", SPEECH COMMUNICATION, ELSEVIER SCIENCE PUBLISHERS, AMSTERDAM, NL, vol. 32, no. 1-2, September 2000 (2000-09-01), pages 127 - 154, XP004216250, ISSN: 0167-6393 *
WERNER S ET AL: "Automatic topic identification in multimedia broadcast data", PROCEEDINGS 2002 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (CAT. NO.02TH8604), vol. 1, 26 August 2002 (2002-08-26) - 29 August 2002 (2002-08-29), Lausanne, Switzerland, pages 41 - 44, XP010604301 *

Also Published As

Publication number Publication date
WO2004079719A1 (fr) 2004-09-16

Similar Documents

Publication Publication Date Title
EP1362343B1 (fr) Procede, module, dispositif et serveur de reconnaissance vocale
US8775174B2 (en) Method for indexing multimedia information
US20080046406A1 (en) Audio and video thumbnails
EP1364316A2 (fr) Dispositif d'extraction d'informations d'un texte a base de connaissances
EP1234303B1 (fr) Procede et dispositif de reconnaissance vocale a modeles de langage disjoints
FR2911201A1 (fr) Procede d'edition d'un texte exprime dans une langue
CN111489765A (zh) 一种基于智能语音技术的话务服务质检方法
Draghici et al. A study on spoken language identification using deep neural networks
CA2493084A1 (fr) Systeme d'extraction d'informations dans un texte en langage naturel
Dufour et al. Characterizing and detecting spontaneous speech: Application to speaker role recognition
CN111639529A (zh) 基于多层次逻辑的语音话术检测方法、装置及计算机设备
EP1236198B1 (fr) Reconnaissance de parole avec un modele de langage complementaire pour les erreurs types du dialogue parle
EP1647897A1 (fr) Génération informatique de règles de correction de séquence de concept
FR2868588A1 (fr) Systeme d'application vocale
González-Gallardo et al. Audio summarization with audio features and probability distribution divergence
FR2850783A1 (fr) Dispositif pour indexer un signal audio continu de duree indeterminee
EP1285435A1 (fr) Analyse syntaxique et semantique de commandes vocales
JohnsonÝ et al. Audio indexing and retrieval of complete broadcast news shows
CN112804580A (zh) 一种视频打点的方法和装置
Nouza et al. Developing State-of-the-Art End-to-End ASR for Norwegian
Camelin et al. Opinion mining in a telephone survey corpus.
US20240087572A1 (en) Systems and methods for semantic segmentation for speech
WO2023115363A1 (fr) Segmentation audio intelligente à l'aide de caractéristiques acousto-linguistiques basées sur l'anticipation
WO2024058911A1 (fr) Systèmes de segmentation sémantique de paroles
CN117857873A (zh) 流媒体处理方法、装置、系统、电子设备和存储介质

Legal Events

Date Code Title Description
ST Notification of lapse

Effective date: 20060929