FR2985047A1

FR2985047A1 - Procede de navigation dans un contenu vocal

Info

Publication number: FR2985047A1
Application number: FR1162319A
Authority: FR
Inventors: Mer Pascal Le; Valerie Botherel; Olivier Teissere; Delphine Charlet
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2011-12-22
Filing date: 2011-12-22
Publication date: 2013-06-28

Abstract

L'invention se rapporte à un procédé de navigation dans un contenu vocal multi-locuteurs. Selon l'invention, le procédé de navigation est adapté à afficher une représentation du contenu vocal, à obtenir au moins un identifiant d'au moins un locuteur dudit contenu, à mettre en évidence dans ladite représentation du contenu vocal, au moins un extrait (EX1, EX2) dudit contenu associé audit au moins un identifiant dudit au moins un locuteur et à déclencher au moins une action sur un des extraits mis en évidence. L'invention concerne également un dispositif apte à mettre en oeuvre le procédé de navigation.

Description

Procédé de navigation dans un contenu vocal La présente invention concerne un procédé et un système de navigation dans un contenu sonore de type vocal. La prise de connaissance d'informations contenues dans un contenu vocal nécessite l'écoute complète du signal sonore correspondant. Dans le cas d'un contenu de taille importante, cette opération peut être très consommatrice de temps. Les techniques de compression temporelle d'un fichier sonore telles que l'accélération, la suppression des portions de signal inutiles (par exemple, les pauses)... ne permettent pas de gagner beaucoup de temps dans la mesure où un contenu n'est plus intelligible dès lors que la compression atteint un facteur "deux". Des techniques connues permettent de transcrire un signal audio en un texte. Le texte ainsi obtenu peut ensuite être visualisé par exemple sur un écran d'ordinateur et lu par un utilisateur. La lecture d'un texte étant plus rapide que l'écoute, l'utilisateur peut ainsi obtenir plus rapidement des informations qu'il juge pertinente. Cependant, le son est également porteur d'informations qu'il est difficile de quantifier et de représenter par l'image. De telles informations sont par exemple l'expressivité, le genre ou la personnalité du locuteur. Le fichier texte obtenu par cette méthode ne contient pas ces informations. De plus, la transcription automatique de langage naturel engendre de nombreuses erreurs de transcription et le texte obtenu peut être difficile à comprendre par le lecteur. La demande de brevet FR 0854340 déposée le 27 juin 2008 divulgue un procédé de visualisation d'informations relatives à un message sonore dans lequel d'une part le message sonore est affiché sous forme d'une représentation visuelle chronologique et d'autre part des mots clés sont affichés sous forme textuelle en fonction de leur position chronologique. Les mots clés affichés renseignent l'utilisateur sur le contenu du message. Ce procédé permet de connaître l'essentiel d'un message, par inspection visuelle, tout en offrant la possibilité d'écouter tout ou partie du message. Ce procédé n'est pas adapté aux corpus sonores dont la taille est importante. En effet, le nombre de mots affichés est limité, notamment par la taille de l'écran. L'application de cette méthode à un corpus de grande taille ne permet d'afficher qu'un nombre de mots restreint et non représentatif de l'ensemble du contenu. En conséquence, elle ne donne pas un aperçu réel du contenu du corpus. Une fonction "zoom" permet d'obtenir plus de détails, notamment plus de mots clé, sur une portion de message réduite. Pour connaître l'essentiel du document, l'utilisateur doit balayer l'ensemble du document, c'est-à-dire "zoomer" sur différentes parties du contenu. - 2 - L'application de cette fonction "zoom" à un grand nombre de tronçons du contenu est longue et fastidieuse car elle nécessite beaucoup de manipulations de la part de l'utilisateur. De plus, si l'utilisateur souhaite visualiser un tronçon visualisé auparavant, il doit renouveler au moins un certain nombre des opérations de "zoom" effectuées auparavant.

La navigation dans un contenu vocal de grande taille n'est donc pas aisée. De plus, les inventeurs de la présente demande ont constaté que les possibilités de navigation dans un contenu dans lequel interviennent successivement plusieurs locuteurs étaient limitées. Il existe donc un besoin pour accéder rapidement et simplement à des informations pertinentes d'un contenu vocal de grande taille dans lequel interviennent successivement plusieurs locuteurs. L'invention vient améliorer la situation. A cet effet, l'invention se rapporte à un procédé de navigation dans un contenu vocal multi-locuteurs caractérisé en ce qu'il comporte : - une étape d'affichage d'une représentation du contenu vocal; - une étape d'obtention d'au moins un identifiant d'au moins un locuteur dudit contenu; - une étape de mise en évidence dans ladite représentation du contenu vocal, d'au moins un extrait dudit contenu associé audit au moins identifiant dudit au moins un locuteur; - une étape de déclenchement d'au moins une action sur un des extraits mis en évidence.

On entend par contenu multi-locuteurs, un contenu contenant des interventions de plusieurs locuteurs. Un ou plusieurs extraits du contenu sont associés à un identifiant de locuteur lors d'une phase préalable. Pour un identifiant de locuteur obtenu, un ou plusieurs extraits associés sont mis en évidence dans une représentation du contenu vocal. Un utilisateur peut ainsi identifier visuellement des extraits associés à un même locuteur. L'utilisateur dispose ainsi de nouvelles possibilités de navigation dans le contenu, basées sur l'identification des locuteurs. Il peut par exemple sélectionner et/ou écouter successivement les différents extraits associés à un même locuteur. Selon un mode particulier de réalisation du procédé de navigation, les étapes d'obtention et de mise en évidence sont réitérées pour au moins un autre identifiant de locuteur. La réitération du processus pour un ou plusieurs locuteurs permet à l'utilisateur d'identifier visuellement les différents extraits associés à différents locuteurs. Selon un mode particulier de réalisation du procédé de navigation, ledit identifiant de locuteur obtenu est déterminé à partir d'une position dans ledit contenu.

La position est par exemple une position courante dans le contenu, par exemple la position de la tête de lecture dans le contenu en cours de restitution. - 3 - La position peut être également une position sélectionnée par un utilisateur, par exemple au moyen d'une souris d'ordinateur ou d'une interface utilisateur tactile. A partir d'une position dans le contenu, un ou plusieurs extraits associés à un même identifiant de locuteur sont mis en évidence. Un des extraits contient ladite position. L'utilisateur a ainsi connaissance des extraits associés à un même locuteur et peut déclencher une action sur un de ces extraits. Selon un mode particulier de réalisation du procédé de navigation, ledit identifiant de locuteur est déterminé à partir d'une représentation dudit locuteur sélectionnée parmi un ensemble de représentations de locuteurs dudit contenu.

La sélection d'une représentation d'un locuteur par un utilisateur lui permet de visualiser les extraits associés à ce locuteur dans la représentation du contenu vocal. Il peut ensuite écouter un ou plusieurs de ces extraits. Selon un mode particulier de réalisation du procédé de navigation, ladite action déclenchée est une restitution sonore d'un extrait mis en évidence.

Selon un mode particulier de réalisation du procédé de navigation, ladite action est déclenchée suite à une réception d'une instruction d'un utilisateur. La mise en évidence des extraits associés à un même locuteur, permet à un utilisateur de demander la restitution d'un de ces extraits sans avoir à écouter les extraits précédents. Selon un mode particulier de réalisation du procédé de navigation, ladite action est une restitution sonore d'un extrait associé à un locuteur dont une représentation est choisie. L'utilisateur peut ainsi naviguer rapidement dans le contenu en sélectionnant un locuteur et obtenir ainsi la restitution d'extraits associés à ce locuteur choisi. Ainsi, dans un contenu de type débat, il peut sélectionner un locuteur et procéder ainsi à l'écoute d'un extraits associé à ce locuteur.

Selon une caractéristique particulière, un extrait est sélectionnable par une interface utilisateur. L'utilisateur peut ainsi naviguer rapidement dans le contenu en sélectionnant un extrait à écouter en fonction d'un locuteur choisi. Ainsi, dans un contenu de type débat, il peut sélectionner l'écoute d'un extrait en fonction du locuteur associé à cet extrait.

Selon un mode particulier de réalisation, le procédé de navigation comporte une étape préalable de découpage d'au moins un segment du contenu en extraits, un extrait comprenant une pluralité de trames consécutives du segment et une étape d'association dudit identifiant de locuteur audit extrait. Cette étape préalable contribue à la construction d'un ensemble de métadonnées contenant des données de positionnement dans le contenu, associées à des identifiant de locuteur. Les données de positionnement d'un extrait permettent d'identifier cet extrait. Un identifiant de - 4 - locuteur est déterminé pour chaque trame d'un segment du contenu. Une trame est une petite portion du signal, par exemple une portion de 10 à 16 ms. Un identifiant de locuteur est un ou plusieurs paramètres représentatifs d'un locuteur et déterminés à partir du signal audio. Un extrait est un ensemble de trames consécutives. Un identifiant de locuteur est associé à un extrait.

Selon un mode particulier de réalisation du procédé de navigation, l'identifiant de locuteur associé à une trame est un identifiant d'un locuteur principal déterminé sur une fenêtre temporelle comprenant ladite trame. Ce mode de réalisation permet de réduire le nombre d'extraits d'un contenu et facilite ainsi la navigation dans le contenu pour un utilisateur.

Selon un mode particulier de réalisation, le procédé de navigation comporte une étape d'obtention d'informations complémentaires sur ledit locuteur et une étape d'affichage d'une vignette associée audit locuteur obtenue à partir desdites informations complémentaires. Des informations complémentaires sur un locuteur sont par exemple un nom, un pseudo, une fonction...Elles sont par exemple obtenues à partir d'une transcription du contenu contenant un texte correspondant au contenu vocal segmenté en fonction des tours de parole des différents locuteurs et dans lequel chaque segment comporte en entête des informations sur le locuteur associé. Une vignette associée à un locuteur est une représentation de ce locuteur, par exemple une photo, une image contenant le nom du locuteur...L'affichage de la vignette permet à un utilisateur d'identifier le locuteur. Cette représentation facilite la navigation pour l'utilisateur.

La comparaison du contenu vocal avec une transcription du texte correspondant au contenu vocal comportant une identité du locuteur, permet d'associer à un identifiant de locuteur, des données relatives à ce locuteur, telles qu'un nom, une photo...L'affichage de ces données permet une représentation plus expressive des locuteurs et de ce fait facilite la navigation. L'invention se rapporte également à un dispositif de navigation dans un contenu vocal multi- locuteurs comportant : - des moyens d'affichage d'une représentation du contenu sonore; - des moyens de d'obtention d'au moins un identifiant d'au moins un locuteur dudit contenu; - des moyens de mise en évidence dans ladite représentation du contenu vocal, d'au moins un extrait dudit contenu associé audit au moins un locuteur; - des moyens de déclenchement d'au moins une action sur un des extraits mis en évidence. L'invention se rapporte enfin à un produit programme d'ordinateur comprenant des instructions pour mettre en oeuvre les étapes du procédé de navigation tel que décrit précédemment, lorsqu'il est chargé et exécuté par un processeur. - 5 - D'autres particularités et avantages de la présente invention apparaitront dans la description suivante de modes de réalisation donnés à titre d'exemples non limitatifs, en référence aux dessins annexés, dans lesquels : - la figure 1 illustre un système de navigation selon un mode de réalisation de l'invention, - la figure 2 est un organigramme illustrant les différentes étapes d'un procédé de navigation mis en oeuvre dans un système de navigation selon un premier mode de réalisation, - la figure 3 illustre un exemple de métadonnées associées à un contenu vocal selon un premier mode de réalisation, - la figure 4 est un exemple de représentation d'un contenu vocal obtenue par la mise en oeuvre d'un procédé de navigation selon un premier mode de réalisation, - la figure 5 est un organigramme illustrant les différentes étapes d'un procédé de navigation mis en oeuvre dans un système de navigation selon un deuxième mode de réalisation, - la figure 6 illustre un exemple de métadonnées associées à un contenu vocal selon un deuxième mode de réalisation, - la figure 7 illustre une représentation d'un contenu vocal obtenue par la mise en oeuvre d'un procédé de navigation selon un deuxième mode de réalisation, - la figure 8 illustre un exemple de métadonnées associées à un contenu vocal selon un troisième mode de réalisation, - la figure 9 illustre un exemple d'interface graphique, - la figure 10 est un organigramme illustrant les différentes étapes de construction d'un ensemble de métadonnées associées à un contenu vocal, selon un mode de réalisation, - la figure 11 est un organigramme illustrant les différentes étapes d'obtention d'informations complémentaires relatives à l'identité d'un locuteur selon un mode de réalisation.

Un premier mode de réalisation de l'invention va maintenant être décrit en référence aux figures 1 à 4. La figure 1 représente un système de navigation SYS selon un mode de réalisation de l'invention. Le système SYS comprend un dispositif de navigation NAV et un système de restitution sonore HP. Le système de restitution sonore HP comprend par exemple des moyens de restitution sonore de type haut-parleur. Dans le mode de réalisation illustré ici, le système de restitution HP est séparé et relié au dispositif de navigation NAV.

A titre d'alternative, le système de restitution sonore HP est intégré au dispositif de navigation NAV. - 6 - Le dispositif de navigation NAV est par exemple un ordinateur de type PC. Typiquement, le dispositif de navigation NAV peut être intégré dans un ordinateur, un terminal de communication tel qu'un téléphone mobile, un décodeur TV connecté à un téléviseur ou plus généralement tout équipement multimédia.

Le dispositif de navigation NAV comporte une unité de traitement UT munie d'un microprocesseur, reliée à une mémoire MEM. L'unité de traitement UT est pilotée par un programme informatique PG. Le programme informatique PG comporte des instructions de programme adaptées à mettre en oeuvre notamment un procédé de navigation selon un des modes de réalisation de l'invention décrit ultérieurement.

L'unité de traitement UT est apte à recevoir via un module d'entrée ME, des instructions d'une interface utilisateur INT, par exemple une souris d'ordinateur ou tout autre moyen de sélection par l'utilisateur. Le dispositif de navigation NAV comporte également un écran de visualisation ECR et un module d'affichage AFF pour l'affichage sur l'écran de visualisation ECR.

Il comporte également un module de restitution du son RST pour la diffusion d'un contenu vocal sur le système de restitution sonore HP. Le dispositif de navigation NAV comporte également un module d'obtention OBT, un module de mise en évidence EVI et un module de déclenchement d'action DCL.

Un premier mode de réalisation du procédé de navigation dans un contenu vocal CV1 mis en oeuvre dans le système SYS va maintenant être décrit en référence à la figure 2. Le contenu vocal CV1 est un contenu audio parlé dans lequel interviennent plusieurs locuteurs. Par exemple, le contenu vocal CV1 est un débat entre plusieurs locuteurs. Lors d'une étape préalable EO, un ensemble de métadonnées MD1 comprenant des données de positionnement d'extraits du contenu vocal CV1 et des identifiants de locuteurs associés est déterminé pour le contenu vocal CV1 puis enregistré dans la mémoire MEM. A titre d'alternative, l'ensemble de métadonnées MD1 est enregistré dans une base de données (non représentée) accessible par le dispositif de navigation NAV. Un extrait du contenu vocal CV1 est une portion de ce contenu et des données de positionnement d'un extrait sont par exemple une position de début de l'extrait dans le contenu et une position de fin de l'extrait dans le contenu. Les données de positionnement permettent d'identifier un extrait du contenu. A titre d'alternative, des données de positionnement relatives à un extrait sont une position de début de l'extrait dans le contenu et une valeur représentative d'une durée dudit extrait dans le 35 contenu. - 7 - La figure 3 représente un exemple d'ensemble de métadonnées MD1 déterminé pour le contenu vocal CV1. L'ensemble de métadonnées MD1 contient par exemple des données de positionnement relatives à 8 extraits EX1, EX2...EX8. Des données de positionnement Pi-1, Pi relatives à chaque extrait EXi sont enregistrées en association avec un identifiant de locuteur Idl, Id2 ou Id3. L'étape préalable E0 est réalisée une seule fois pour le contenu sonore CV1. A titre d'alternative, l'étape préalable E0 est réalisée par un dispositif de construction d'ensembles (non représenté) et l'ensemble de métadonnées MD1 associé au contenu vocal CV1 est transmis au dispositif de navigation NAV par le dispositif de construction d'ensembles via par exemple un réseau de télécommunication. Un mode de réalisation particulier de l'étape E0 est décrit dans la suite de la description en référence à la figure 10. Lors d'une étape E2, le module d'affichage AFF du dispositif de navigation NAV affiche une représentation graphique du contenu vocal CV1 sur l'écran ECR.

La figure 4 illustre un exemple de représentation du contenu vocal CV1. Dans cet exemple, le contenu vocal CV1 est représenté par une ligne circulaire chronologique. Le début du contenu est représenté par un repère O à une position PO et la fin du contenu est représentée par un repère F à une position P8. Un curseur C indique une position courante d'une tête de lecture utilisée pour la restitution sonore du contenu vocal CV1 par le système de restitution HP. Lors d'une étape E4, le module d'obtention OBT obtient un identifiant IDL d'un locuteur du contenu CV1. Dans ce mode de réalisation, l'identifiant de locuteur IDL est obtenu par lecture de l'ensemble de métadonnées MD1. Par exemple, l'identifiant de locuteur obtenu IDL est Idl.

Lors d'une étape E6, le module d'obtention OBT obtient, par extraction dans l'ensemble de métadonnées MD1, au moins un extrait EXi enregistré dans l'ensemble de métadonnées MD1 en association avec l'identifiant de locuteur obtenu IDL. Par exemple, les extraits EX1, EX3, EX6 et EX8 sont obtenus. Lors d'une étape E8, le module de mise en évidence EVI commande la mise en évidence par le module d'affichage AFF, des extraits obtenus lors de l'étape E6, dans la représentation du contenu vocal CV1. Par exemple, un code de représentation prédéterminé, par exemple une couleur prédéterminée, est utilisé pour mettre en évidence les extraits EX1, EX3, EX6 et EX8. A titre d'alternative, le code de représentation est une surbrillance ou un clignotement. Les étapes E6 à E8 sont ensuite réitérées avec le deuxième identifiant de locuteur Id2 puis avec le troisième identifiant Id3. - 8 - La figure 4 illustre la mise en évidence des extraits EX1 à EX8 dans la représentation du contenu vocal CV1. Un premier code de représentation est utilisé pour la mise en évidence des extraits EX1, EX3, EX6 et EX8 associés à l'identifiant de locuteur Idl. Un deuxième code de représentation est utilisé pour la mise en évidence des extraits EX2, EX5 et EX7 associés à l'identifiant de locuteur Id2 et un troisième code de représentation est utilisé pour la mise en évidence de l'extraits EX4 associé à l'identifiant de locuteur Id3. Lors d'une étape E10, de façon automatique ou suite à une instruction de lecture transmise par l'utilisateur, le module de déclenchement DCL déclenche la restitution du contenu vocal CV1 à partir du début d'un extrait mis en évidence, par exemple l'extrait EX1.

La restitution du contenu vocal CV1 à partir du début de l'extrait EX1 représente une action déclenchée sur un des extraits mis en évidence. Lors d'une étape E12, l'utilisateur transmet au dispositif de navigation NAV, au moyen de l'interface utilisateur INT, une instruction de lecture d'un extrait mis en évidence, par exemple l'extrait EX4. Par exemple, l'instruction de lecture est obtenue en pointant une position, par exemple à l'aide d'une souris d'ordinateur, dans la représentation graphique au niveau de l'extrait EX4 et en utilisant une touche de commande de la souris. L'instruction de lecture est transmise par l'interface utilisateur INT au module d'entrée ME. Suite à la réception de l'instruction, le module d'entrée ME transmet au module de restitution RST qui interrompt la restitution en cours et reprend la restitution à partir du début de l'extrait EX4.

La reprise de la restitution à partir du début de l'extrait EX4 représente également une action déclenchée sur un des extraits mis en évidence. Un deuxième mode de réalisation du procédé de navigation dans un contenu vocal CV2 mis en oeuvre dans le système SYS va maintenant être décrit en référence à la figure 5.

Le contenu vocal CV2 est un contenu audio parlé dans lequel interviennent plusieurs locuteurs. Le contenu vocal CV2 contient par exemple trois segments consécutifs Sl, S2 et S3. Un segment est une sous partie du contenu, par exemple, une sous partie thématique ou un chapitre du contenu vocal CV2.

Lors d'une étape préalable E20, un ensemble de métadonnées MD2 comprenant des données de positionnement d'extraits du contenu vocal CV2 et des identifiants de locuteurs associés est déterminé pour le contenu vocal CV2 puis enregistré dans la mémoire MEM. Les données de positionnement d'un extrait permettent d'identifier l'extrait du contenu. Un extrait du contenu vocal CV2 est une portion d'un segment du contenu vocal CV2. Des données de positionnement d'un extrait sont par exemple un identifiant de segment, une position de début de l'extrait dans le contenu et une position de fin de l'extrait dans le contenu. - 9 - La figure 6 représente un exemple d'ensemble de métadonnées MD2 déterminé pour le contenu vocal CV2. L'ensemble de métadonnées MD2 contient par exemple des données de positionnement relatives à 10 extraits EY1, EY2...EY10. Des données de positionnement Pi-1, Pi relatives à chaque extrait EYi sont enregistrées en association un identifiant de locuteur Idl, Id2, Id3 ou Id4. L'étape préalable E20 est réalisée une seule fois pour le contenu sonore CV2. Lors d'une étape E22, le module d'affichage AFF affiche une représentation du contenu vocal CV2 sur l'écran ECR. La figure 7 illustre un exemple de représentation du contenu vocal CV2 dans lequel le contenu vocal CV2 est représenté par une ligne circulaire chronologique. Le début du contenu est représenté par un repère O à une position PO et la fin du contenu est représentée par un repère F à une position P10. La longueur des segments du contenu vocal CV2 est par exemple proportionnelle à leur durée de restitution sonore. Un curseur C indique la position courante de restitution sur la ligne circulaire.

Lors d'une étape E24, le module d'obtention OBT obtient une position P dans le contenu. La position P est par exemple une position courante du curseur C correspondant à une position d'une tête de lecture apte à contribuer à la restitution du contenu vocal CV2 par le module de restitution RST. A titre d'alternative, la position courante P est reçue par le module d'entrée ME suite à une saisie d'un utilisateur via l'interface utilisateur INT. Lors d'une étape E26, le module d'obtention OBT obtient un identifiant d'un locuteur du contenu CV2. Plus précisément, le module d'obtention OBT détermine à partir de l'ensemble de métadonnées MD2, un extrait ET1 dans lequel se situe la position P. L'extrait ET1 est sélectionné parmi les extraits EY1, EY2...EY10 en fonction de la position P. Puis, le module d'obtention OBT obtient par lecture dans l'ensemble de métadonnées MD2, un identifiant de locuteur IdL associé à l'extrait ET1 sélectionné. Par exemple, le curseur C est en position O et la position P correspond à la position du curseur C. L'extrait ET1 sélectionné est l'extrait EY1 du segment S1 et l'identifiant de locuteur IdL associé Idl. Lors d'une étape E28, le module d'obtention OBT détermine si au moins un deuxième extrait ET2 du segment S1 est enregistré dans l'ensemble de métadonnées MD2 en association avec l'identifiant de locuteur IdL obtenu lors de l'étape E26. Par exemple, pour le segment S 1 ,un seul deuxième extrait EY3 associé à l'identifiant de locuteur Idl est contenu dans l'ensemble de métadonnées MD2. - 10 - Lors d'une étape E30, le module d'obtention OBT obtient un deuxième identifiant de locuteur Id2 pour le segment Si. L'identifiant de locuteur Id2 est associé à un seul extrait, l'extrait EY2, du segment S1. Lors d'une étape E32, les extraits ET1 et ET2, c'est-à-dire les extraits EY1 et EY3, d'une part et l'extrait EY2 d'autre part sont mis en évidence dans la représentation du contenu vocal CV2. Par exemple, un premier code de représentation est utilisé pour les extraits EY1 et EY3 et un deuxième code de représentation est utilisé pour l'extrait EY2. La figure 7 illustre également la mise en évidence des extraits EYlet EY2 d'une part et de l'extrait EY3 d'autre part.

L'étape E32 est suivie d'une étape E33 lors de laquelle le module de déclenchement DCL commande le déclenchement d'une action de restitution sonore du contenu vocal CV2 à partir du début de premier extrait EY1 du segment S1 mis en évidence. Lors d'une étape E34, réalisée par exemple au cours de la restitution du segment S1 et suite à la réception d'une commande utilisateur de mise en évidence du segment S3 via l'interface utilisateur INT et le module d'entrée ME, les étapes E24 à E32 sont réitérées et les extraits EY7 à EY10 sont mis en évidence dans la représentation graphique du contenu vocal CV2. Par exemple, un premier code de représentation est utilisé pour les extraits EY7 et EY10 associés à l'identifiant de locuteur Idl, un deuxième code de représentation est utilisé pour l'extrait EY8 associé à l'identifiant de locuteur Id2 et un troisième code de représentation est utilisé pour l'extrait EY9 associé à l'identifiant de locuteur Id4. La commande utilisateur de mise en évidence du segment S3 est par exemple effectuée par pointage d'une position dans le segment S3 dans la représentation graphique du contenu vocal CV2, par exemple à l'aide d'une souris d'ordinateur. Lors d'une étape E36, réalisée suite à la réception d'une deuxième commande utilisateur au déplacement de la souris hors du segment S3, l'affichage de la mise en évidence est interrompu. La deuxième commande utilisateur est par exemple effectuée par pointage d'une position hors du segment S3 dans la représentation graphique du contenu vocal CV2. Lors d'une étape E38, l'utilisateur transmet au dispositif de navigation NAV, au moyen de l'interface utilisateur INT, une instruction de restitution relative au segment S3. L'instruction de restitution est obtenue en pointant une position dans le segment S3, par exemple à l'aide d'une souris d'ordinateur, dans la représentation graphique et en utilisant une touche de commande de la souris. L'étape E38 est suivie d'une étape E40 similaire à l'étape E34. Lors de l'étape E40, les extraits EY7 à EY10 du segment S3 sont de nouveau mis en évidence et lors d'une étape E42, le module de restitution RST déclenche la restitution sonore du contenu vocal CV2 à partir du début du premier extrait du segment S3.

La restitution en cours est interrompue, la mise en évidence des extraits du segment S1 est arrêtée et la restitution reprend à partir du début de l'extrait EY7. La restitution de l'extrait EY7 représente une action sur un extrait mis en évidence.

Un troisième mode de réalisation du procédé de navigation dans le contenu vocal CV2 mis en oeuvre dans le système SYS va maintenant être décrit en référence à la figure 8. Le contenu vocal CV2 est un contenu audio parlé dans lequel interviennent à tour de rôle plusieurs locuteurs. Le contenu vocal CV2 contient par exemple trois segments consécutifs Si, S2 et S3.

Lors d'une étape préalable E50, similaire à l'étape E20 décrite précédemment un ensemble de métadonnées MD2 comprenant des données de positionnement d'extraits du contenu vocal CV2 et des identifiants de locuteurs associés est déterminé pour le contenu vocal CV2 puis enregistré dans la mémoire MEM. Un extrait du contenu vocal CV2 est une portion de ce contenu et des données de positionnement d'un extrait sont par exemple un identifiant de segment, une position de début de l'extrait dans le contenu et une position de fin de l'extrait dans le contenu. L'ensemble de métadonnées MD2 contient par exemple, comme illustré sur la figure 6 décrite précédemment, des données de positionnement relatives à 10 extraits EY1, EY2...EY10. Des données de positionnement Pi-1, Pi relatives à chaque extrait EYi sont enregistrées en association un identifiant de locuteur Idl, Id2, Id3 ou Id4. Lors d'une étape E52, le dispositif de navigation NAV obtient des informations complémentaires IC pour au moins un identifiant de locuteur IdL enregistré dans l'ensemble de métadonnées MD2. Dans le mode de réalisation décrit, une première information complémentaire obtenue est le nom du locuteur. Le nom du locuteur est par exemple obtenu à partir d'un contenu TR de type texte contenant une transcription textuelle du contenu vocal CV2 dans laquelle un nom de locuteur a été inséré à chaque tour de parole, c'est-à-dire à chaque changement de locuteur. Une méthode d'obtention de premières informations complémentaires à partir du contenu TR est décrite ultérieurement en référence à la figure 11.

A titre d'alternative ou en complément, un titre du locuteur, par exemple sa fonction au sein d'une entreprise (directeur, salarié...) ou son rôle dans le contenu vocal (animatrice, correspondant technique...), est inséré dans le contenu TR. Lors de l'étape E52, les premières informations complémentaires sont utilisées pour obtenir des deuxièmes informations complémentaires. Par exemple, le nom d'un locuteur extrait du contenu TR est ensuite utilisé pour obtenir par exemple une photo du locuteur dans une base de données ou un titre au sein d'une entreprise au moyen par exemple d'un annuaire d'entreprises. -12- Les informations complémentaires IC, c'est-à-dire les premières et les deuxièmes informations complémentaires, obtenues pour un locuteur, sont enregistrées en association à un identifiant de locuteur IdL, par exemple dans une partie ML de la mémoire MEM du dispositif de navigation NAV.

Les informations complémentaires IC permettent d'identifier la personne, c'est-à-dire de déterminer son identité Les étapes préalables E50 et E52 sont réalisées une seule fois pour le contenu sonore CV2. Lors d'une étape E54, le dispositif de navigation NAV obtient par lecture de l'ensemble de métadonnées MD2, le ou les identifiants de locuteurs associés à des extraits du segment S 1 . Par exemple, les identifiants de locuteur Idl et Id2 sont obtenus. Lors d'une étape E56, le dispositif de navigation NAV obtient, également par lecture de l'ensemble de métadonnées MD2, des extraits enregistrés en association avec chaque identifiant de locuteur obtenu lors de l'étape E54. Par exemple, les extraits EY1 et EY3 sont obtenus pour l'identifiant de locuteur Idl et l'extrait EY2 est obtenu pour l'identifiant de locuteur Id2.

Lors d'une étape E58, des informations complémentaires IC1 associées à l'identifiant de locuteur Idl et des informations complémentaires IC2 associées à l'identifiant de locuteur Id2 sont obtenues par accès à la mémoire ML. Par exemple, les informations complémentaires IC1 et IC2 comporte respectivement un nom et une photo Lors d'une étape E60, le dispositif de navigation NAV affiche une représentation graphique du contenu vocal CV2 sur l'écran ECR du dispositif de navigation NAV. Comme illustré sur la figure 9, le contenu vocal CV2 est représenté par un axe temporel chronologique qui a la forme d'un cercle. Les segments S1 à S3 sont répartis sur le cercle. Le début du contenu est représenté par un repère O et la fin du contenu est représentée par un repère F. Un curseur C indique la position courante de restitution sur le cercle. Les extraits obtenus lors de l'étape E56, c'est-à-dire les extraits EY1 et EY3 d'une part, et l'extrait EY2 d'autre part, sont mis en évidence dans la représentation du contenu vocal CV2. Par exemple, un premier code de représentation est utilisé pour les extraits EY1 et EY3 et un deuxième code de représentation est utilisé pour l'extrait EY2. Un code de représentation est par exemple une couleur prédéterminée, une surbrillance, un clignotement... Des vignettes V1 et V2 représentatives respectivement des informations complémentaires IC1 et IC2 obtenues pour les identifiants de locuteur Idl et Id2 sont également affichées. Lors d'une étape E62, le dispositif de navigation NAV restitue le contenu vocal CV2, à partir du début du segment S1 sur le système de restitution HP. Cette action de restitution est déclenchée de façon automatique. - 13 - A titre d'alternative, l'action de restitution est déclenchée par la réception d'une instruction d'un utilisateur. Egalement, à titre d'alternative, une instruction de l'utilisateur est par exemple une sélection d'une position du curseur C, une sélection d'un extrait dans le contenu vocal ou une sélection d'une vignette d'un locuteur parmi les vignettes représentées dans la représentation graphique. Lors d'une étape E64 réalisée simultanément à l'étape E62, le dispositif de navigation NAV détermine, par accès à l'ensemble de métadonnées MD2, que l'extrait en cours de lecture est l'extrait EY1 et que l'identifiant de locuteur associé est Idl. Il commande alors la mise en évidence de la vignette V1 associée à l'identifiant de locuteur Idl.

Lors d'une étape E66, un utilisateur sélectionne une des vignettes affichées, par exemple, la vignette V2 est sélectionnée. Et, lors d'une étape E68, le dispositif de navigation NAV obtient un signal représentatif d'une position sur l'interface graphique, en déduit que la position obtenue est relative à la vignette V2, consulte l'ensemble de métadonnées MD2 pour obtenir les extraits du segment courant S1 associés à l'identifiant de locuteur Id2. Il obtient par exemple des données de positionnement de l'extrait EY2. Puis le dispositif de navigation NAV commande la restitution du contenu vocal CV2 à partir du début de l'extrait EY2. Le dispositif de navigation NAV commande également l'arrêt de la mise en évidence de la vignette V1 et commande la mise en évidence de la vignette V2. A titre d'alternative, lors de l'étape E66, la vignette V1 est de nouveau sélectionnée et l'étape E68 est une étape de déclenchement d'une action de restitution à partir d'un autre extrait, s'il existe, du segment S1 associé à l'identifiant de locuteur Idl associé à la vignette V1 ou encore une étape de déclenchement d'une action de restitution à partir du début de l'extrait en cours de restitution.

D'autres actions de navigation peuvent être réalisées par l'utilisateur. Par exemple, il peut sélectionner un autre segment du contenu vocal CV2, par exemple le segment S3. Des vignettes associées aux trois locuteurs intervenant dans le segment S3 sont alors affichées. L'utilisateur peut alors sélectionner une des vignettes, un des extraits du segment, un autre segment ...

Dans les modes de réalisation décrits, la représentation du contenu vocal et des extraits mis en évidence est affichée au moyen d'un module d'affichage AFF et d'un écran intégrés au dispositif de navigation NAV. A titre d'alternative, le système de navigation SYS comporte également un dispositif d'affichage, par exemple un téléviseur, relié au dispositif de navigation NAV. Le dispositif d'affichage comprend un écran et des moyens d'affichage aptes à afficher des données sur cet - 14 - écran. La représentation graphique du contenu vocal et des extraits mis en évidence est alors affichée également sur l'écran du dispositif d'affichage. Encore à titre d'alternative, le dispositif de navigation NAV ne comprend pas d'écran et la représentation graphique du contenu vocal et des extraits mis en évidence est affichée sur l'écran d'un dispositif d'affichage déporté. Dans une variante du mode de réalisation, des marqueurs ( ou 'tags' en anglais) sont insérés dans le contenu TR au début et à la fin de séquences prédéterminées. Une séquence est une ou plusieurs phrases consécutives du contenu ou un morceau de phrase dans le contenu. Un marqueur est par exemple une succession prédéterminée de caractères. Une estampille temporelle est associée à chaque marqueur inséré au début d'une séquence, par exemple par une méthode décrite en référence à la figure 11. Lors de l'étape d'affichage E60, une vignette associée à un couple de marqueur est affichée à une position du contenu correspondant à l'estampille temporelle associée au marqueur de début. La sélection de la vignette par l'utilisateur permet le déclenchement de la restitution de la séquence associée à la vignette.

Par exemple, le contenu vocal est un débat dans lequel des salariés posent des questions et les questions sont taguées dans la transcription du contenu. Lors d'affichage de la représentation graphique du contenu, des vignettes associées aux questions sont affichées. La sélection d'une vignette permet à l'utilisateur d'entendre la question associée à la vignette.

La figure 9 illustre un exemple d'interface graphique 1G permettant une navigation dans un contenu sonore CV. Un cercle Cc représentant le contenu vocal CV est affiché. Un curseur C représente la position d'une tête de lecture dans le contenu CV. Le cercle Cc est découpé en trois segments Si, S2 et S3.

Le segment S2 comporte trois extraits EZ1, EZ2 et EZ3. L'extrait EZ1 est associé à un identifiant d'un premier locuteur. L'extrait EZ2 est associé à un identifiant d'un deuxième locuteur. L'extrait EZ3 est associé à l'identifiant du premier locuteur. Une première vignette Al permet de commander la restitution ou l'arrêt de la restitution du contenu vocal CV.

Des vignettes A2 et A3 permettent de déplacer le curseur C d'un extrait à un autre. La vignette A2 permet par exemple de positionner le curseur C au début de l'extrait précédent. La vignette A3 permet par exemple de positionner le curseur C au début de l'extrait suivant. Le curseur C est ici positionné sur le segment S2. Les extraits d'un segment S2 sont mis en évidence.

Des vignettes V1 et V2 représentent respectivement le premier et le deuxième locuteur du segment S2. - 15 - Le curseur C étant positionné sur le deuxième extrait EZ2 du segment S2, la vignette V2 est également mise en évidence pour mettre en évidence la relation entre le deuxième locuteur représenté par la vignette V3 et l'extrait EZ2 sur lequel le curseur C est positionné. Des vignettes Q1 et Q2 permettent de visualiser la position de séquences particulières dans le contenu. Par exemple, les vignettes sont associées à des questions de salariés et la représentation des vignettes Q1 et Q2 indiquent que les vignettes Q1 et Q2 sont relatives à des questions de salariés. La sélection d'une des vignettes Q1 ou Q2 permet de commander la restitution de la séquence associée à la vignette.

Un mode de réalisation de construction d'un ensemble de métadonnées MD pour une portion d'un contenu vocal CV va maintenant être décrit en référence à la figure 10. La portion de contenu est une partie du contenu, par exemple un segment, ou le contenu entier. Lors d'une première étape E100, la portion du contenu est découpée en trames Tri. Une trame est une portion du signal audio du contenu de durée prédéterminée, par exemple 10 ms (pour "millisecondes") ou 16 ms. N trames Trl, Tr2...Trn sont ainsi obtenues. Lors d'une étape E102, un premier identifiant de locuteur IdTi est déterminé pour chaque trame Tri.

Le premier identifiant de locuteur IdTi associé à une trame Tri est une valeur déterminée à partir du signal audio de la trame. Le premier identifiant de locuteur est représentatif du locuteur mais ne permet pas à lui seul de connaître l'identité du locuteur, par exemple son nom. Le premier identifiant de locuteur IdTi est par exemple déterminé par une méthode classique de détermination d'identifiant de locuteurs. Une telle méthode est par exemple décrite dans le document "Multistage speaker diarization of broadcast news", Claude Barras, Xuan Zhu, Sylvain Meignier, and Jean-Luc Gauvain, IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 14, NO. 5, SEPTEMBER 2006. Lors d'une étape E104, un identifiant de locuteur principal IdPi est déterminé pour chaque trame Tri.

Plus précisément, lors de l'étape E104, une fenêtre temporelle F1 de plusieurs trames, par exemple une fenêtre temporelle comprenant entre 60 et 80 trames, comprenant la trame considérée Tri est déterminée Par exemple, la fenêtre Fl est centrée autour de la trame considérée Tri. Pour les premières et les dernières trames du contenu, la fenêtre utilisée est par exemple de taille inférieure et la trame considérée n'est pas centrée dans la fenêtre.

Puis, un nombre de trames de la fenêtre F1 par premier identifiant de locuteurs IdTi est calculé. - 16 - L'identifiant de locuteur principal IdPi déterminé pour la trame Tri est le premier identifiant de locuteur IdTi pour lequel le nombre de trames calculé dans la fenêtre Fl est le plus élevé. Par exemple, la fenêtre F1 contient 71 trames et pour 61 de ces trames un premier identifiant de locuteurs IdTl a été déterminé lors de l'étape E102 et pour 10 de ces trames, un premier identifiant de locuteur IdT2 a été déterminé lors de l'étape E102. L'identifiant de locuteur principal retenu est alors le premier identifiant de locuteur IdTl. Puis, lors d'une étape E106, les trames Tri consécutives pour lesquelles un même identifiant de locuteur principal IdPi a été déterminé sont regroupées pour former un extrait EZi.

La position de début d'un extrait correspond à la position du début de la première trame de l'extrait et la position de fin de l'extrait correspond à la position de fin de la dernière trame de l'extrait. Lors d'une étape E108, une valeur T représentant un pourcentage de trames d'un extrait EZi pour lesquelles le premier identifiant de locuteur IdTi associé lors de l'étape E102 est l'identifiant de locuteur principal IdPi déterminé lors de l'étape E104 parmi l'ensemble de trames de l'extrait est calculée et comparée à un seuil Si prédéfini. Si la valeur T est supérieure ou égale au seuil Si prédéfini, l'identifiant de locuteur principal IdPi déterminé pour l'extrait EZi n'est pas modifié. Sinon, une valeur prédéterminée NDEF est atribuée à l'identifiant de locuteur principal IdPi de l'extrait EZi. L'attribution de la valeur NDEF signifie qu'aucun identifiant de locuteur principal n'a pu être attribué à l'extrait. La valeur NDEF est par exemple attribuée à des extraits dans lequel plusieurs locuteurs parlent en même temps. Lors d'une étape E110, le nombre de trames NTi de chaque extrait EZi est comparé à un seuil prédéterminé S2. Le seuil S2 est un nombre minimal de trames par extrait. Si le nombre NTi de trames d'un extrait est inférieur au seuil S2, l'extrait considéré EZi est inclus dans l'extrait précédent EZi-1. L'étape E110 est suivie d'une étape E112 de synchronisation du début des extraits avec le contenu vocal CV. Lors de l'étape E112, le premier identifiant de locuteur de la première trame d'un extrait EZi est comparé à l'identifiant de locuteur principal déterminé pour l'extrait considéré EZi. Si ces deux identifiants ne sont pas égaux, le premier identifiant de locuteur de la trame suivant la trame la première trame d'un extrait EZi est comparé à l'identifiant de locuteur principal déterminé pour l'extrait considéré EZi. La comparaison est réitérée tant que les deux identifiants sont égaux. Le début de l'extrait EZi est décalé chronologiquement vers la fin du contenu jusqu'à ce que le premier identifiant de locuteur de la première trame de l'extrait EZi soit égal à l'identifiant de locuteur principal déterminé pour l'extrait considéré EZi. - 17 - Puis, le premier identifiant de la trame précédent la première trame d'un extrait EZi est comparé à l'identifiant de locuteur principal déterminé pour l'extrait considéré EZi. Si ces deux identifiants ne sont pas égaux, le début de l'extrait EZi n'est pas décalé. Sinon, le premier identifiant de la trame précédent la trame précédent la première trame d'un extrait EZi est comparé à l'identifiant de locuteur principal déterminé pour l'extrait considéré EZi. La comparaison est réitérée tant que les deux identifiants sont égaux. Le début de l'extrait EZi est décalé vers le début du contenu, jusqu'au début de la trame suivant la première trame pour laquelle le premier identifiant est différent de l'identifiant de locuteur principal de l'extrait EZi. Cette étape permet de synchroniser le début de chaque extrait avec un tour de parole, c'est- à-dire avec une prise de parole du locuteur principal de l'extrait EZi. Puis, lors d'une étape E114, des données de positionnement de chaque extrait EZi sont enregistrées en association avec l'identifiant de locuteur principal dans une mémoire MEM. Les données de positionnement d'un extrait sont par exemple, une position de début de l'extrait, c'est-à-dire une position de début de la première trame de l'extrait, et une position de fin de l'extrait, c'est-à-dire une position de fin de la dernière trame de l'extrait. A titre d'alternative, les données de positionnement d'un extrait sont par exemple, une position de début de l'extrait, c'est-à-dire une position de début de la première trame de l'extrait, et un nombre de trames de l'extrait.

Une méthode d'obtention de premières informations complémentaires relative à l'identité d'un locuteur à partir d'un contenu TR est décrite en référence à la figure 11. La première information complémentaire est par exemple le nom du locuteur. Le contenu TR est un contenu de type texte contenant une transcription textuelle d'un contenu vocal CV dans laquelle un nom de locuteur a été inséré à chaque tour de parole, c'est-à- dire à chaque changement de locuteur. Lors d'une première étape E200, le contenu vocal CV est converti en une transcription textuelle STT à l'aide d'un algorithme classique de "Speech to Text". La transcription textuelle STT comprend les mots du texte et une estampille temporelle représentative de la position du mot dans le contenu vocal CV associée à chaque mot.

Lors d'une étape E202, le contenu TR, plus exactement la transcription textuelle contenue dans le contenu TR, est comparé à la transcription STT. Cette comparaison fait apparaître des mots WC du contenu TR qui correspondent à des mots de la transcription STT. La comparaison fait également apparaître des mots WI de la transcription STT qui ne sont pas dans le contenu TR, par exemple des mots d'un jingle de début d'émission ou inséré entre deux chapitres. - 18 - La comparaison fait également apparaître des mots WD du contenu TR qui n'apparaissent pas dans la transcription STT, par exemple des éléments de ponctuation qui ne sont pas détectés. La comparaison fait aussi apparaître des mots WS du contenu TR substitués par des mots de la transcription STT Lors d'une étape E204, la transcription STT est modifiée en une transcription STM. La transcription STM correspond à la transcription STT dans laquelle les mots WI sont supprimés, les mots WD sont ajoutés et les mots WS sont remplacés par des mots situés au même endroit dans la transcription. Une estampille temporelle est déterminée pour les mots WD par un procédé d'interpolation à partir des estampilles temporelles des mots WC. Lors d'une étape E206, une estampille temporelle T est déterminée pour chaque tour de parole et insérée en association avec le nom dans le contenu TR. L'estampille temporelle T déterminée pour une prise de parole est l'estampille temporelle associée au mot de la transcription modifiée STM correspondant au premier mot prononcé par un locuteur lors d'une prise de parole.

Les estampilles temporelles T permettent de synchroniser le contenu vocal CV, et plus particulièrement le début des extraits, avec le contenu TR. Grace aux estampilles temporelles, il est possible d'associer un nom de locuteur à un extrait. L'estampille temporelle associée au premier mot d'un extrait correspond à la position de début de l'extrait dans contenu vocal.20

Claims

REVENDICATIONS1. Procédé de navigation dans un contenu vocal (CV1, CV2) multi-locuteurs caractérisé en ce qu'il comporte : - une étape d'affichage (E2, E32, E60) d'une représentation du contenu vocal; - une étape d'obtention (E4, E26, E54) d'au moins un identifiant (IDL) d'au moins un locuteur dudit contenu; - une étape d'extraction (E6, E28, E56) dans un ensemble prédéterminé de métadonnées, d'au moins un extrait (EXi, ET1, ET2) dudit contenu associé audit au moins un identifiant obtenu; - une étape de mise en évidence (E8, E32, E60) dans ladite représentation du contenu vocal, dudit au moins un extrait (EXi, ET1, ET2) obtenu; - une étape de déclenchement (E10, E33, E62) d'au moins une action sur un des extraits mis en évidence.
2. Procédé dans lequel les étapes d'obtention, d'extraction et de mise en évidence sont réitérées pour au moins un autre identifiant de locuteur.
3. Procédé de navigation selon la revendication 1 dans lequel ledit identifiant de locuteur obtenu est déterminé à partir d'une position dans ledit contenu.
4. Procédé de navigation selon la revendication 1 dans lequel ledit identifiant de locuteur est déterminé à partir d'une représentation dudit locuteur sélectionnée parmi un ensemble de représentations de locuteurs dudit contenu.
5. Procédé de navigation selon la revendication 1 dans lequel ladite action déclenchée est une restitution sonore d'un extrait mis en évidence.
6. Procédé de navigation selon la revendication 1 dans lequel ladite action est déclenchée suite à une intervention de l'utilisateur. sonore d'un extrait associé à un locuteur dont une représentation est choisie.
7. Procédé de navigation selon la revendication 1 dans lequel ladite action est une restitution.4 . -20-
8. Procédé de navigation selon la revendication I caractérisé en ce qu'il comporte une étape préalable de découpage d'au moins un segment du contenu en extraits, un extrait comprenant une pluralité de trames consécutives du segment et une étape d'association d'un identifiant de locuteur audit extrait.
9. Procédé de navigation selon la revendication 1 caractérisé en ce que le procédé comporte une étape d'obtention d'informations complémentaires sur ledit locuteur et une étape d'affichage d'une vignette associée audit locuteur obtenue à partir desdites informations complémentaires.
10. Dispositif de navigation (NAV) dans un contenu vocal multi-locuteurs (CV 1, CV2) caractérisé en ce qu'il comporte : - des moyens d'affichage (AFF) d'une représentation du contenu sonore; - des moyens de d'obtention (OBT) d'au moins un identifiant d'au moins un locuteur dudit contenu; - des moyens d'extraction (OBT) dans un ensemble prédéterminé de métadonnées, d'au moins un extrait (EXi, ET1, ET2) dudit contenu associé audit au moins un identifiant obtenu; - des moyens de mise en évidence (EVI) dans ladite représentation du contenu vocal, d'au moins un extrait obtenu; - des moyens de déclenchement (DCL) d'au moins une action sur un des extraits mis en 20 évidence.