FR3035530A1

FR3035530A1 - Identification des locuteurs d'un contenu multimedia par l'analyse conjointe de donnees audio et de donnees de sous-titres

Info

Publication number: FR3035530A1
Application number: FR1553680A
Authority: FR
Inventors: Delphine Charlet; Geraldine Damnati
Original assignee: Orange SA
Current assignee: Orange SA
Priority date: 2015-04-23
Filing date: 2015-04-23
Publication date: 2016-10-28

Abstract

L'invention concerne un procédé d'utilisation d'un contenu multimédia par un terminal (1 ; 2A ; 2B) d'un utilisateur, le contenu multimédia comportant au moins des données audio et des données de sous-titres associées aux données audio, les données audio et les données de sous-titres associées étant relatives à au moins un locuteur des données audio, le procédé d'utilisation comportant, suite à une demande de l'utilisateur au moyen d'une interface utilisateur du terminal, une reproduction simultanée - d'au moins une partie des données audio du contenu multimédia associée, préalablement à la reproduction, à un identifiant d'un locuteur des données audio de la partie de données audio, l'identifiant du locuteur ayant été déterminé à partir des sous-titres associés aux données audio du contenu multimédia, et - de l'identifiant du locuteur associé à la partie de données audio reproduite.

Description

1 Identification des locuteurs d'un contenu multimédia par l'analyse conjointe de données audio et de données de sous-titres La présente invention appartient au domaine de l'utilisation et du traitement de contenus multimédia. Elle concerne en particulier une identification des locuteurs d'un contenu multimédia à partir d'une analyse conjointe de données audio associées au contenu multimédia et de données de sous-titres associées au contenu multimédia. Cette invention est particulièrement avantageuse quand elle est utilisée pour des émissions de télévision diffusées en direct ou de la télévision de rattrapage ou pour des archives audiovisuelles. On entend par « contenu multimédia », tout type de contenu comprenant au moins un média. Typiquement, un contenu multimédia comprend au moins un élément parmi des données vidéo, des données d'image, des données audio, des données de texte, etc.

On entend par « locuteur », une entité qui s'exprime dans un contenu multimédia. Cette entité peut typiquement être une personne humaine, un animal, un robot ou encore tout personnage intervenant dans le contenu multimédia. L'entité s'exprime ainsi de différentes manières. Par exemple, une personne humaine peut typiquement parler, chanter ou crier ; un animal peut grogner, siffler ou hululer ; un robot émettre des sons métalliques, etc.

L'identification des locuteurs d'un contenu multimédia présente d'intéressantes opportunités dans des domaines aussi variés que la télévision de rattrapage, la mise à disposition de contenus multimédia aux malvoyants ou encore l'archivage audiovisuel. Ainsi, dans le cas de la télévision de rattrapage, la connaissance des locuteurs d'une émission de télévision à chaque instant de cette émission a de nombreuses applications. Elle rend par exemple possible un affichage d'un identifiant de locuteur lorsque l'émission est visionnée. Elle rend également possible une recherche de segments spécifiques de l'émission pendant lesquels un locuteur particulier s'exprime.

3035530 2 Il existe donc un besoin pour une identification des locuteurs d'un contenu multimédia. Les méthodes existantes proposées pour l'identification des locuteurs ne sont pas satisfaisantes. Une première méthode d'identification des locuteurs d'un contenu multimédia repose 5 sur une reconnaissance biométrique des locuteurs. Cette méthode est fondée sur l'établissement préalable d'un dictionnaire comprenant des modèles de voix ou de visages associés à des identifiants de locuteur. Une comparaison des voix ou des visages compris sur le contenu multimédia avec les modèles de voix ou de visages stockés dans le dictionnaire est alors effectuée. Lorsqu'un modèle est identifié à l'une des voix/visages du contenu, 10 l'identifiant de locuteur associé dans le dictionnaire au modèle identifié est associé aux instants du contenu multimédia durant lesquels la voix/visage est identifiée. Des segments de l'émission pendant lesquels les différents locuteurs s'expriment sont ainsi déterminés. La construction du dictionnaire nécessite toutefois l'intervention manuelle et fastidieuse d'un annotateur qui doit associer les modèles de voix/visages aux identifiants de 15 locuteur. En outre, l'étape de comparaison présente des performances médiocres et conduit à de nombreuses erreurs, notamment dans le cas d'émissions de télévision. Une deuxième méthode d'identification des locuteurs est fondée sur une analyse de données audio comprises dans un contenu multimédia. En particulier, une analyse de parole est effectuée pour que des identifiants de locuteurs soient extraits des données audio. Suite à 20 cette extraction, une analyse du contexte dans lequel les identifiants de locuteurs sont extraits intervient. Typiquement, dans un dialogue, l'analyse du contexte peut avoir pour effet de déterminer qu'un premier locuteur interpelle un deuxième locuteur en prononçant d'une certaine manière un identifiant du deuxième locuteur, par exemple : « Bernard, où est-tu ? ». L'analyse du contexte déterminera dans cette situation que le deuxième locuteur, qui répond 25 au premier locuteur, a « Bernard » pour identifiant de locuteur. Toutefois, cette deuxième méthode souffre également de défauts. D'une part, l'analyse de parole donne encore des résultats médiocres qui conduisent à ce que des identifiants de locuteurs ne soient pas extraits. D'autre part, l'analyse du contexte présente une grande complexité, linguistique principalement, qui conduit à des erreurs dans l'attribution des identifiants de locuteurs.

3035530 3 Une troisième méthode utilise une reconnaissance des images du contenu multimédia pour extraire des identifiants de locuteurs incrustés dans ces images. Cette méthode implique toutefois que les identifiants de locuteurs soient effectivement incrustés dans les images. En outre, les technologiques de reconnaissance de caractère au sein des images ne présentent pas 5 toujours de bonnes performances. Aucune méthode n'est donc actuellement proposée pour identifier les locuteurs d'un contenu multimédia de manière efficace et avec fiabilité. La présente invention vient améliorer la situation.

10 A ce effet, un premier aspect de l'invention concerne un procédé d'utilisation d'un contenu multimédia par un terminal d'un utilisateur, le contenu multimédia comportant au moins des données audio et des données de sous-titres associées aux données audio, les données audio et les données de sous-titres associées étant relatives à au moins un locuteur des données audio, le procédé d'utilisation comportant, suite à une demande de l'utilisateur au 15 moyen d'une interface utilisateur du terminal, une reproduction simultanée - d'au moins une partie des données audio du contenu multimédia associée, préalablement à la reproduction, à un identifiant d'un locuteur des données audio de la partie de données audio, l'identifiant du locuteur ayant été déterminé à partir des sous-titres associés aux données audio du contenu multimédia, et 20 - de l'identifiant du locuteur associé à la partie de données audio reproduite. Ainsi, l'identifiant de locuteur est déterminé par une analyse de données de sous-titre. Cette analyse est donc faite sur un texte au moins destiné à être clairement lisible directement sur un écran par un utilisateur (cas où les sous-titres sont incrustés aux images de la vidéo). Les données de sous-titres peuvent également être comprises dans un fichier texte séparé.

25 Dans les deux cas, l'analyse est performante et efficace. En effet, dans les deux situations susmentionnées, l'analyse des données sous-titres est effectué sur un texte clairement lisible, ce qui améliore sensiblement la fiabilité de la détection de l'identifiant de locuteur et réduit la complexité des calculs de reconnaissance de caractère qui peuvent avoir à être effectués.

3035530 4 En outre, les données de sous-titres utilisées pour la détermination de l'identifiant étant associées à une partie des données audio, un identifiant de locuteur est précisément déterminé pour chaque instant du contenu multimédia. En effet, des segments temporels d'expression des locuteurs peuvent être précisément déterminés à partir des données audio. Il 5 est donc possible de rattacher les identifiants de locuteur à ces segments et donc de connaître, à chaque instant du contenu multimédia, un identifiant du locuteur s'exprimant à cet instant. Dans un mode de réalisation, les données audio sont préalablement segmentées par locuteurs au moyen d'une analyse de parole, ladite partie des données audio comprend un segment obtenu par la segmentation par locuteurs. Ainsi, les instants d'expression associés à 10 un identifiant de locuteur peuvent être précisément déterminés. Dans un autre mode de réalisation, la demande de l'utilisateur est une demande de reproduction de données relatives à un locuteur choisi par l'utilisateur, la demande déclenchant la reproduction d'au moins une partie des données audio d'au moins un contenu multimédia associée à un identifiant du locuteur choisi.

15 Dans un autre mode de réalisation, le procédé d'utilisation comporte une requête d'une partie d'au moins un contenu multimédia relative à un locuteur choisi par l'utilisateur, ladite requête déclenchant une recherche dudit locuteur choisi dans ledit au moins un contenu multimédia, au moins une partie du contenu multimédia étant associée à un identifiant de locuteur par analyse des données de sous-titres associées à une partie de données audio 20 synchronisée avec ladite partie du contenu multimédia, la recherche consistant alors à une recherche d'une partie du contenu multimédia associée à un identifiant de locuteur correspondant au locuteur choisi. Ainsi, l'utilisateur peut obtenir efficacement la partie du contenu multimédia pendant laquelle le locuteur qui l'intéresse s'exprime, sans avoir à parcourir la totalité du contenu multimédia.

25 Dans un mode de réalisation, le procédé d'utilisation comporte en outre une reproduction d'une illustration d'un découpage du contenu multimédia en au moins une partie associée à un identifiant d'un locuteur, l'illustration du découpage en partie du contenu multimédia permettant à l'utilisateur une sélection d'une partie en fonction du locuteur associé, la sélection déclenchant la reproduction de la partie des données audio du contenu 30 multimédia. Le contenu multimédia est ainsi découpé en autant de parties qu'il n'y a de locuteurs détectés. L'utilisateur dispose donc d'un panorama global du contenu multimédia, en fonction des instants d'expression des différents locuteurs.

3035530 5 Dans un mode de réalisation, la reproduction comporte en outre une reproduction, simultanée à la reproduction des données audio, de données vidéo comprises dans le contenu multimédia synchronisées avec les données audio reproduites. Un deuxième aspect de l'invention concerne un terminal d'un utilisateur utilisant un 5 contenu multimédia, le contenu multimédia comportant au moins des données audio et des données de sous-titres associées aux données audio, les données audio et les données de sous-titres associées étant relatives à au moins un locuteur des données audio, le terminal comportant une interface de reproduction, permettant, suite à une demande de l'utilisateur au moyen d'une interface utilisateur du terminal, une reproduction simultanée 10 - d'au moins une partie des données audio du contenu multimédia associée, préalablement à la reproduction, à un identifiant d'un locuteur des données audio de la partie de données audio, l'identifiant du locuteur ayant été déterminé à partir des sous-titres associés aux données audio du contenu multimédia, et - de l'identifiant du locuteur associé à la partie de données audio reproduite.

15 Un troisième aspect de l'invention concerne un procédé de traitement d'un contenu multimédia, le contenu multimédia comportant au moins : - des données audio, - des données de sous-titres associées aux données audio, les données audio et les données de sous-titres associées étant relatives à au moins un locuteur 20 des données audio caractérisé en que le procédé de traitement comporte une association à au moins une partie des données audio du contenu multimédia d'un identifiant de locuteur ayant été déterminé à partir des sous-titres associés aux données audio du contenu multimédia. Dans un mode de réalisation, le procédé de traitement comporte, préalablement à l'association, une segmentation du contenu multimédia par locuteurs au moyen d'une analyse 25 de parole, la partie des données audio consiste en un segment obtenu par la segmentation par locuteurs. Dans un autre mode de réalisation, le procédé de traitement comporte, préalablement à l'association, un regroupement en cluster des segments de données audio d'un même locuteur, le cluster permettant à l'association d'attribuer simultanément le même identifiant de locuteur 30 à tous les segments de données audio d'un cluster.

3035530 6 Dans un mode de réalisation, le procédé comporte les étapes suivante : - une détermination à partir d'un identifiant d'un locuteur choisi, d'au moins une période d'expression du locuteur choisi dans les données de sous-titres, et - une détection d'au moins un instant de début d'expression d'un locuteur dans les 5 données audio, qui corresponde, selon un critère prédéterminé, à ladite période d'expression du locuteur choisi, pour associer l'instant de début d'expression à l'identifiant du locuteur choisi. Il est donc ainsi possible de retrouver les instants de début d'expression d'un locuteur choisi dans un contenu multimédia. Cette recherche repose sur une analyse conjointe des 10 données de sous-titres (détermination des périodes d'expression du locuteur choisi dans les sous-titres) et des données audio (détermination des instants de début d'expression correspondants à ces périodes). La recherche est donc efficace car l'identifiant de locuteurs est directement cherché dans les données de sous-titres, qui sont des données claires et aisément interprétables par un dispositif informatique. La recherche est en outre précise car 15 les instants de début d'expression obtenus sont déterminés à partir des données audio, à partir desquelles on peut obtenir avec précision les instants pendant lesquels les différents locuteurs s'expriment. Dans un mode de réalisation, le contenu multimédia comporte en outre des données comprenant au moins une information de synchronisation entre les données audio et les 20 données de sous-titres. L'étape de détection d'au moins un instant de début d'expression comprend alors les sous-étapes de : - analyser les données audio pour détecter le locuteur et pour déterminer au moins l'instant de début d'expression dudit locuteur détecté, dans les données audio, - analyser les données de sous-titres pour rechercher l'identifiant du locuteur choisi et 25 déterminer ladite au moins une période d'expression du locuteur choisi, - utiliser l'information de synchronisation pour établir une correspondance, selon le critère prédéterminé, entre la période d'expression du locuteur choisi et l'instant de début d'expression du locuteur détecté, et - en déduire une identité entre le locuteur détecté par l'analyse des données audio et le 30 locuteur choisi, pour associer l'instant de début d'expression à l'identifiant du locuteur choisi.

3035530 7 L'analyse des données audio rend possible une détection des instants précis où les locuteurs commencent effectivement à s'exprimer. En effet, les périodes d'expression du locuteur choisi déterminées à partir des sous-titres ne correspondent pas précisément aux instants précis où le locuteur choisi s'exprime effectivement dans le contenu vidéo. Ainsi, 5 l'analyse conjointe, à l'aide de l'information de synchronisation, des données audio avec les données de sous-titres rend possible une recherche précise et efficace des instants de début d'expression associés à l'identifiant de locuteur choisi. Dans un autre mode de réalisation, le critère déterminé correspond au calcul d'un indice d'appariement entre le locuteur détecté et l'identifiant de locuteur choisi, à partir d'au 10 moins une mesure de proximité temporelle entre un instant de début d'expression du locuteur détecté et un instant de début de période d'expression du locuteur choisi. En effet, en pratique, les périodes d'expression du locuteur choisi déterminées à partir des données de sous-titres sont temporellement proches des instants où le locuteur choisi s'exprime dans les données audio. Ainsi, par la mesure de proximité temporelle, il est possible de rattacher à l'identifiant 15 de locuteur choisi les instants de début d'expression de ce locuteur choisi dans les données audio. Dans un mode de réalisation, pour une pluralité d'instants de début d'expression dans les données audio, associés au locuteur détecté, et pour une pluralité de périodes, dans les données de sous-titres, associées au locuteur choisi, l'indice d'appariement est donné par une 20 mesure de proximité temporelle moyenne entre des instants de début d'expression du locuteur détecté et des instants de début de périodes d'expression du locuteur choisi. L'utilisation de plusieurs mesures de proximité a pour effet de fiabiliser le calcul de l'indice d'appariement. Dans un autre mode de réalisation, on détermine par analyse des données audio des instants de début et des instants de fin d'expression de locuteur détecté, définissant des 25 segments d'expression du locuteur détecté, et en ce que l'indice d'appariement, pour une pluralité de périodes, dans les données de sous-titres, associées au locuteur choisi i, et pour une pluralité de segments, dans les données audio, associées au locuteur détecté k, est donné par : Ecart(Cluk, lai) = Spanclu(Cluk, lai) + Spanid(Icli, Cluk) avec : 30 - Ciuk les segments d'expression du locuteur détecté k; 3035530 8 - I di les périodes d'expressions du locuteur choisi I; - Ecart(Cluk, I di) l'indice d'appariement entre le locuteur détecté k et l'identifiant du locuteur choisi I; - Spanclu(Cluk, I di) Mk -mkEt=i mini I Tik 1 et 5 Spanid( I di, Cluk) = -N1 ie mini 17'1 - T/k où : o (Tik=1,..,mk) est l'ensemble des instants de début d'expression du locuteur détecté k; o r d est l'ensemble des instants de début des périodes d'expression du locuteur choisi i.

10 De tels calculs de moyennes de sommes de valeurs absolues peuvent être mis en oeuvre de manière efficace et rapide par tout type de dispositif électronique de calcul (typiquement par un processeur). Dans un mode de réalisation, l'ensemble des segments d'expression du locuteur détecté correspond à la partie des données audio du contenu multimédia.

15 Dans un autre mode de réalisation, on mesure des indices d'appariement pour une pluralité de locuteurs détectés et un locuteur choisi, cible, et l'indice minimum parmi les indices d'appariement indique l'un des locuteurs détectés, discriminé parmi les autres locuteurs détectés, comme étant le locuteur choisi. Une fois les indices d'appariement calculés, l'indice minimum est directement choisi ce qui conduit à une détermination rapide et 20 précise des instants de début d'expression correspondants au locuteur choisi. Dans un mode de réalisation, une identité entre le locuteur détecté par l'analyse des données audio et le locuteur choisi est déduite quand l'indice d'appariement est inférieur à un seuil. Le seuil est déterminé en fonction d'une tolérance des erreurs acceptée dans la recherche des instants de début d'expression. Plus le seuil est élevé, plus un nombre important 25 d'erreurs est toléré. Dans un mode de réalisation, les données de sous-titres comportent, pour chaque locuteur, au moins un mot identifiant de locuteur. Dans un autre mode de réalisation, la recherche de l'identifiant de locuteur choisi est faite, dans les données de sous-titres, à partir d'au moins une séquence de caractères, comportant le mot identifiant le locuteur choisi. Ainsi, 30 la recherche de l'identifiant de locuteur dans les données de sous-titres est très simple (recherche de mots ou séquence de mot dans un texte) et donc très rapide et peu consommatrice de ressources de calcul.

3035530 9 Un quatrième aspect de l'invention concerne un programme informatique comportant des instructions pour la mise en oeuvre du procédé d'utilisation décrit ci-avant en référence au premier aspect de l'invention et pour la mise en oeuvre du procédé de traitement décrit ci-avant en référence au troisième aspect de l'invention, lorsque ces instructions sont exécutées 5 par un processeur. Un cinquième aspect de l'invention concerne un dispositif de fourniture d'un contenu multimédia, le contenu multimédia comportant au moins : - des données audio, - des données de sous-titres associées aux données audio, 10 les données audio et les données de sous-titres associées étant relatives à au moins un locuteur des données audio caractérisé en qu'il comporte un processeur agencé pour associer à au moins une partie des données audio du contenu multimédia un identifiant de locuteur ayant été déterminé à partir des sous-titres associés aux données audio du contenu multimédia. Un tel dispositif de traitement est typiquement compris dans un serveur délocalisé 15 pour effectuer les étapes de détermination des instants de début d'expression à distance, le serveur délocalisé étant relié à un terminal utilisateur. Un sixième aspect de l'invention concerne un procédé de traitement d'un contenu multimédia, le contenu multimédia comportant au moins : - des données audio, 20 - des données de sous-titres, et les données de sous-titres comportant au moins un identifiant de locuteur s'exprimant pendant une ou plusieurs périodes dans les données de sous-titres, caractérisé en qu'il comporte les étapes : - à partir d'un identifiant d'un locuteur choisi, déterminer au moins une période 25 d'expression du locuteur choisi dans les données de sous-titres, et - déterminer au moins un instant de début d'expression d'un locuteur détecté dans les données audio, qui corresponde, selon un critère prédéterminé, à ladite période 3035530 10 d'expression du locuteur choisi, pour associer l'instant de début d'expression à l'identifiant du locuteur choisi. Un septième aspect de l'invention concerne un dispositif de traitement d'un contenu multimédia, le contenu multimédia comportant au moins : 5 des données audio, des données de sous-titres, les données de sous-titres comportant au moins un identifiant de locuteur s'exprimant pendant une ou plusieurs périodes dans les données de sous-titres, caractérisé en qu'il comporte un processeur agencé pour effectuer les étapes : 10 a partir d'un identifiant d'un locuteur choisi, déterminer au moins une période d'expression du locuteur choisi dans les données de sous-titres, et déterminer au moins un instant de début d'expression d'un locuteur détecté dans les données audio, qui corresponde, selon un critère prédéterminé, à ladite période d'expression du locuteur choisi, pour associer l'instant de début d'expression à l'identifiant du locuteur 15 choisi. Un huitième aspect de l'invention concerne une station utilisateur, comportant : une interface de connexion au dispositif de traitement selon le septième aspect de l'invention pour recevoir au moins une donnée d'entrée d'un utilisateur, la donnée d'entrée comportant au moins l'identifiant de locuteur choisi ; 20 un écran pour l'affichage d'au moins une image d'un contenu vidéo synchronisé avec lesdites données audio, le contenu vidéo étant compris dans le contenu multimédia et l'image correspondant à l'instant de début d'expression associé à l'identifiant du locuteur choisi. D'autres caractéristiques et avantages de l'invention apparaîtront à l'examen de la description détaillée ci-après, et des dessins annexés sur lesquels: 25 la figure 1 illustre un contexte de mise en oeuvre de l'invention, selon un mode de réalisation ; 3035530 11 - la figure 2 est un diagramme illustrant les étapes d'un procédé de traitement, selon un mode de réalisation de l'invention ; - la figure 3 illustre un microcontrôleur, selon un mode de réalisation de l'invention.

5 L'invention est décrite ci-après dans son application, non limitative, à la diffusion d'un contenu multimédia sur une télévision. D'autres applications sont également envisageables telles que la diffusion sur un téléphone mobile, la projection dans une salle de cinéma, etc. La figure 1 illustre un contexte de mise en oeuvre de l'invention, dans un mode de réalisation.

10 Sur la figure 1, une télévision 1 est reliée à un terminal multimédia 2A. Le terminal multimédia 2A est notamment utilisé pour décoder des contenus multimédia reçus d'un réseau 4 par l'intermédiaire d'un équipement de terminaison réseau 2B. Le terminal multimédia dispose généralement d'une interface utilisateur à partir de laquelle un utilisateur peut sélectionner les contenus multimédia qu'il souhaite consulter. L'équipement de terminaison 15 réseau 2B, encore appelé « box » pour boite en français, reçoit et envoi des données au réseau 4 via un canal de communication haut-débit, utilisant par exemple la fibre optique. Les contenus multimédia proposés à l'utilisateur par l'intermédiaire du terminal multimédia 2A sont fournis par un distributeur de contenu 5. Ce distributeur de contenu 5 est typiquement une chaîne de télévision ou un service de vidéo à la demande. Le distributeur de 20 contenu 5 transmet des contenus multimédia à un serveur 3 d'un fournisseur d'accès à internet, via le réseau 4. Les contenus sont ensuite stockés sur le serveur 3. En variante, les contenus reçus du distributeur 5 sont traités par le serveur 3 puis directement émis à destination du terminal multimédia 2A (cas de la diffusion en direct d'un flux multimédia par exemple).

25 Lorsqu'un utilisateur désire consulter un contenu, une requête est émise depuis le terminal multimédia 2A à destination du serveur 3 via l'équipement 2A et le réseau 4 pour que le contenu choisi soit diffusé sur la télévision 1. Pour ce faire, le contenu peut être au moins partiellement téléchargé sur le terminal multimédia 2A. En variante, un flux multimédia peut être reçu du serveur 3 pour être décodé par le terminal multimédia 2A et 30 directement diffusé sur l'écran 1.

3035530 12 Une utilisation possible de l'invention consiste à reproduire sur la télévision 1 un contenu multimédia reçu par le terminal multimédia 2A. Le contenu multimédia comporte des données vidéo, des données audio et des données de sous-titres associées aux données audio, les données audio et les données de sous-titres associées étant relatives à au moins un locuteur 5 des données audio. En particulier, une partie des données audio est diffusée et un identifiant de locuteur LOC Idi est affiché. Cet identifiant de locuteur correspond au locuteur dans la partie des données audio et a été associé, préalablement à la reproduction, à la partie des données audio. Comme détaillé ci-après, l'identifiant de locuteur est déterminé à partir des sous-titres, avant d'être reproduit sur la télévision 1. En outre, une image du contenu 10 multimédia, synchronisée avec les données audio, peut être affichée. Cette reproduction peut être obtenu par un utilisateur voulant obtenir un affichage de segments du contenu multimédia pendant lesquels un locuteur précis (ci-après appelé « locuteur choisi », ici identifié par l'identifiant de locuteur LOC Idi), s'exprime. Dans cette situation, l'utilisateur rentre l'identifiant LOC IDi du locuteur pour lequel 15 il souhaite voir les segments d'expression, au niveau du terminal multimédia 2A, par exemple à l'aide d'une interface utilisateur. Une fois l'identifiant de locuteur renseigné, une requête d'une partie d'au moins un contenu multimédia relative au locuteur choisi par l'utilisateur est émise. Comme détaillé ci-après, les informations rentrées par l'utilisateur peuvent avoir à être interprétées pour qu'un identifiant de locuteur dans un format adapté soit déduit de ces 20 informations. Si le contenu multimédia est stocké sur le serveur 3, la requête est émise à destination du serveur 3. Si le contenu multimédia est stocké sur le terminal multimédia 2A, la requête est transmise au sein du terminal multimédia 2A. La requête déclenche alors une recherche du locuteur choisi dans le contenu 25 multimédia. La recherche peut être faite sur un contenu multimédia ou sur plusieurs contenus multimédia. Comme cela est détaillé ci-après en référence à la figure 2, au moins une partie du contenu multimédia est associée à un identifiant de locuteur par analyse des données de sous-titres associées à une partie de données audio synchronisée avec ladite partie du contenu multimédia. La recherche consiste alors à rechercher une partie du contenu multimédia 30 associée à un identifiant de locuteur LOC IDi correspondant au locuteur choisi.

3035530 13 Un procédé d'identification des locuteurs du contenu multimédia, selon un mode de réalisation, est maintenant décrit en référence à la figure 2. Le procédé d'identification est mis en oeuvre par un microcontrôleur, décrit ci-après en référence à la figure 3, qui peut être situé au sein du terminal multimédia 2A ou du serveur 3.

5 En effet, le procédé peut être mis en oeuvre sur réception de la requête reçue depuis le terminal multimédia 2A lorsqu'un utilisateur désire obtenir les segments d'au moins un contenu multimédia pendant lesquels un locuteur choisi s'exprime. Le procédé peut également être mis en oeuvre par un microcontrôleur compris sur le terminal multimédia 2A. Dans cette situation, les contenus multimédia peuvent être stockés 10 sur le terminal multimédia ou peuvent être reçus du serveur 3. Dans le cas où les contenus sont reçus du serveur 3, le terminal multimédia 2A peut stocker temporairement les contenus puis mettre en oeuvre le procédé d'identification des locuteurs et enfin prévoir l'affichage des segments correspondants aux moments ou le locuteur choisi s'exprime. Dans le deux situations, le microcontrôleur reçoit un contenu multimédia MU1 à une 15 étape 6. On décrit ici le procédé d'identification des locuteurs d'un seul contenu multimédia. L'identification des locuteurs de plusieurs contenus multimédia peut être faite en parallèle pour différents contenus multimédia ou de manière successive, contenu multimédia par contenu multimédia. Le contenu comprend des données audio, des données de sous-titres et des données 20 vidéo (comportant une ou plusieurs images). Les données audio MUlAuDio sont analysées à une étape 8 pour détecter des locuteurs k E [[1; K]] s'exprimant dans ces données audio. On considère dans la suite que plusieurs locuteurs sont détectés. Bien sûr, le procédé peut également être mis en oeuvre quand un seul locuteur est détecté. Les données audio MUlAuDio sont alors segmentées en fonction des 25 locuteurs s'exprimant dans les données audio. Les segments d'expression sont regroupés dans des clusters (C/uk)k,iii,Kil (pour grappe en français). Chaque segment d'un cluster C/uk correspondant à des instants des données audio où le locuteur k s'exprime. On considère dans la suite que plusieurs segments sont déterminés pour chaque locuteur détecté. Bien sûr, le procédé peut également être mis en 30 oeuvre quand un seul segment est déterminé. Pour chaque locuteur k détecté, les instants de 3035530 14 début d'expression correspondant respectivement au début des segments compris dans le cluster C/uk sont déterminés. A ce stade du procédé, les segments d'expressions des locuteurs du contenu multimédia sont déterminés mais aucun identifiant n'est attribué à chacun de ces segments.

5 L'étape 8 conduit donc au regroupement, dans les clusters, de segments d'expression de locuteurs génériques (locuteurs non encore identifiés). La détection des locuteurs, la segmentation et le regroupement des segments en clusters sont fondés sur des techniques connues de reconnaissance de parole. La recherche d'un identifiant LOC IDi de locuteur choisi i et la détermination d'au 10 moins une période d'expression Idi de ce locuteur choisi i est effectuée à partir des données de sous-titres MUlsuss à une étape 9. On considère dans la suite que plusieurs périodes d'expression sont déterminées pour le locuteur choisi i. Les données de sous-titres comportent au moins un identifiant de locuteur s'exprimant pendant une ou plusieurs périodes dans les données de sous-titres. Les données de sous-titres 15 peuvent correspondre à un fichier texte, à une succession de données texte, à des mots incrustés dans des images du contenu multimédia, etc. Cet identifiant de locuteur peut prendre plusieurs formes. Il peut s'agir d'au moins un mot. Dans ce cas, le mot peut correspondre au nom, au prénom, au titre, à l'âge ou à n'importe quelle caractéristique du locuteur.

20 Une séquence de mots peut également constituer un identifiant de locuteur. Dans un mode de réalisation préféré, l'identifiant de locuteur correspond à une séquence de type : « prénom nom » du locuteur. Tout autre configuration de séquence est envisageable telle que par exemple « initiale du prénom nom », « initiales du prénom initiale du nom », « prénom nom », « prénom.nom », « - prénom: », « titre nom », etc.

25 Une étape d'interprétation des données renseignées par l'utilisateur à une étape 7 peut être mise en oeuvre par le terminal multimédia 2A ou le serveur 3. Cette étape a pour objet de déduire des données rentrées par l'utilisateur un identifiant de locuteur choisi qui soit dans un format compréhensible par le microcontrôleur en charge de l'identification des locuteurs.

3035530 15 La recherche de l'identifiant de locuteur dans les données des sous-titres est effectuée à partir de l'identifiant de locuteur renseigné par l'utilisateur du terminal multimédia 2A. Plusieurs formats de l'identifiant de locuteur peuvent être générés afin d'augmenter les chances de trouver une occurrence de l'identifiant de locuteur dans les sous-titres. Ainsi, des 5 séquences de type « initiale du prénom nom », «- prénom: » , « initiales du prénom initiale du nom », etc. peuvent être cherchées dans les données de sous-titres à partir d'un identifiant de locuteur de type « prénom nom ». Des caractéristiques complémentaires, telles qu'un titre du locuteur choisi, peuvent être recherchées sur une base de données externe afin d'augmenter les chances de trouver des occurrences de l'identifiant de locuteur dans les données de sous- 10 titres. En outre, les fichiers texte comportant les données de sous-titres peuvent être agencés d'une manière spécifique. Par exemple, les identifiants de locuteurs peuvent être toujours situés dans une colonne spécifique. Il est ainsi possible de limiter la recherche de l'identifiant de locuteur à des parties restreintes des données de sous-titres afin d'augmenter la vitesse de 15 la recherche. Un exemple précis est ici donné avec l'extrait suivant de données de sous-titres : 54.799 - Jérémy: Patrick a oublié 57.119 d'acheter une veste! 59.439 - Anne-Sophie: Il manque quelque 20 61.759 chose ce soir: la veste de Patrick. Dans cet exemple, le format de l'identifiant de locuteur dans les sous-titres est de type «- prénom: ». Une fois l'identifiant de locuteur détecté ou extrait, les périodes d'expression du locuteur choisi dans les données de sous-titres sont déterminées. Ces périodes d'expression 25 sont déterminées à partir d'informations temporelles présentes dans les sous-titres. Dans l'exemple ci-dessus, ces informations temporelles correspondent aux chiffres (54 . 7 99, 57.119, etc.) indiqués à gauche de chaque ligne dans les données de sous-titres. Ces informations temporelles, si elles correspondent effectivement aux instants des données audio du contenu multimédia, constituent une information de synchronisation avec 30 ces données audio, au moins. Pour améliorer la synchronisation entre les données de sous- 3035530 16 titres et les données audio, une étape de resynchronisation des sous-titres peut être appliquée préalablement au procédé d'identification des locuteurs. Cette étape vise à réajuster les informations temporelles mentionnées ci-dessus pour augmenter la précision de ces informations, par rapport aux données audio. L'information de synchronisation peut 5 également être présente dans les données audio ou correspondre à des métadonnées comprises dans le contenu multimédia à partir desquelles les données audio et les données de sous-titres peuvent être synchronisées. Dans un mode de réalisation, le contenu multimédia est traité pour que tous les identifiants de locuteurs présents dans les données de sous-titres soient extraits et associés à 10 des instants de début d'expression. Dans ce mode de réalisation, appelé ci-après « mode de réalisation de traitement global », les contenus multimédias sont traités par le serveur 3, par exemple lorsqu'ils sont reçus. Suite au traitement, les instants de début d'expression associés aux identifiants de locuteurs extraits des sous-titres sont stockés sur le serveur 3. En variante, les contenus multimédia sont traités par le terminal multimédia 2A lorsqu'ils sont reçus par ce 15 terminal. Dans ce mode de réalisation, l'identifiant de locuteur n'est pas renseigné par l'utilisateur et l'analyse des données de sous-titres est donc faite à partir de séquences de caractères prédéterminées permettant d'extraire automatiquement des identifiants de locuteur. Par exemple, pour toutes les séquences de type « - mot: » présentes dans les données de sous- 20 titres, le mot est extrait et définit comme identifiant de locuteur. Un contrôle de la longueur des séquences détectées peut être appliqué, ainsi une séquence telle que « 163.99 - Le ministère de la Santé martèle le message: "Mangez, Bougez".» sera discriminée car la séquence «Le ministère de la Santé martèle le message » qui est située entre «- » et « : » est trop longue. Les étapes d'association d'instants de début 25 d'expression décrites ci-après sont ensuite appliquées pour chaque identifiant de locuteur ainsi extrait. En outre, dans ce mode de réalisation de traitement global, le mot extrait des sous-titres et à partir duquel est déduit un identifiant de locuteur peut être incomplet. Par exemple, ce mot peut ne correspondre qu'au prénom du locuteur. Une étape supplémentaire de 30 résolution des identifiants des locuteurs peut être mise en oeuvre pour que soit obtenu la forme complète de l'identifiant de locuteur. Cette étape supplémentaire peut utiliser des informations associées au contenu multimédia (liste des acteurs, résumés, etc.) qui peuvent 3035530 17 être transmises avec le contenu multimédia ou accessible via des bases de données externes. Cette étape peut également utiliser le corps du texte des sous-titres pour retrouver une forme complète de l'identifiant de locuteur. A une étape 10, le calcul de plusieurs indices d'appariement Ecart entre les locuteurs 5 détecté à l'étape 8 et l'identifiant de locuteur LOC IDi est effectué. Ce calcul est fondé sur une mesure de proximité temporelle moyenne entre les instants de début d'expression du locuteur détecté (instants déterminés à l'étape 8) et les instants de début de période d'expression du locuteur choisi i (périodes déterminées à l'étape 9). En particulier, pour un locuteur k détecté par l'analyse audio, l'indice d'appariement 10 Ecart(Cluk, I di) entre le locuteur détecté k et l'identifiant du locuteur choisi i est donné par la formule : Ecart(Cluk, I di) = Spanclu(Cluk, I di) + Spanid(Idi, Cluk) avec Cluk le cluster des segments d'expression du locuteur détecté k et I di les périodes d'expressions du locuteur choisi i et : mk 1 Spanclu(Cluk, I di) = minITIk - 71 Mk 1=1 i Ni 1 Spanid ( I di, Cluk) = min - T/k I j.1 I où (Tik_t_mk) est l'ensemble des instants de début d'expression du locuteur détecté 15 k, et (7'1_1,..,Ni) est l'ensemble des instants de début des périodes d'expression du locuteur choisi i. Le calcul de ces indices d'appariement est également rendu possible par la présence de l'information de synchronisation entre les données sous-titres et les données audio. En effet, l'information de synchronisation donne une échelle temporelle commune aux données audio 20 et aux données de sous-titres, à partir de laquelle il est possible de mesurer des durées entre des instants des données de sous-titres et des instants des données audio.

3035530 18 Une fois les indices d'appariement calculés pour chaque locuteur détecté à l'étape 8, un indice d'appariement particulier est sélectionné à une étape 11. L'indice d'appariement correspondant à une mesure de proximité temporelle, plus cette mesure est faible plus cela indique que les segments du locuteur détecté dans les données audio sont proches des 5 périodes d'expression déterminées à partir des données de sous-titres. Ainsi, un indice d'appariement faible indique une correspondance probable entre un locuteur détecté k, et le locuteur choisi i. En particulier, la sélection de l'indice d'appariement est faite en comparant les indices d'appariement à un seuil. Plus le seuil est faible, plus l'identification des locuteurs est fiable.

10 Toutefois, un seuil trop faible peut conduire à ce qu'un identifiant de locuteur choisi ne puisse pas être associé à des instants de début d'expression du locuteur détecté. Si plusieurs indices d'appariement sont inférieurs au seuil, l'indice d'appariement minimum est sélectionné. En variante, l'indice d'appariement minimum est directement sélectionné parmi les indices d'appariement calculés pour l'identifiant de locuteur choisi ID LOCi.

15 L'indice d'appariement sélectionné indique que le locuteur détecté k, correspondant à cet indice d'appariement sélectionné peut être associé au locuteur choisi ID LOCi. Ainsi, une identité entre le locuteur k, détecté par l'analyse des données audio et le locuteur choisi i est déduite de la sélection de l'indice d'appariement. Une fois le locuteur détecté k, associé au locuteur choisi i, les données temporelles 20 relatives aux segments d'expression du locuteur k, compris dans le cluster C/uki sont transmises du microcontrôleur vers le terminal multimédia 2A ou le serveur 3. Les données temporelles correspondent par exemple aux instants de début d'expression des segments. Ces données temporelles sont alors utilisées pour extraire les parties du contenu multimédia pendant lesquelles le locuteur choisi i s'exprime. Les images composant ces parties peuvent 25 alors être affichées sur l'écran 1 avec l'identifiant de locuteur choisi LOC IDi. Dans le mode de réalisation de traitement global, les indices d'appariement sont calculés pour tous les locuteurs détectés dans les données audio et pour tous les identifiants de locuteur extraits des données de sous-titres. A partir de tous ces indices d'appariement, il faut donc, dans l'idéal, ne retenir qu'un indice d'appariement par identifiant de locuteur.

3035530 19 Une première méthode consiste, à calculer un écart global d'appariement pour l'ensemble des locuteurs détectés et des identifiants de locuteurs extraits. Une fonction d'appariement est alors calculée pour minimiser l'écart global. La fonction d'appariement Appariement(Cluk, I di) entre le locuteur k et l'identifiant 5 i, est définie par : - Appariement(Cluk, I di) = 1 : l'identité i est attribuée au locuteur k - Appariement(Cluk, I di) = 0 : l'identité i n'est pas attribuée au locuteur k On cherche alors les valeurs de cette fonction Appariement(Cluk, Id), qui minimisent l'écart global : Nbld NbClu Ecart(Cluk, I di) x Appariement(Cluk, I di) i=1 k=1 10 sous les contraintes : - Ei Appariement(Cluk, I di) 1 : le locuteur k n'a qu'une identité au maximum - Ek Appariement(Cluk, Idi) < 1 : l'identité i n'est attribuée qu'à 1 locuteur au maximum Une deuxième méthode consiste à procéder de manière séquentielle en appariant les 15 meilleurs d'abord. Pour ce faire, une liste Lis teTrieeEcart est définie, elle correspond à la liste de NbId*NbClu paires d'éléments (Clu,Id), triée par Ecart(Clu,Id) croissant. Les meilleurs indices de cette liste donc retenus de manière séquentielle, tel que défini par le pseudo-code suivant : initialisation : 20 pour tout du : PasEncoreApparie(Clu)=true pour tout Id : PasEncoreApparie(Id)=true pour tout Clu,Id : Appariement(Clu,Id)=0 parcours de la liste Pour chaque paire (Clu,Id) de ListeTrieeEcart 3035530 20 si (PasEncoreApparie(Clu) && PasEncoreApparie(Id) && (Ecart(Clu,Id)<Seuil)) Appariement(Clu,Id)=1 PasEncoreApparie(Clu)=false 5 PasEncoreApparie(Id)=false Une troisième méthode consiste à appliquer le traitement décrit ci-avant pour l'identifiant de locuteur choisi ID LOCi à tous les identifiants de locuteur extraits des données de sous-titres. Quelle que soit la méthode choisie, les instants de début d'expression sont tous 10 associés aux identifiants de locuteur extraits correspondants et sont alors stockés avec le contenu multimédia sur le serveur 3. Ainsi, lorsqu'un utilisateur désire accéder aux parties du contenu multimédia pendant lesquelles un locuteur particulier s'exprime, une requête comportant l'identifiant du locuteur particulier est envoyée au serveur 3 depuis le terminal 2A. Des parties du contenu multimédia correspondant aux instants de début d'expression 15 associés à l'identifiant du locuteur particulier sont alors extraites et transmises au terminal 2A. Ce mode de réalisation est rapidement mis en oeuvre lorsque l'utilisateur a fait son choix. En effet, les étapes d'identification des locuteurs ayant déjà été effectuées, le serveur 3 n'a qu'à transmettre les parties extraites sans aucun traitement supplémentaire. En outre, l'obtention des parties n'est pas ralentie dans le cas où l'utilisateur souhaite faire une 20 recherche sur plusieurs contenus multimédia car tous les contenus ont déjà été prétraités. La figure 3 représente un exemple de microcontrôleur 13. Ce dispositif 13 peut être utilisé pour mettre en oeuvre les étapes du procédé selon l'invention au sein du terminal multimédia 2A, de l'équipement 2B, du serveur 3 ou encore du distributeur de contenu 5. Ce dispositif 13 peut prendre la forme d'un boitier comprenant des circuits imprimé, de tout type 25 d'ordinateur ou encore d'un téléphone mobile. Le dispositif 13 comprend une mémoire vive 17 pour stocker des instructions pour la mise en oeuvre par un processeur 16 du procédé tel que décrit ci-avant. Le dispositif comporte aussi une mémoire de masse 18 pour le stockage de données destinées à être conservées après la mise en oeuvre du procédé. La mémoire 18 peut également, dans un mode de réalisation, 3035530 21 être utilisée pour stocker les contenus multimédias et/ou les instants de débuts d'expression associés à au moins un identifiant de locuteur extrait de données de sous-titres. Le dispositif 13 peut en outre comporter un processeur de signal numérique (DSP) 15. Ce DSP 15 reçoit les contenus multimédia pour mettre en forme, démoduler et amplifier, de 5 façon connue en soi ces données. Le dispositif comporte également une interface d'entrée 14 pour la réception des contenus multimédia et une interface de sortie 19 pour la transmission, au moins, des instants de débuts d'expression associés à au moins un identifiant de locuteur extrait de données de sous-titres.

10 La présente invention ne se limite pas aux formes de réalisation décrites ci-avant à titre d'exemples ; elle s'étend à d'autres variantes. Ainsi, on a décrit ci-avant un mode de réalisation dans lequel les contenus multimédia et les identifiants de locuteurs étaient affichés sur un écran de télévision. Bien sûr, les 15 contenus et les identifiants peuvent être affichés sur tout type de dispositif tel qu'un téléphone portable, un ordinateur, etc.

Claims

REVENDICATIONS1. Procédé d'utilisation d'un contenu multimédia par un terminal (1; 2A; 2B) d'un utilisateur, le contenu multimédia comportant au moins des données audio et des données de sous-titres associées aux données audio, les données audio et les données de sous-titres associées étant relatives à au moins un locuteur des données audio, le procédé d'utilisation comportant, suite à une demande de l'utilisateur au moyen d'une interface utilisateur du terminal, une reproduction simultanée - d'au moins une partie des données audio du contenu multimédia associée, préalablement à la reproduction, à un identifiant d'un locuteur des données audio de la partie de données audio, l'identifiant du locuteur ayant été déterminé à partir des sous-titres associés aux données audio du contenu multimédia, et - de l'identifiant du locuteur associé à la partie de données audio reproduite.
2. Procédé d'utilisation selon la revendication précédente, caractérisé en ce que la demande de l'utilisateur est une demande de reproduction de données relatives à un locuteur choisi par l'utilisateur, la demande déclenchant la reproduction d'au moins une partie des données audio d'au moins un contenu multimédia associée à un identifiant du locuteur choisi.
3. Procédé d'utilisation selon l'une quelconque des revendications précédentes, caractérisé en ce que le procédé d'utilisation comporte une requête d'une partie d'au moins un contenu multimédia relative à un locuteur choisi par l'utilisateur, ladite requête déclenchant une recherche dudit locuteur choisi dans ledit au moins un contenu multimédia, au moins une partie du contenu multimédia étant associée à un identifiant de locuteur par analyse des données de sous-titres associées à une partie de données audio synchronisée avec ladite partie du contenu multimédia, la recherche comportant une recherche d'une partie du contenu multimédia associée à un identifiant de locuteur correspondant au locuteur choisi. 3035530 23
4. Procédé d'utilisation selon l'une quelconque des revendications précédentes, caractérisé en ce que le procédé d'utilisation comporte une reproduction d'une illustration d'un découpage du contenu multimédia en au moins une partie associée à un identifiant d'un locuteur, l'illustration du découpage en partie du contenu multimédia permettant à l'utilisateur une 5 sélection d'une partie en fonction du locuteur associé, la sélection déclenchant la reproduction de la partie des données audio du contenu multimédia.
5. Terminal d'un utilisateur utilisant un contenu multimédia, le contenu multimédia comportant au moins des données audio et des données de sous-titres associées aux données 10 audio, les données audio et les données de sous-titres associées étant relatives à au moins un locuteur des données audio, le terminal comportant une interface de reproduction (1), permettant, suite à une demande de l'utilisateur au moyen d'une interface utilisateur du terminal, une reproduction simultanée - d'au moins une partie des données audio du contenu multimédia associée, préalablement à la 15 reproduction, à un identifiant d'un locuteur des données audio de la partie de données audio, l'identifiant du locuteur ayant été déterminé à partir des sous-titres associés aux données audio du contenu multimédia, et - de l'identifiant du locuteur associé à la partie de données audio reproduite. 20
6. Procédé de traitement d'un contenu multimédia, le contenu multimédia comportant au moins : - des données audio, - des données de sous-titres associées aux données audio, les données audio et les données de sous-titres associées étant relatives à au moins un locuteur 25 des données audio, caractérisé en que le procédé de traitement comporte : une association à au moins une partie des données audio du contenu multimédia d'un identifiant de locuteur ayant été déterminé à partir des sous-titres associés aux données audio du contenu multimédia. 3035530 24
7. Procédé de traitement selon la revendication précédente, caractérisé en ce que le procédé de traitement comporte, préalablement à l'association, une segmentation du contenu multimédia par locuteurs au moyen d'une analyse de parole, la partie des données audio consiste en un segment obtenu par la segmentation par locuteurs. 5
8. Procédé de traitement selon la revendication précédente, caractérisé en ce que le procédé de traitement comporte, préalablement à l'association, un regroupement en cluster des segments de données audio d'un même locuteur, le cluster permettant à l'association d'attribuer simultanément le même identifiant de locuteur à tous les segments de données audio d'un 10 cluster.
9. Procédé de traitement selon l'une des revendications 6 à 8, caractérisé en ce que le procédé de traitement comporte les étapes suivantes : - une détermination, a partir d'un identifiant d'un locuteur choisi, d'au moins une 15 période d'expression du locuteur choisi dans les données de sous-titres, et - une détection d'au moins un instant de début d'expression d'un locuteur dans les données audio, qui corresponde, selon un critère prédéterminé, à ladite période d'expression du locuteur choisi, pour associer l'instant de début d'expression à l'identifiant du locuteur choisi. 20
10. Procédé de traitement selon la revendication 9, dans lequel le contenu multimédia comporte en outre des données comprenant au moins une information de synchronisation entre les données audio et les données de sous-titres, et caractérisé en ce que l'étape de détection d'au moins un instant de début d'expression 25 comprend les sous-étapes : - analyser (8) les données audio pour détecter le locuteur et pour déterminer au moins l'instant de début d'expression dudit locuteur détecté, dans les données audio, - analyser (9) les données de sous-titres pour rechercher l'identifiant du locuteur choisi et déterminer ladite au moins une période d'expression du locuteur choisi, 3035530 25 - utiliser l'information de synchronisation pour établir (11) une correspondance, selon le critère prédéterminé, entre la période d'expression du locuteur choisi et l'instant de début d'expression du locuteur détecté, et - en déduire (12) une identité entre le locuteur détecté par l'analyse des données audio 5 et le locuteur choisi, pour associer l'instant de début d'expression à l'identifiant du locuteur choisi.
11. Procédé de traitement selon la revendication 10, caractérisé en ce que le critère déterminé correspond au calcul (10) d'un indice d'appariement entre le locuteur détecté et l'identifiant 10 de locuteur choisi, à partir d'au moins une mesure de proximité temporelle entre un instant de début d'expression du locuteur détecté et un instant de début de période d'expression du locuteur choisi.
12. Procédé de traitement selon la revendication 11, caractérisé en ce que, pour une pluralité 15 d'instants de début d'expression dans les données audio, associés au locuteur détecté, et pour une pluralité de périodes, dans les données de sous-titres, associées au locuteur choisi, l'indice d'appariement est donné par une mesure de proximité temporelle moyenne entre des instants de début d'expression du locuteur détecté et des instants de début de périodes d'expression du locuteur choisi. 20
13. Procédé de traitement selon l'une des revendications 11 et 12, caractérisé en ce qu'on détermine par analyse des données audio des instants de début et des instants de fin d'expression de locuteur détecté, définissant des segments d'expression du locuteur détecté, et en ce que l'indice d'appariement, pour une pluralité de périodes, dans les données de sous- 25 titres, associées au locuteur choisi i, et pour une pluralité de segments, dans les données audio, associées au locuteur détecté k, est donné par : Ecart(Cluk, I di) = Spanclu(Cluk, I di) + Spanid(I di, Cluk) avec : - C/uk les segments d'expression du locuteur détecté k; - Id, les périodes d'expressions du locuteur choisi I; 3035530 26 - Ecart(Cluk, I di) l'indice d'appariement entre le locuteur détecté k et l'identifiant du locuteur choisi i ; 1 - Spanclu(Cluk, I di) = Mk -mkEt=i mini I Tt!' - 771 et Spanid( I di, Cluk) = -N1 ie mini 17'1 - T/k 1, où : 5 o (Tik_1,..,mk) est l'ensemble des instants de début d'expression du locuteur détecté k; o r d est l'ensemble des instants de début des périodes d'expression du locuteur choisi i. 10
14. Procédé de traitement selon l'une des revendications 11 à 13, caractérisé en ce qu'on mesure des indices d'appariement pour une pluralité de locuteurs détectés et un locuteur choisi, cible, et l'indice minimum parmi les indices d'appariement indique l'un des locuteurs détectés, discriminé parmi les autres locuteurs détectés, comme étant le locuteur choisi. 15
15. Procédé de traitement selon l'une des revendications 11 à 13, caractérisé en ce qu'une identité entre le locuteur détecté par l'analyse des données audio et le locuteur choisi est déduite quand l'indice d'appariement est inférieur à un seuil.
16. Programme informatique comportant des instructions pour la mise en oeuvre du procédé 20 d'utilisation selon l'une des revendications 1 à 4 ou pour la mise en oeuvre du procédé de traitement selon l'une des revendications 6 à 15, lorsque ces instructions sont exécutées par un processeur.
17. Dispositif de fourniture d'un contenu multimédia, le contenu multimédia comportant au 25 moins : - des données audio, - des données de sous-titres associées aux données audio, 3035530 27 les données audio et les données de sous-titres associées étant relatives à au moins un locuteur des données audio, caractérisé en qu'il comporte un processeur (16) agencé pour associer à au moins une partie des données audio du contenu multimédia, un identifiant de locuteur ayant été déterminé à 5 partir des sous-titres associés aux données audio du contenu multimédia.