FR3074938A1

FR3074938A1 - Procede d'interaction avec un sous-titre affiche sur un ecran de television, dispositif, produit-programme d'ordinateur et support d'enregistrement pour la mise en œuvre d'un tel procede

Info

Publication number: FR3074938A1
Application number: FR1761872A
Authority: FR
Inventors: Gilles Bardoux
Original assignee: Sagemcom Broadband SAS
Current assignee: Sagemcom Broadband SAS
Priority date: 2017-12-08
Filing date: 2017-12-08
Publication date: 2019-06-14
Anticipated expiration: 2037-12-08
Also published as: EP3721319A1; WO2019110395A1; US20200396519A1; FR3074938B1

Abstract

Un aspect de l'invention concerne un procédé d'interaction avec un sous-titre affiché dans une zone d'affichage d'un écran de télévision numérique, le procédé comportant : - une étape de calibrage selon laquelle : • un calculateur affiche un premier point dans la zone d'affichage ; une caméra fait un premier film d'un environnement ; le calculateur détecte une première position d'un doigt d'un utilisateur dans le premier film et associe la première position détectée au premier point ; • le calculateur affiche un deuxième point dans la zone d'affichage ; la caméra fait un deuxième film de l'environnement ; le calculateur détecte une deuxième position d'un doigt de l'utilisateur dans le deuxième film, la deuxième position étant différente de la première position, et associe la deuxième position détectée au deuxième point ; • le calculateur calcule une correspondance entre la zone d'affichage de l'écran et une zone d'interaction de l'utilisateur ; - une étape d'affichage interactif d'une vidéo sous-titrée sur l'écran de télévision numérique selon laquelle la vidéo sous-titrée est affichée sur l'écran de télévision numérique et : • la caméra fait un troisième film de l'environnement ; le calculateur détecte une présence d'un doigt de l'utilisateur dans le troisième film ; et/ou • un microphone capte un environnement sonore sous forme d'un signal et transmet le signal au calculateur ; le calculateur enregistre le signal et détecte un mot-clef dans le signal.

Description

*54) PROCEDE D'INTERACTION AVEC UN SOUS-TITRE AFFICHE SUR UN ECRAN DE TELEVISION, DISPOSITIF, PRODUIT-PROGRAMME D'ORDINATEUR ET SUPPORT D'ENREGISTREMENT POUR LA MISE EN ŒUVRE D'UN TEL PROCEDE.

FR 3 074 938 - A1 (® Un aspect de l'invention concerne un procédé d'interaction avec un sous-titre affiché dans une zone d'affichage d'un écran de télévision numérique, le procédé comportant:

- une étape de calibrage selon laquelle:

• un calculateur affiche un premier point dans la zone d'affichage; une caméra fait un premier film d'un environnement; le calculateur détecte une première position d'un doigt d'un utilisateur dans le premier film et associe la première position détectée au premier point;

• le calculateur affiche un deuxième point dans la zone d'affichage; la caméra fait un deuxième film de l'environnement; le calculateur détecte une deuxième position d'un doigt de l'utilisateur dans le deuxième film, la deuxième position étant différente de la première position, et associe la deuxième position détectée au deuxième point;

• le calculateur calcule une correspondance entre la zone d'affichage de l'écran et une zone d'interaction de l'utilisateur;

- une étape d'affichage interactif d'une vidéo sous-titrée sur l'écran de télévision numérique selon laquelle la vidéo sous-titrée est affichée sur l'écran de télévision numérique et:

• la caméra fait un troisième film de l'environnement; le calculateur détecte une présence d'un doigt de l'utilisateur dans le troisième film; et/ou • un microphone capte un environnement sonore sous forme d'un signal et transmet le signal au calculateur; le calculateur enregistre le signal et détecte un mot-clef dans le signal.

PROCEDE D’INTERACTION AVEC UN SOUS-TITRE AFFICHE SUR UN ECRAN DE TELEVISION, DISPOSITIF, PRODUIT-PROGRAMME D’ORDINATEUR ET SUPPORT D’ENREGISTREMENT POUR LA MISE EN ŒUVRE D’UN TEL PROCEDE

DOMAINE TECHNIQUE DE L’INVENTION

Le domaine technique de l’invention est celui de l’interaction avec un sous-titre affiché sur un écran de télévision numérique.

La présente invention concerne en particulier un procédé d’interaction avec un sous-titre affiché dans une zone d’affichage d’un écran de télévision numérique. La présente invention concerne également un dispositif, un produit-programme d’ordinateur et un support d’enregistrement pour la mise en oeuvre d’un tel procédé.

ARRIERE-PLAN TECHNOLOGIQUE DE L’INVENTION

Dans le domaine de l’apprentissage des langues, une solution classique est de proposer un affichage statique et continuel des sous-titres dans deux langues, typiquement la langue maternelle et la langue étrangère en cours d’apprentissage, ce qui permet à l’utilisateur d’avoir la traduction de tous les mots de la langue étrangère vers sa langue natale. Cependant, cela contribue à surcharger l’image à l’écran tout en délivrant des traductions qui ne sont pas toujours nécessaires à la compréhension de l’utilisateur.

Par ailleurs et de manière générale, les solutions existantes permettent uniquement à l’utilisateur de définir des paramètres d’affichage des sous-titres comme la taille, la couleur ou le type de police. Cette définition a typiquement lieu une seule fois avant le début ou au début de la diffusion de la vidéo sous-titrée.

Il existe un besoin pour l’utilisateur d’interagir avec des sous-titres au cours de la diffusion de la vidéo sous-titrée afin d’obtenir des informations supplémentaires ou de réaliser des actions de manière ciblée et personnalisée qui ne dégrade pas systématiquement le visionnage.

- 2 RESUME DE L’INVENTION

L’invention offre une solution aux problèmes évoqués précédemment, en permettant à un utilisateur d’interagir avec un sous-titre d’une vidéo de manière à réaliser des actions ciblées et personnalisées répondant précisément aux besoins de l’utilisateur sans diminuer systématiquement la qualité du visionnage.

Un aspect de l’invention concerne un procédé d’interaction avec un sous-titre affiché dans une zone d’affichage d’un écran de télévision numérique, la zone d’affichage possédant une première dimension X et une deuxième dimension Y distincte de la première dimension X, le procédé comportant :

- une étape de calibrage selon laquelle :

• un calculateur affiche un premier point de cordonnées (xi ; yi) dans la zone d’affichage ; une caméra fait un premier film de calibrage d’un environnement et transmet le premier film de calibrage au calculateur ; le calculateur enregistre le premier film de calibrage, détecte une première position d’un doigt d’un utilisateur dans le premier film de calibrage et associe la première position détectée au premier point ;

• le calculateur affiche un deuxième point de cordonnées (Χ2 ; y2) dans la zone d’affichage, les coordonnées (Χ2 ; y2) étant telles que Χ2 est différent de xi et y2 est différent de yi ; la caméra fait un deuxième film de calibrage de l’environnement et transmet le deuxième film de calibrage au calculateur ; le calculateur enregistre le deuxième film de calibrage, détecte une deuxième position d’un doigt de l’utilisateur dans le deuxième film de calibrage, la deuxième position étant différente de la première position, et associe la deuxième position détectée au deuxième point ;

• le calculateur calcule une correspondance entre la zone d’affichage de l’écran et une zone d’interaction de l’utilisateur ;

- une étape d’affichage interactif d’une vidéo sous-titrée sur l’écran de télévision numérique selon laquelle la vidéo sous-titrée est affichée sur l’écran de télévision numérique et :

• la caméra fait un film de l’environnement et transmet en temps réel le film au calculateur ; le calculateur enregistre le film et détecte une présence d’un doigt de l’utilisateur dans le film ; et/ou • un microphone capte un environnement sonore sous forme d’un signal et transmet le signal au calculateur ; le calculateur enregistre le signal et détecte un mot-clef dans le signal.

Grâce à l’invention, le calculateur détermine l’ensemble des positions dans lesquelles peut se trouver le doigt d’un utilisateur quand il pointe n’importe quel point de la zone d’affichage, définissant ainsi une zone d’interaction de l’utilisateur. Grâce à la définition de sa zone d’interaction, l’utilisateur interagit avec un soustitre de la vidéo qu’il regarde par quelques mouvements de doigt couplés ou non à une commande vocale. De plus, le calculateur pouvant être intégré dans un décodeur de télévision numérique, le procédé peut être mis en oeuvre au moyen d’un dispositif bon marché puisque chaque foyer est généralement équipé d’un décodeur, d’une caméra et d’un microphone, qui sont en outre des équipements à bas coût.

Outre les caractéristiques qui viennent d’être évoquées dans le paragraphe précédent, le procédé selon un aspect de l’invention peut présenter une ou plusieurs caractéristiques complémentaires parmi les suivantes, considérées individuellement ou selon toutes les combinaisons techniquement possibles.

Avantageusement, la zone d’affichage est un quadrilatère et le premier point et le deuxième point sont deux coins de la zone d’affichage situés en diagonale.

Ainsi, deux coins de la zone d’affichage sont des points faciles à pointer pour un utilisateur et le fait qu’ils soient diagonaux permet de calculer directement la longueur et la hauteur de la zone d’interaction de l’utilisateur.

Avantageusement, durant l’étape de calibrage, le calculateur affiche un troisième

-4point distinct du premier et du deuxième point ; la caméra fait un troisième film de calibrage de l’environnement et transmet le troisième film de calibrage au calculateur ; le calculateur enregistre le troisième film de calibrage, détecte une troisième position d’un doigt de l’utilisateur dans le troisième film de calibrage, la troisième position étant différente de la première et de la deuxième position, et associe la troisième position détectée au troisième point.

Ainsi, le relevé de la position d’un troisième point permet d’améliorer le calibrage si l’utilisateur n’est pas face à l’écran de télévision mais de biais : le plan de la zone d’interaction de l’utilisateur n’est alors pas parallèle au plan de la zone d’affichage des sous-titres.

Avantageusement, le troisième point est le centre de la zone d’affichage.

Ainsi, le relevé de la position du centre de la zone d’affichage facilite la gestion de la perspective.

Avantageusement, durant l’étape de calibrage, lorsque la position pointée par l’utilisateur est relevée, la position du doigt de l’utilisateur ne varie pas en valeur absolue de plus d’un certain seuil pendant un certain intervalle de temps.

Ainsi, cela évite un mauvais calibrage ou une trop grande sensibilité, par exemple à cause d’un mouvement brusque de l’utilisateur.

Avantageusement, l’étape d’affichage interactif comporte une mise en pause de la vidéo suivie d’une reprise de la vidéo ou d’une sélection d’un ou plusieurs mots d’un sous-titre affiché à l’écran.

Ainsi, la vidéo est mise en pause et l’utilisateur a le temps de réaliser une action et notamment de sélectionner un ou plusieurs mots sans perdre le fil de son visionnage.

Avantageusement, la mise en pause de la vidéo est réalisée par une commande gestuelle selon laquelle le calculateur détecte une présence d’un doigt de l’utilisateur dans le film.

Ainsi, un mouvement simple et rapide du doigt arrête la vidéo.

-5Avantageusement, la mise en pause a lieu quand la position du doigt de l’utilisateur est relevée dans la zone de sous-titres du téléviseur pendant un certain intervalle de temps.

Ainsi, cela évite des arrêts intempestifs de la vidéo dus à des gestes involontaires de l’utilisateur.

Avantageusement, la mise en pause de la vidéo est réalisée par une commande vocale selon laquelle le microphone capte l’environnement sonore sous forme d’un signal et transmet le signal au calculateur, le calculateur enregistre le signal et détecte un mot-clef de mise en pause.

Ainsi, l’utilisateur n’a qu’à prononcer un mot clef lui permettant d’arrêter la vidéo et n’a pas à pointer la zone d’affichage.

Avantageusement, l’étape de sélection est réalisée par une commande gestuelle selon laquelle le calculateur détecte dans le film une première station prolongée d’un doigt de l’utilisateur en une première position de la zone d’affichage.

Ainsi, la sélection d’un mot est simple et rapide.

Avantageusement, dans la commande gestuelle, le calculateur détecte dans le film la première station prolongée suivie d’un mouvement puis d’une deuxième station prolongée d’un doigt de l’utilisateur en une deuxième position de la zone d’affichage, les première et deuxième positions étant distinctes ou confondues. Ainsi, la sélection de plusieurs mots est simple et rapide et l’utilisateur n’a pas besoin de pointer les mots un à un.

Avantageusement, l’étape de sélection est réalisée par la commande gestuelle uniquement ou bien par une combinaison de la commande gestuelle et d’une commande vocale selon laquelle le microphone capte l’environnement sonore sous forme d’un signal et transmet le signal au calculateur et le calculateur enregistre le signal et détecte un mot-clef de sélection.

Ainsi, l’utilisateur peut, par exemple, demander à recommencer sa sélection sans

-6avoir à pointer l’option.

Avantageusement, l’étape d’affichage interactif comporte une validation de la sélection réalisée par une commande gestuelle selon laquelle le calculateur détecte dans le film une station prolongée d’un doigt de l’utilisateur dans une zone de validation.

Ainsi, un mouvement simple et rapide du doigt valide la sélection.

Avantageusement, l’étape d’affichage interactif comporte une validation de la sélection réalisée par une commande vocale selon laquelle le microphone capte l’environnement sonore sous forme d’un signal et transmet le signal au calculateur et le calculateur enregistre le signal et détecte un mot-clef de validation.

Ainsi, l’utilisateur n’a qu’à prononcer un mot clef lui permettant de valider la sélection et n’a pas à pointer la zone de validation.

Avantageusement, l’étape d’affichage interactif comporte le choix d’une action à effectuer avec la sélection réalisé par une commande gestuelle selon laquelle le calculateur détecte dans le film une station prolongée d’un doigt de l’utilisateur dans une zone d’action.

Ainsi, le choix de l’action à réaliser est simple et rapide.

Avantageusement, l’étape d’affichage interactif comporte le choix d’une action à effectuer avec la sélection réalisé par une commande gestuelle selon laquelle le calculateur détecte dans le film un geste particulier correspondant à une action à réaliser.

Ainsi, l’utilisateur n’a pas besoin de pointer une zone d’action. Un signe particulier étant associé à une action possible, il lui suffit de faire le signe correspondant à l’action qu’il souhaite réaliser.

Avantageusement, l’étape d’affichage interactif comporte le choix d’une action à effectuer avec la sélection réalisé par une commande vocale selon laquelle le microphone capte l’environnement sonore sous forme d’un signal et transmet le

- 7 signal au calculateur et le calculateur enregistre le signal et détecte un mot-clef d’action à réaliser.

Ainsi, l’utilisateur n’a qu’à prononcer un mot clef lui permettant de choisir l’action à réaliser et n’a pas à pointer la zone d’action.

Avantageusement, l’action à réaliser avec le ou les mot(s) précédemment sélectionné(s) est préconfigurée par l’utilisateur.

Ainsi, l’utilisateur n’a pas besoin de choisir l’action à réaliser, la même action sera appliquée à toutes les sélections.

Avantageusement, le pointage est amélioré par ajout d’une aide visuelle sur l’écran.

Ainsi, un utilisateur peut voir sur l’écran la position actuelle estimée pour le pointage de son doigt, ce qui lui facilite le pointage.

Avantageusement, l’étape d’affichage interactif comporte le retour à l’écran de sélection par une commande gestuelle selon laquelle le calculateur détecte une station prolongée d’un doigt de l’utilisateur dans une zone de retour.

Ainsi, le retour à l’écran de sélection est simple et rapide.

Avantageusement, l’étape d’affichage interactif comporte le retour à l’écran de sélection par une commande gestuelle selon laquelle le calculateur détecte dans le film un geste particulier correspondant au retour à l’écran de sélection.

Ainsi, l’utilisateur n’a pas besoin de pointer la zone de retour. Un signe particulier étant associé au retour à l’écran de sélection, il lui suffit de faire le signe correspondant.

Avantageusement, l’étape d’affichage interactif comporte le retour à l’écran de sélection par une commande vocale selon laquelle le microphone capte l’environnement sonore sous forme d’un signal et transmet le signal au calculateur et le calculateur enregistre le signal et détecte un mot-clef de retour.

Ainsi, l’utilisateur n’a qu’à prononcer un mot clef lui permettant de retourner à

-8l’écran de sélection et n’a pas à pointer la zone de retour.

Avantageusement, l’étape d’affichage interactif comporte la reprise de la vidéo par une commande gestuelle selon laquelle le calculateur détecte dans le film une station prolongée d’un doigt de l’utilisateur dans une zone de reprise.

Ainsi, la reprise de la vidéo est simple et rapide.

Avantageusement, l’étape d’affichage interactif comporte la reprise de la vidéo par une commande gestuelle selon laquelle le calculateur détecte dans le film un geste particulier correspondant à la reprise de la vidéo.

Ainsi, l’utilisateur n’a pas besoin de pointer la zone de reprise. Un signe particulier étant associé à la reprise de la vidéo, il lui suffit de faire le signe correspondant.

Avantageusement, l’étape d’affichage interactif comporte la reprise de la vidéo par une commande vocale selon laquelle le microphone capte l’environnement sonore sous forme d’un signal et transmet le signal au calculateur et le calculateur enregistre le signal et détecte un mot-clef de reprise.

Ainsi, l’utilisateur n’a qu’à prononcer un mot clef lui permettant de reprendre la vidéo et n’a pas à pointer la zone de reprise.

Un deuxième aspect de l’invention concerne un dispositif d’interaction avec un sous-titre affiché dans une zone d’affichage d’un écran de télévision numérique, caractérisé en ce qu’il comporte un calculateur et une caméra, la caméra comportant des moyens de faire des films et de les transmettre au calculateur, le calculateur comportant :

- des moyens d’affichage sur l’écran de télévision numérique,

- des moyens de réception et d’enregistrement de films transmis par la caméra,

- des moyens de traitement d’images et de calcul.

Avantageusement, la caméra est intégrée dans le calculateur.

Ainsi, le dispositif pour mettre en oeuvre le procédé est plus compacte.

-9Avantageusement, la caméra est reliée au calculateur.

Ainsi, l’utilisateur peut utiliser une caméra qu’il possède déjà et la connecter au calculateur.

Un troisième aspect de l’invention concerne un produit programme d’ordinateur comprenant des instructions qui, lorsque le programme est exécuté par un ordinateur, conduisent celui-ci à mettre en oeuvre le procédé selon un premier aspect de l’invention.

Un quatrième aspect de l’invention concerne un support d’enregistrement lisible par ordinateur comprenant des instructions qui, lorsqu’elles sont exécutées par un ordinateur, conduisent celui-ci à mettre en oeuvre le procédé selon un premier aspect de l’invention.

L’invention et ses différentes applications seront mieux comprises à la lecture de la description qui suit et à l’examen des figures qui l’accompagnent.

BREVE DESCRIPTION DES FIGURES

Les figures sont présentées à titre indicatif et nullement limitatif de l’invention.

- La figure 1 montre un diagramme de flux représentant schématiquement le procédé selon un premier aspect de l’invention.

- La figure 2 montre une représentation schématique de l’étape de calibrage du procédé selon un premier aspect de l’invention.

- Les figures 3A et 3B montre une représentation schématique de l’étape de sélection du procédé selon un premier aspect de l’invention.

DESCRIPTION DETAILLEE D’AU MOINS UN MODE DE REALISATION DE L’INVENTION

Sauf précision contraire, un même élément apparaissant sur des figures différentes présente une référence unique.

- 10Un premier aspect de l’invention concerne un procédé 100 d’interaction avec un sous-titre affiché dans une zone d’affichage Za d’un écran de télévision numérique.

Dans la présente demande, le mot sous-titre doit être entendu comme l’ensemble du texte en surimpression d’une image extraite d’une vidéo à un instant donné : il peut donc être constitué d’un ou de plusieurs mots.

Le procédé 100 selon un premier aspect de l’invention comporte plusieurs étapes dont l’enchaînement est représenté à la figure 1. Ces étapes sont mises en oeuvre par un calculateur Dec couplé à une caméra Cam et éventuellement à un microphone. Dans la présente demande, le mot calculateur Dec renvoie à un dispositif possédant une mémoire, des fonctions de traitement d’images pour réaliser le suivi d’un ou de plusieurs doigts d’un ou de plusieurs utilisateurs dans les films en provenance de la caméra et des fonctions de traitement du signal pour détecter des mots clefs dans un enregistrement sonore. Préférentiellement, le calculateur est intégré au sein d’un décodeur de télévision numérique capable de décoder des signaux de télévision chiffrés.

La première étape est l’étape de calibrage 101 représentée à la figure 2. Cette étape permet de faire correspondre la zone d’affichage Za à une zone d’interaction de l’utilisateur Zu. La zone d’interaction de l’utilisateur Zu comprend l’ensemble des positions dans lesquelles peut se trouver le doigt d’un utilisateur quand il pointe n’importe quel point de la zone d’affichage Za.

Cette étape de calibrage 101 peut être réalisée par plusieurs utilisateurs en même temps ou les uns après les autres. Ainsi, chaque utilisateur possède sa propre zone d’interaction Zu, prenant en compte son positionnement par rapport à l’écran de télévision numérique.

Durant cette étape, le calculateur Dec affiche un premier point C1 sur la zone d’affichage Za. On entend par point, un point au sens mathématique du terme ou le centre d’une zone pouvant avoir par exemple, une forme circulaire, carrée ou encore en croix. La caméra Cam est alors mise en marche par le calculateur ou par l’utilisateur, enregistre un premier film de calibrage et le transmet au calculateur. D’une manière générale, on entend par film une image ou une pluralité d’images. Le calculateur Dec détecte un doigt d’un utilisateur dans le premier film de calibrage, enregistre une première position PC1 de ce doigt et l’associe à la position du premier point C1. La caméra Cam enregistre ensuite un deuxième film de calibrage et le transmet au calculateur, qui détecte un doigt de l’utilisateur dans le deuxième film de calibrage, enregistre une deuxième position PC2 de ce doigt et l’associe à la position du deuxième point C2. Les premier et deuxième films de calibrage peuvent être deux films distincts, la caméra s’interrompant après le calibrage du premier point C1 et reprenant pour le calibrage du deuxième point C2, ou bien deux sous-parties d’un seul et même film, la caméra filmant en continu pendant toute l’étape de calibrage.

L’étape de calibrage 101 peut être réalisée avec un nombre supérieur de points, par exemple trois points. La zone d’affichage Za est préférentiellement un quadrilatère et plus préférentiellement un rectangle. Elle possède une première dimension X et une deuxième dimension Y qui définissent un repère 2D XY. Les trois points peuvent par exemple être le coin supérieur gauche, le coin inférieur droit et le centre de la zone d’affichage Za, le relevé de la position du centre de la zone d’affichage Za facilitant la gestion de la perspective.

Deux points suffisent si leurs deux coordonnées dans le repère XY sont différentes. Cependant, le calibrage est meilleur quand on utilise au moins trois points. En effet, les deux premiers points servent à calculer la hauteur H_user selon la dimension X et la longueur L_user selon la dimension Y de la zone d’interaction de l’utilisateur Zu. Cette zone est représentée en pointillés, en premier plan sur les figures 3A et 3B. Toutefois, si l’utilisateur n’est pas face au téléviseur, le plan de la zone d’interaction de l’utilisateur Zu peut ne pas être parallèle au plan de la zone d’affichage Za : le relevé de la position d’un troisième point permet alors d’évaluer un angle entre le plan de la zone d’interaction de l’utilisateur Zu et le plan de la zone d’affichage Za. De manière générale, plus le nombre de points à pointer est élevé, plus le calibrage est robuste. L’impact de la profondeur sur les déplacements horizontaux et verticaux du doigt de l’utilisateur est négligeable tant que la variation en profondeur est petite devant la distance téléviseur-utilisateur.

- 12 Durant l’étape de calibrage 101, un suivi est mis en place pour détecter une présence d’un doigt de l’utilisateur et relever sa position. Ce suivi peut être réalisé en utilisant, par exemple un filtre de Kalman ou un filtre de Gauss-Newton récursif. De préférence, le calculateur relève la position d’un point lorsque la position du doigt de l’utilisateur pointé vers le point dont on veut relever la position n’a pas varié de plus d’un certain seuil Δ en valeur absolue pendant un intervalle de temps T. En effet, on considère que le doigt pointe vers la position définitive (X_o, Y_o) si la condition suivante est vérifiée :

Vt t -1₀ < T : d ((X(t),Y(t)), (X_o, Y_o)) < Δ

Où d est l’opérateur de distance euclidienne, t₀ est l’instant où la position suivie du doigt est celle choisie comme celle pointant vers le point dont on veut relever la position, X_o = X(t₀) est l’abscisse en t₀ et Y_o = Y(t₀) est l’ordonnée de t₀. La position (X_o, Y_o) est alors enregistrée et l’on passe au relevé de la position du point suivant. Le seuil Δ peut, par exemple être de 5 cm. L’intervalle de temps T peut, par exemple être compris dans l’intervalle [ 1 s ; 2 s ].

Une fois que les positions des deux points PC1 et PC2 ont été relevées, le calculateur Dec associe ces deux positions respectivement aux points C1 et C2 ce qui lui permet de calculer une correspondance entre la zone d’affichage Za et la zone d’interaction de l’utilisateur Zu. A l’issue de l’étape de calibrage 101, chaque point de la zone d’affichage Za est en correspondance avec un point de la zone d’interaction de l’utilisateur Zu.

Une fois l’étape de calibrage 101 terminée commence l’étape d’affichage interactif. Le suivi du doigt démarre de préférence en même temps que la vidéo mais pourrait aussi démarrer avant. En effet, le suivi est réalisé en continu durant la vidéo en utilisant, par exemple, un filtre de Kalman ou un filtre de Gauss-Newton récursif sur le film pris par la caméra Cam. Préférentiellement, la caméra Cam a déjà été mise en marche par le calculateur ou par l’utilisateur au début de l’étape de calibrage et filme depuis lors mais elle peut également avoir été éteinte à la fin de l’étape de calibrage et être rallumée au début de l’étape d’affichage interactif.

- 13Dans tous les cas, la caméra commence à prendre un film au début de l’étape d’affichage interactif. Le film lors de l’étape d’affichage interactif peut être distinct du ou des films de calibrage, la caméra s’interrompant après l’étape de calibrage et reprenant lors de l’étape d’affichage interactif, ou bien le film de l’étape d’affichage interactif et le ou les films de calibrage peuvent être plusieurs sousparties d’un seul et même film, la caméra filmant en continu. La vidéo continue normalement tant qu’il n’y a pas de mise en pause 103.

L’étape d’affichage interactif peut être réalisée par plusieurs utilisateurs en mettant en place un suivi pour chaque utilisateur.

Selon un mode de réalisation, pour mettre en pause, le calculateur Dec doit détecter la présence d’un doigt de l’utilisateur dans la zone d’affichage Za. De préférence, le calculateur met la vidéo en pause lorsque la position du doigt de l’utilisateur n’a pas varié de plus d’un certain seuil Δ2 en valeur absolue pendant un intervalle de temps T2. Le seuil A2peut être le même ou différent du seuil Δ. Le seuil Δ2 peut, par exemple être de 10 cm. Cet intervalle de temps T2 peut être le même ou différent de l’intervalle de temps T. L’intervalle de temps T2 peut, par exemple être compris dans l’intervalle [ 0,5 s ; 1,5 s ].

Selon un autre mode de réalisation, un microphone capte l’environnement sonore sous forme d’un signal et le transmet au calculateur Dec. Si un mot clef est prononcé, le détecteur met la vidéo en pause 103. Ce mot clef peut être, par exemple « pause >>.

La détection de mots clefs peut par exemple être effectuée par un algorithme de programmation dynamique basé sur la normalisation du temps ou un algorithme WUW (pour « Wake-Up-Word >>).

Une fois mise en pause 103, la vidéo s’arrête. Selon un mode de réalisation, pour sélectionner un ou plusieurs mots 104, un doigt de l’utilisateur marque un seul arrêt dans la zone d’affichage Za. La position pointée sur l’écran est estimée à l’aide de la position du doigt filmé par la caméra Cam et de données obtenues pendant l’étape de calibrage 101. En effet, la hauteur H_user et la longueur L_user de la zone d’interaction de l’utilisateur Zu permettent de calculer un coefficient de sensibilité horizontale a et un coefficient de sensibilité verticale β avec les

- 14formules suivantes :

L_Tv ^a= ΪΓⁿuser _p= Hw ⁿuser

Où L_TV est la longueur de la zone d’affichage Za et H_TV est la hauteur de la zone d’affichage Za. La zone d’affichage Za est toujours la même, par exemple le quart inférieur du téléviseur. De plus, la position de chaque point de la zone d’affichage Za pointé pendant l’étape de calibrage 101 est associée à la position du doigt qui le pointe. Ainsi, la position du point Οΐζχ-ργί) de la zone d’affichage Za pointé pendant l’étape de calibrage 101 est associée à la position PCICX^YJ du doigt pointant vers ce point. Si on estime la position du doigt filmé par la caméra Cam à (X-l + dx, Yi + dy), la position pointée sur l’écran sera (x_x + a * dx,y_x + β * dy). Chaque mot correspondant virtuellement à un rectangle sur l’écran, le rectangle correspondant à la position (x_x + a * dx, y_x + β * dy) est sélectionné. Ce cas est illustré à la figure 3A. L’utilisateur fait bouger son doigt dans la zone d’interaction Zu représentée en pointillés, de hauteur H_user et de longueur L_user. Une correspondance est établie entre la position du doigt de l’utilisateur et une position sur l’écran proche du mot « bonjour >> qui est ainsi sélectionné.

De préférence, le calculateur relève la position (X_x + dx, Y_x + dy) lorsque la position du doigt de l’utilisateur n’a pas varié de plus d’un certain seuil en valeur absolue pendant un certain intervalle de temps. Ce seuil peut être le même ou différent du seuil Δ et/ou du seuil Δ2. Cet intervalle de temps peut être le même ou différent de l’intervalle de temps T et/ou de l’intervalle de temps T2.

En marquant un seul arrêt dans la zone d’affichage Za, l’utilisateur peut sélectionner plusieurs mots si par exemple, le calculateur est paramétré pour sélectionner un ou plusieurs mots adjacents du mot pointé ou si la commande gestuelle est utilisée en combinaison avec une commande vocale, par exemple, l’utilisateur dit « deux >> pour sélectionner le mot pointé et les deux suivants.

- 15Selon un autre mode de réalisation, pour sélectionner un ou plusieurs mots 104, le doigt de l’utilisateur effectue un mouvement après la première station prolongée et marque un deuxième arrêt une fois le mouvement terminé. Si la position de la première station prolongée est différente de celle de la deuxième station prolongée, le calculateur interprète préférentiellement le fait que le doigt pointe l’endroit du début de la sélection puis l’endroit de la fin de la sélection. Ce cas est illustré aux figures 3A et 3B. L’utilisateur fait bouger son doigt dans la zone d’interaction Zu. Sur la figure 3A, le doigt marque un premier arrêt à la position PS1 qui pointe un premier mot « bonjour >>. Le premier mot « bonjour >> est alors sélectionné ce qui se matérialise par un encadrement du mot. Le doigt réalise ensuite un mouvement linéaire avant de marquer un deuxième arrêt à la position PS2 qui pointe un deuxième mot « monsieur >> sur la figure 3B. Le deuxième mot est alors ajouté à la sélection ce qui se matérialise par un élargissement de l’encadrement précédent pour englober les deux mots. Les premier et deuxième mots peuvent se suivre ou être séparés par un ou plusieurs autres mots. Le calculateur est capable de dessiner un encadrement ou une zone de contour en sélectionnant tous les mots entre le premier et le deuxième mot même si le premier et le deuxième mot ne sont pas sur la même ligne de sous-titre.

Si la position de la première station prolongée est la même que celle de la deuxième station prolongée, le calculateur interprète préférentiellement le cas où le doigt de l’utilisateur a entouré la sélection.

En parallèle, des mots clefs prononcés par un utilisateur et enregistrés par un microphone peuvent permettre par exemple de commencer, recommencer ou encore finir le dessin de la zone de contour du ou des mots à sélectionner. Un mot clef peut être par exemple « recommencer >>.

Avantageusement, l’étape de sélection est réalisée au moins partiellement par une commande gestuelle, ce qui procure un meilleur confort pour l’utilisateur en lui évitant une étape fastidieuse et/ou difficile, par exemple dire un mot dont il n’est pas sûr de la prononciation avec le risque que sa commande ne soit pas comprise par le calculateur, ou compter la position du premier mot qu’il souhaite sélectionner puis compter la position du dernier mot qu’il souhaite sélectionner ou

- 16bien compter le nombre de mots de la sélection. Ainsi, on permet que la durée de l’étape de sélection soit significativement diminuée et on contribue à ce que l’utilisateur garde le fil de son visionnage. De plus, les commandes gestuelles sont plus robustes que les commandes vocales : pour détecter un mot clef, il faut que le fond sonore soit suffisamment bas et de préférence que personne d’autre que l’utilisateur ne parle au risque de déclencher des commandes involontaires. En particulier, la commande vocale est peu adaptée à un mode multiutilisateur. Au contraire, l’introduction d’une commande gestuelle permet de donner un point de départ à la sélection, la rendant plus précise et plus rapide même combinée avec une commande vocale, ce qui permet de ne pas dégrader le visionnage.

Pour améliorer le pointage, une aide visuelle peut être rajoutée en surimpression sur l’écran pour indiquer à l’utilisateur quelle est la position actuelle estimée pour le pointage de son doigt. Cette aide visuelle peut par exemple être un point de couleur, par exemple rouge ou vert. Chaque utilisateur pourra avoir un pointeur de couleur différente. Cette aide visuelle peut être mise en place à partir du démarrage de la vidéo 102 ou seulement pendant que la vidéo est mise en pause 103.

Une fois la sélection 104 terminée, elle est validée par l’utilisateur. Selon un mode de réalisation, la validation s’effectue par une commande gestuelle. Par exemple, l’utilisateur pointe une zone de validation étant une partie de la zone d’affichage Za où est indiqué par exemple le mot « validation >>.

Selon un autre mode de réalisation, la validation s’effectue par une commande vocale. Par exemple, l’utilisateur prononce le mot clef « validation >>.

Une fois la sélection 104 validée, plusieurs actions peuvent être réalisées avec le ou les mots sélectionné(s) comme par exemple une traduction ou l’ajout de la sélection à une liste accompagnée de données concernant par exemple, la vidéo d’où elle a été extraite ou encore le moment de la vidéo auquel elle a été extraite. Selon un premier mode de réalisation, une liste d’options d’actions est affichée à l’écran, chaque option possédant une zone d’action étant une partie de la zone

- 17d’affichage Za. Un doigt de l’utilisateur marque un arrêt sur la zone d’action correspondant à l’action qu’il souhaite réaliser avec la sélection précédemment validée. Plusieurs actions peuvent être successivement sélectionnées.

Selon un deuxième mode de réalisation, chaque action est associée à un geste particulier, par exemple lever le pouce correspond à une traduction de la sélection. Il faut donc réaliser le geste associé à l’action pour choisir de réaliser cette action. Selon un troisième mode de réalisation, un mot clef d’action est prononcé. Par exemple, l’utilisateur prononce le mot clef « traduction >>.

Selon un quatrième mode de réalisation, une action a été préconfigurée au préalable et cette action sera donc réalisée automatiquement pour chaque sélection.

Pour chaque action réalisée, un message de confirmation de l’exécution de l’action pourra apparaître à l’écran.

Une fois que les actions choisies 105 ont été effectuées, on choisit un retour à l’écran de sélection ou une reprise de la vidéo.

Pour retourner à l’écran de sélection :

- selon un premier mode de réalisation, un doigt de l’utilisateur marque un arrêt sur une zone de retour étant une partie de la zone d’affichage Za où est indiqué par exemple le mot « retour >> ;

- selon un autre mode de réalisation, le retour s’effectue par une commande vocale. Par exemple, l’utilisateur prononce le mot clef « retour >>.

Une fois de retour sur l’écran de sélection, une deuxième sélection peut être réalisée en effectuant les mêmes étapes que précédemment.

Pour reprendre la vidéo :

- selon un premier mode de réalisation, un doigt de l’utilisateur marque un arrêt sur une zone de reprise étant une partie de la zone d’affichage Za où est indiqué par exemple le mot « reprise >> ;

- selon un autre mode de réalisation, la reprise s’effectue par une commande vocale. Par exemple, l’utilisateur prononce le mot clef « reprise >>.

La vidéo reprend alors là où elle s’était arrêtée.

Toutes les étapes précédemment décrites sont mises en oeuvre par le deuxième aspect de l’invention qui concerne un dispositif comportant un calculateur Dec et une caméra Cam.

Le calculateur Dec est lié à un téléviseur par une liaison filaire ou non filaire ce qui lui permet d’afficher des consignes sur un écran de télévision numérique.

Selon un mode de réalisation, le calculateur Dec est lié à la caméra Cam par une liaison filaire ou non filaire.

Selon un autre mode de réalisation, la caméra Cam est intégrée dans le calculateur Dec. La caméra Cam peut par exemple être une webcam. La caméra Cam filme l’environnement et transmet des images au calculateur Dec qui est capable de réceptionner les films et les enregistrer.

Le calculateur Dec peut être également lié à un microphone par une liaison filaire ou non filaire. Le microphone capte son environnement sonore sous forme de signaux et les transmet au calculateur Dec sous forme numérique. Le calculateur Dec est capable de réceptionner le signal et de l’enregistrer.

Le calculateur possède des fonctions de traitement d’images pour réaliser le suivi d’un ou de plusieurs doigts d’un ou de plusieurs utilisateurs ainsi que des fonctions de traitement du signal pour détecter des mots clefs dans un enregistrement sonore.

Le troisième aspect de l’invention concerne un produit-programme d’ordinateur permettant de mettre en oeuvre le procédé 100 selon un premier aspect de l’invention.

Le produit-programme d’ordinateur permet l’affichage de consignes sur l’écran de télévision pour la réalisation des étapes. Par exemple, il affiche à l’écran les points qu’il faut pointer pendant l’étape de calibrage 101. Il réalise également le suivi des doigts des utilisateurs et la détection de mots clefs.

Le quatrième aspect de l’invention concerne un support d’enregistrement sur lequel est enregistré le produit-programme d’ordinateur selon un troisième aspect

-19 de l’invention.

Claims

REVENDICATIONS

1. Procédé (100) d’interaction avec un sous-titre affiché dans une zone d’affichage (Za) d’un écran de télévision numérique, la zone d’affichage (Za) possédant une première dimension X et une deuxième dimension Y distincte de la première dimension X, le procédé (100) comportant :

- une étape de calibrage (101 ) selon laquelle :

• un calculateur (Dec) affiche un premier point (C1) de cordonnées (xi ; y-ι) dans la zone d’affichage (Za) ; une caméra (Cam) fait un premier film de calibrage d’un environnement et transmet le premier film de calibrage au calculateur (Dec) ; le calculateur (Dec) enregistre le premier film de calibrage, détecte une première position (PC1) d’un doigt d’un utilisateur dans le premier film de calibrage et associe la première position (PC1) détectée au premier point (C1) ;

• le calculateur (Dec) affiche un deuxième point (C2) de cordonnées (X2 ; y2) dans la zone d’affichage (Za), les coordonnées (X2 ; y2) étant telles que X2 est différent de xi et y2 est différent de yi ; la caméra (Cam) fait un deuxième film de calibrage de l’environnement et transmet le deuxième film de calibrage au calculateur (Dec) ; le calculateur (Dec) enregistre le deuxième film de calibrage, détecte une deuxième position (PC2) d’un doigt de l’utilisateur dans le deuxième film de calibrage, la deuxième position (PC2) étant différente de la première position (PC1), et associe la deuxième position (PC2) détectée au deuxième point (C2) ;

• le calculateur (Dec) calcule une correspondance entre la zone d’affichage (Za) et une zone d’interaction de l’utilisateur (Zu) ;

- une étape d’affichage interactif d’une vidéo sous-titrée sur l’écran de télévision numérique selon laquelle la vidéo sous-titrée est affichée sur l’écran de télévision numérique (102) et :

• la caméra (Cam) fait un film de l’environnement et transmet le film au calculateur (Dec) ; le calculateur (Dec) enregistre le film et détecte une présence d’un doigt de l’utilisateur dans le film ; et/ou • un microphone capte un environnement sonore sous forme d’un signal et transmet le signal au calculateur (Dec) ; le calculateur (Dec) enregistre le signal et détecte un mot-clef dans le signal.
2. Procédé (100) selon la revendication 1, caractérisé en ce que l’étape d’affichage interactif comporte une mise en pause de la vidéo (103) suivie d’une reprise de la vidéo ou d’une sélection (104) d’un ou plusieurs mots d’un sous-titre affiché à l’écran.
3. Procédé (100) selon la revendication 2, caractérisé en ce que la mise en pause de la vidéo (103) est réalisée :

- par une commande vocale selon laquelle le microphone capte l’environnement sonore sous forme d’un signal et transmet le signal au calculateur (Dec) ; le calculateur (Dec) enregistre le signal et détecte un mot-clef de mise en pause ; ou

- par une commande gestuelle selon laquelle le calculateur (Dec) détecte une présence d’un doigt de l’utilisateur dans le film.
4. Procédé (100) selon l’une quelconque des revendications 2 ou 3, caractérisé en ce que l’étape de sélection (104) est réalisée par une commande gestuelle selon laquelle le calculateur (Dec) détecte dans le film une première station prolongée d’un doigt de l’utilisateur en une première position (PS1) de la zone d’affichage (Za).
5. Procédé (100) selon la revendication précédente caractérisé en ce que dans la commande gestuelle, le calculateur (Dec) détecte dans le film la première station prolongée suivie d’un mouvement puis d’une deuxième

- 22 station prolongée d’un doigt de l’utilisateur en une deuxième position (PS2) de la zone d’affichage (Za), les première (PS1) et deuxième positions (PS2) étant distinctes ou confondues.
6. Procédé (100) selon l’une quelconque des revendications 4 ou 5 caractérisé en ce que l’étape de sélection (104) est réalisée par la commande gestuelle uniquement ou bien par une combinaison de la commande gestuelle et d’une commande vocale selon laquelle le microphone capte l’environnement sonore sous forme d’un signal et transmet le signal au calculateur (Dec) et le calculateur (Dec) enregistre le signal et détecte un mot-clef de sélection.
7. Procédé (100) selon la revendication 2 à 6, caractérisé en ce que l’étape d’affichage interactif comporte une validation de la sélection réalisée :

- par une commande gestuelle selon laquelle le calculateur (Dec) détecte dans le film une station prolongée d’un doigt de l’utilisateur dans une zone de validation ; ou

- par une commande vocale selon laquelle le microphone capte l’environnement sonore sous forme d’un signal et transmet le signal au calculateur (Dec) et le calculateur (Dec) enregistre le signal et détecte un mot-clef de validation.
8. Procédé (100) selon la revendication 2 à 7, caractérisé en ce que l’étape d’affichage interactif comporte le choix d’une action à effectuer (105) avec la sélection réalisé :

- par une commande gestuelle selon laquelle :

• le calculateur (Dec) détecte dans le film une station prolongée d’un doigt de l’utilisateur dans une zone d’action ; ou • le calculateur (Dec) détecte dans le film un geste particulier correspondant à une action à réaliser ; ou

- par une commande vocale selon laquelle le microphone capte l’environnement sonore sous forme d’un signal et transmet le signal au

-23calculateur (Dec) et le calculateur (Dec) enregistre le signal et détecte un mot-clef d’action à réaliser.
9. Dispositif d’interaction avec un sous-titre affiché dans une zone d’affichage d’un écran de télévision numérique, caractérisé en ce qu’il comporte un calculateur (Dec) et une caméra (Cam), la caméra comportant des moyens de faire des films et de les transmettre au calculateur (Dec), le calculateur (Dec) comportant :

- des moyens d’affichage sur l’écran de télévision numérique,

- des moyens de réception et d’enregistrement de films transmis par la caméra (Cam),

- des moyens de traitement d’images et de calcul.
10. Produit programme d’ordinateur comprenant des instructions qui, lorsque le programme est exécuté par un ordinateur, conduisent celui-ci à mettre en oeuvre le procédé (100) selon la revendication 1.
11. Support d’enregistrement lisible par ordinateur comprenant des instructions qui, lorsqu’elles sont exécutées par un ordinateur, conduisent celui-ci à mettre en oeuvre le procédé (100) selon la revendication 1.