EP4169245A1

EP4169245A1 - Methodes pour la production d'effets d'immersion visuelle pour un contenu audiovisuel

Info

Publication number: EP4169245A1
Application number: EP21732294.0A
Authority: EP
Inventors: Jérôme DEMOULIN
Original assignee: Cgr Cinemas
Current assignee: Cgr Cinemas
Priority date: 2020-06-18
Filing date: 2021-06-14
Publication date: 2023-04-26
Also published as: MX2022016537A; WO2021254957A1; FR3111724A1; US20230224442A1; FR3111724B1

Abstract

Procédé pour la production d'effets d'immersion visuelle pour un contenu audiovisuel et un contenu sonore associé à l'image vidéo, ce procédé comprenant les étapes d'extraction d'un arrière-plan d'une image vidéo du contenu audiovisuel; de sélection d'une zone d'extrémité située à une extrémité de l 'arrière-plan extrait; de détermination d'un état sémantique d'un contenu sonore associé à l'image vidéo, et d'application d'un traitement d'image prédéfini sur la zone d'extrémité sélectionnée pour générer au moins une trame visuelle destinée à être affichée dans le champ de vision périphérique (9) d'un spectateur (6) lors de la projection de l'image vidéo dans le champ de vision central (8) du spectateur (6), le traitement d'image prédéfini étant lié à l'état sémantique déterminé du contenu sonore.

Description

Titre : Méthodes pour la production d’effets d’immersion visuelle pour un contenu audiovisuel

[0001] La présente invention a trait aux méthodes de production d'effets d'immersion visuelle pour un contenu audiovisuel tel qu'un film.

[0002] La stimulation de la vision périphérique est un des principaux facteurs favorisant un sentiment d'immersion chez un spectateur placé face à un écran. Il est, en effet, généralement admis que, pour avoir l'impression d'être dans une image plutôt que devant une image, le champ visuel du spectateur doit être stimulé dans sa quasi-totalité.

[0003] Pour cela, des trames visuelles déduites du contenu audiovisuel en projection sont affichées de part et d'autre d'un écran frontal de façon à couvrir aussi le champ de vision périphérique du spectateur.

[0004] Toutefois, compte tenu des sensibilités spécifiques de la vision périphérique, une attention particulière est à porter au contenu de ces trames visuelles. La vision périphérique est, en effet, passive et particulièrement sensible aux contrastes et aux mouvements. Un contenu périphérique inadapté (de fort contraste par rapport à ce qui est affiché dans le champ de vision central, ou présentant un mouvement brusque par exemples) peut détourner l'attention du spectateur de l'image vidéo en projection sur l'écran frontal, ce qui amenuise, voire annihile, l'effet d'immersion. Le contenu de ces trames visuelles, qui échappe à l'analyse directe du spectateur, doit être défini de façon à améliorer au mieux son expérience immersive.

[0005] A titre d’état de la technique, on peut prendre en considération US2006/2683 qui décrit un procédé qui génère en temps réel les trames visuelles à destination des écrans en se basant sur le contenu diffusé sur l'écran et l'atmosphère de la salle. Pour cela, selon US2006/2683, on a besoin d'accéder au contenu vidéo et audio à la diffusion.

[0006] Selon l’invention, les "effets d'immersion visuelle" sont préparés et construits en amont de la projection et ne sont pas à confondre avec le contenu joué sur les médiums. Ces effets forment une collection permettant aux équipes créatives de générer les contenus finaux utilisant la «palette» d’effets.

[0007] La génération de cette palette permet un gain énorme de temps dans la réalisation des contenus,

[0008] US2006/2683 présente les inconvénients suivants que ne présente pas le procédé selon la présente invention, dont, le besoin de métadonnées pour identifier des éléments d'images, comme le background (voir § [0046][0047][0061] }, ou la nécessité de capter le flux de données en temps réel (voir § [0044][0045][0048] } puisque non accessible dans le contexte d'exploitation cinématographique et que le traitement se fait en amont. Aussi, ce document (voir § [0049]- [0052], [0058], [0081] est-il d’un usage limité à la projection d'image sur des murs physiques, alors que selon l’invention il est possible d'alimenter des appareils d'affichage ou lumineux

[0009] Le système selon la présente invention permet d'afficher un contenu visuel sur différents médiums (par exemple panneaux physiques, ou environnement virtuel en simulation 3D, etc... ) en se synchronisant temporellement avec des lecteurs multimédias encryptés sans avoir accès au contenu joué.

[0010] Un objet de la présente invention est de proposer des trames visuelles favorisant au mieux une expérience immersive basée sur la perception visuelle périphérique.

[0011] En fait, l’invention permet de générer les effets immersifs en amont de la projection, ce que ne permettent pas d’obtenir les procédés et appareillages mis en œuvre jusqu’à présent.

[0012] Un autre objet de la présente invention est de générer, pour un contenu audiovisuel donné, une bibliothèque d'effets d'immersion visuelle permettant la création d'un script d'immersion visuelle pour ce contenu.

[0013] Un autre objet de la présente invention est de pouvoir générer automatiquement, pour un film donné, un script d'immersion visuelle destiné à stimuler la vision périphérique du spectateur lors de la projection de ce film.

[0014] A cet effet, il est proposé, en premier lieu, un procédé pour la production d'effets d'immersion visuelle pour un contenu audiovisuel intégrant une image vidéo et un contenu sonore associé à l’image vidéo, ce procédé comprenant les étapes suivantes:

- extraction d'un arrière-plan de l’image vidéo;

- sélection d'une première zone d'extrémité située à une première extrémité de l'arrière-plan extrait;

- détermination d’un état sémantique du contenu sonore ; - application d'un traitement d'image prédéfini à la première zone d'extrémité sélectionnée pour générer au moins une trame visuelle destinée à être affichée dans le champ de vision périphérique d'un spectateur lors de la projection de l'image vidéo dans le champ de vision central du spectateur, le traitement d’image prédéfini étant lié à l’état sémantique déterminé du contenu sonore.

[0015] Diverses caractéristiques supplémentaires peuvent être prévues, seules ou en combinaison :

- le procédé comprend, en outre, une étape de détermination d’un paramètre sonore du contenu sonore, le traitement d’image prédéfini étant lié au paramètre sonore déterminés du contenu sonore ;

- le paramètre sonore est choisi parmi une liste comprenant une hauteur sonore, une durée sonore, une intensité sonore, un timbre sonore, et/ou une directivité sonore ;

- le traitement d'image prédéfini comprend un réglage de l'ambiance colorimétrique de la première zone d'extrémité sélectionnée ;

- le traitement d’image prédéfini comprend une restitution de l’ambiance colorimétrique moyenne de la première zone d’extrémité sélectionnée ; - le traitement d'image prédéfini comprend une modification de la luminosité d'au moins une couleur dans la première zone d'extrémité sélectionnée ;

- le traitement d'image prédéfini comprend une application d'un effet de flou ;

- le procédé comprend, en outre, une étape de sélection d'une deuxième zone d'extrémité située à une deuxième extrémité de l'arrière-plan extrait, la deuxième extrémité étant opposée à la première extrémité, une étape d’application dudit traitement d'image prédéfini à la deuxième zone d'extrémité sélectionnée ;

- une pluralité de trames visuelles différentes intégrant ladite au moins une trame visuelle est générée à partir de la première zone d'extrémité ;

- le procédé comprend, en outre, une étape d’extraction d'un premier plan de l'image vidéo, une étape de détection d'un faisceau lumineux dans le premier plan extrait, une étape de détermination d'une direction du faisceau lumineux détecté, une étape de génération d'une donnée de commande pour commander une source de lumière apte à générer un faisceau de lumière dans une direction associée à la direction déterminée ;

- le procédé comprend, en outre, une étape de génération d'un script d'immersion visuelle intégrant la trame visuelle ;

- le script d'immersion visuelle comprend, en outre, la donnée de commande,

- la donnée de commande est interprétable par un lecteur de script sous toute forme qu’elle soit logicielle, matérielle, firmware ou une combinaison de ces formes.

- le procédé comprend, en outre, une étape d’adjonction du script d’immersion visuelle au contenu audiovisuel ;

- le procédé comprend, en outre, une étape de lecture du script d’immersion visuelle dans un environnement virtuel en simulation 3D.

[0016] Il est proposé, en deuxième lieu, un produit programme d’ordinateur implémenté sur un support mémoire, susceptible d’être mis en œuvre au sein d’une unité de traitement informatique et comprenant des instructions pour la mise en œuvre du procédé présenté ci-dessus.

[0017] D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement et de manière concrète à la lecture de la description ci-après de modes de réalisation, laquelle est faite en référence aux dessins annexés dans lesquels :

[0018] la figure [Fig. l] illustre schématiquement une image vidéo d'un contenu audiovisuel ;

[0019] la figure [Fig.2] illustre schématiquement un fond de l'image vidéo;

[0020] la figure [Fig.3] illustre schématiquement des obj ets d'intérêt d’un premier plan de l'image vidéo;

[0021] la figure [Fig.4] illustre schématiquement des étapes d'un procédé pour la production d’effets d’immersion visuelle selon divers modes de réalisation ;

[0022] la figure [Fig.5] illustre schématiquement la stimulation de la vision périphérique lors de la proj ection d’un contenu audiovisuel selon divers modes de réalisation ;

[0023] la figure [Fig.6] illustre schématiquement des modules intervenant dans la production de scripts d’immersion visuelle selon divers modes de réalisation.

[0024] En se référant à la figure 1, il est affiché une image vidéo 1 d'un contenu audiovisuel destiné à être affiché sur un écran 2 frontal disposé face au spectateur. Ce contenu audiovisuel est, par exemple, une œuvre cinématographique, ou un film vidéo destiné à être affiché/projeté sur un écran d'affichage disposé sur une paroi frontale d'un cinéma.

[0025] L’image vidéo 1 comprend un arrière-plan 3 (ou un fond) et un premier plan 4 L'arrière-plan 3 correspond à la scène, le décor ou l'environnement dans lequel se trouvent ou évoluent un ou plusieurs obj ets 41 de premier plan. Le premier plan 4 comprend des objets 41 d'intérêt présents ou évoluant dans l'environnement représenté par l'arrière-plan 3. Un arrière-plan 3 est, en effet, généralement indexé sur la présence d'au moins un objet 41 ou un sujet, dit d'intérêt, de premier plan sur lequel il est attendu que l'attention du spectateur porte. En l'absence d'objets 41 de premier plan, tout le contenu de l'image vidéo 1 peut, dans un mode de réalisation, être considéré comme étant l'arrière-plan 3.

[0026] La décomposition ou la segmentation du contenu d'une image vidéo 1 en un arrière-plan 3 et un premier plan 4 peut être obtenue par toute méthode connue de l'état de l'art permettant l'extraction de l'arrière-plan 3 et/ou du premier plan 4. Ces méthodes comprennent, par exemples, les méthodes de soustraction de fond (ou, de manière équivalente, de premier plan), les méthodes d'extraction d'objet, les méthodes de recherche de contours en mouvement (le flot optique ou le Block-Matching par exemples), ou des méthodes basées sur l'apprentissage automatique profond (dit, en anglais, « deep learning»). Dans un mode de réalisation, l'extraction du premier plan 4 et/ou de l'arrière-plan 3 de l'image vidéo 1 comprend une étape de comparaison de cette image vidéo 1 aux images vidéo précédentes et/ou suivantes du contenu audiovisuel.

[0027] Dans un mode de réalisation, l’extraction d’un arrière- plan 3 et/ou d’un objet 41 de premier plan de l’image vidéo 1 est basée sur la psychologie de la forme (plus connue sous le nom de « la théorie de la forme » ou « la théorie de la Gestalt ») appliquée à la perception visuelle du spectateur.

[0028] En percevant l’image vidéo 1, le spectateur isole une partie qui devient un objet 41 de premier plan sur lequel porte son attention, et un reste de l’image vidéo 1 qui devient un arrière-plan 3. L’arrière-plan 3 est relativement indifférencié par le spectateur qui lui paraît s’étendre (par un effet de localisation subjective) sous les objets 41 de premier plan au-delà des contours qui limitent ceux-ci ou des parties de ceux-ci. Cette distinction résulte de l’application d’une ou plusieurs lois de la théorie de la Gestalt telles que - la loi de proximité selon laquelle les éléments les plus proches dans une image vidéo 1 sont considérés comme étant perçus par le spectateur comme appartenant à un même groupe du premier plan 4 ou de l’arrière-plan 3 ;

- la loi de similarité selon laquelle les éléments ayant le plus de similarités graphiques (forme, couleur, orientation par exemples) dans une image vidéo 1 sont supposés induire chez le spectateur un sens identique, des fonctions similaires ou une importance commune ;

- la loi de continuité selon laquelle plus la proximité de certains éléments visuels dans l’image vidéo 1 est importante, plus ils sont perçus par le spectateur dans la continuité comme s’ils font partie d’un même ensemble de l’arrière-plan 3 ou du premier plan 4 ;

- la loi de destin commun selon laquelle des éléments en mouvement suivant une même trajectoire sont perçus par le spectateur comme faisant partie d’un même ensemble du premier plan 4 ou de l’arrière- plan 3.

[0029] Ainsi, l'image vidéo 1 est décomposée en un premier plan 4 et un arrière-plan 3 (ou un fond 3) . Plus généralement, un premier plan 4 et un arrière-plan 3 sont associés à chaque image vidéo 1 du contenu audiovisuel.

[0030] Des zones 31 (ou région) d'extrémité sont sélectionnées de l'arrière-plan 3 de l'image vidéo 1. Dans l'exemple de la figure 2, ces zones 31 d'extrémité sont deux zones situées aux extrémités latérales (droite et gauche) de l'arrière-plan 3. En combinaison ou en alternative, ces zones 31 d'extrémité peuvent comprendre une zone d'extrémité inférieure et/ou une zone d'extrémité supérieure de l'arrière-plan 3.

[0031] Une zone 31 d'extrémité est, dans un mode de réalisation, une bande s'étendant depuis un bord de l'arrière-plan 3 vers son centre jusqu'à une distance prédéfinie. Dans un autre mode de réalisation, une zone 31 d'extrémité de l'arrière-plan 3 a une forme générale rectangulaire qui couvre une région en bordure de l'arrière-plan 3 ou, de manière générale, une région comprenant un bord de l'arrière-plan 3 Les dimensions et/ou la forme d'une zone 31 d'extrémité peuvent être fixes ou variables d'une image vidéo 1 à une autre.

[0032] Dans un mode de réalisation, une première zone 31 d’extrémité et une deuxième zone 31 d’extrémité situées, respectivement, à une première extrémité et une deuxième extrémité opposées de l’arrière-plan 3 (gauche et droite et/ou inférieure et supérieure par exemples) sont sélectionnées.

[0033] Les zones 31 d'extrémité sélectionnées d'un même arrière- plan 3 peuvent être de forme et/ou de dimensions différentes. Dans un mode de réalisation, deux zones 31 d'extrémité opposées d'un arrière- plan 3 ont la même forme et/ou les mêmes dimensions. Dans un autre mode de réalisation, la sélection d'une pluralité de zones 31 d'extrémité situées à une même extrémité d'un même arrière-plan 3 et étant de différentes forme et/ou dimensions peut être envisagée.

[0034] Par exemple, lorsque la taille de l'arrière-plan 3 (ou, de manière équivalente, de l'image vidéo 1) est de 2048x1152, une première zone 31 d'extrémité gauche de 0 à 360 pixels par 858 lignes et une deuxième zone 31 d'extrémité droite de 1688 à 2048 par 858 lignes sont sélectionnées.

[0035] Un traitement d'image est appliqué à chaque zone 31 d'extrémité sélectionnée de l'arrière-plan 3 pour générer des trames visuelles destinées à être affichées dans le champ de vision périphérique du spectateur lors de la projection de l'image vidéo 1 dans le champ de vision central du spectateur. Ce traitement d'image comprend l'application d'effets graphiques, des opérations de découpage, de recadrage (ou de rognage), de redimensionnement non proportionnel, et/ou de transformations (ou déformations) géométriques.

[0036] A titre d'exemples non exhaustifs, les effets graphiques, généralement mis en œuvre aux moyens de filtres paramétrables, comprennent

- des effets de flou tels qu'un flou artistique (de type le "Bokeh", le flou de bougé, ou le flou cinétique), un flou de profondeur de champ (ou un flou d'arrière-plan), un flou directionnel, un fou radial, un flou gaussien, ou un flou composite;

- des effets de netteté tels que l'adaptation de la profondeur de couleur, la résolution, la définition et/ou l'accentuation;

- des effets colorimétriques permettant d'adapter, à la vision périphérique, par exemples, la teinte des couleurs, le ton clair/foncé, la saturation des couleurs, la couleur centrale, la correspondance entre les couleurs, la température des couleurs, la texture, la balance des couleurs, la réplication chromatique (ou la réplication RVB moyen), et/ou les courbes/histogrammes des couleurs de la zone sélectionnée ;

- une modification de la luminosité d’au moins une couleur en adaptant le contraste, Thistogramme ou la courbe de la luminosité, la balance des blancs, les ombres, ou le ton clair/sombre.

[0037] Dans un mode de réalisation, le traitement d’image comprend un réglage de l'ambiance colorimétrique (via la balance des couleurs, ou un correcteur chromatique tridirectionnel par exemples) de la zone 31 d'extrémité sélectionnée. Pour cela, des effets colorimétriques sont appliqués à la zone 31 d'extrémité sélectionnée de façon à générer une trame visuelle ayant une certaine ambiance colorimétrique. On entend, ici, par ambiance colorimétrie (ou colorimétrie) la teinte générale que l’on perçoit d’une trame visuelle. Cette ambiance colorimétrique est, par exemple, à dominante une couleur prédéfinie.

[0038] Dans un mode de réalisation, le traitement d’image appliqué à la zone 31 d'extrémité sélectionnée comprend une restitution de l’ambiance colorimétrique moyenne (ou couleur RVB moyenne, c.à.d. la moyenne de chacune des composantes Rouge, Vert, Bleu)

- de cette première zone 31 d’extrémité sélectionnée, ou

- de l'arrière-plan 3 de l’image vidéo 1, ou

- de l’arrière-plan 3 de l’image vidéo let de l’arrière-plan d’une image vidéo suivante et/ou précédente à l’image vidéo 1 dans le contenu audiovisuel ; ou - de la première zone 31 d’extrémité sélectionnée et d’une première zone 31 d’extrémité correspondante sélectionnée à partir de l’arrière- plan d’une image vidéo suivante et/ou précédente à l’image vidéo 1 dans le contenu audiovisuel.

[0039] Dans un mode de réalisation, le traitement d'image appliqué à une zone 31 d'extrémité est corrélé ou lié à un contenu sonore du contenu audiovisuel. Ce traitement d'image est, par exemple, lié à un état sémantique et/ou à un paramètre sonore d’un contenu sonore associé à l’image vidéo 1. Un état sémantique et/ou un paramètre sonore sont donc déterminés pour un contenu sonore associé à l’image vidéo 1.

[0040] Un état sémantique d’un contenu sonore est une description sémantique (ou une description de la signification) d’un segment sonore. Un contenu sonore est apte à véhiculer beaucoup d’informations sémantiques. Cet état sémantique est, par exemple, un sens attribué au contenu sonore ou une expression de sentiments/émotions telle qu’une joie, une tristesse, une colère, une peur, un encouragement ou, plus généralement, tout événement d’intérêt sonore. Il en résulte, avantageusement, une interprétation visuelle de l’état sémantique de l’espace sonore du contenu audiovisuel.

[0041] Un état sémantique d’un contenu sonore est, dans un mode de réalisation, déterminé suite à une classification sémantique, selon des taxonomies prédéfinies, basée sur des objets sonores (extrait musical, rire, applaudissement, parole, cri par exemples) de ce contenu sonore et/ou une description textuelle du contenu sonore (une transcription de la parole par exemple). Dans un mode de réalisation, la classification sémantique du contenu sonore est, en outre, basée sur une classification sémantique d’obj ets visuels de l’image vidéo 1, notamment la reconnaissance d’un objet visuel de l’arrière-plan 3 et/ou un objet 41 de premier plan. La reconnaissance d’un obj et visuel de l’image vidéo 1 permet, avantageusement, d’estimer la source du contenu sonore et/ou le contexte sonore de l’image vidéo 1 et, par conséquent, améliorer l’état sémantique déterminée du contenu sonore.

[0042] Dans un mode de réalisation, un traitement d’image appliqué à une zone 31 d'extrémité sélectionnée comprend un réglage de son ambiance colorimétrique en fonction de l’état sémantique déterminé du contenu sonore associé à l’image vidéo 1. Par exemple, cette ambiance colorimétrique est à dominante la couleur rose lorsque l’état sémantique déterminé est le « romantisme », ou la couleur blanche lorsque l’état sémantique déterminé est le « bonheur ».

[0043] Le paramètre sonore est, dans un mode de réalisation, choisi parmi les paramètres physiques du contenu sonore intégrant une hauteur sonore (un son grave / aigu ou, plus généralement, une fréquence), une durée sonore (un son court / long), une intensité sonore (ou volume), un timbre sonore, et/ou une directivité sonore.

[0044] A titre d'illustration, le traitement d’image comprend l'application d'un effet graphique corrélé à l'intensité sonore et/ou à la durée sonore d’un segment sonore associé à l'image vidéo 1 en projection. Ce traitement d’image est, par exemple, un effet d'éclairage ou, de façon générale, une modification de la luminosité d'au moins une couleur dans la zone 31 d'extrémité sélectionnée. Dans un mode de réalisation, le traitement d’image appliqué comprend une modification du degré de luminosité d'au moins une couleur de la zone 31 d'extrémité sélectionnée de façon proportionnelle avec l'intensité sonore. Ceci permet, par exemple, de traduire un pic sonore ou un son court de forte intensité (celui d'une détonation, un tir ou une explosion par exemples) par une trame visuelle de forte luminosité.

[0045] Dans un autre exemple, le traitement d’image comprend un réglage de l’ambiance colorimétrique corrélé à la hauteur sonore et/ou au timbre sonore d’un contenu sonore associé à l'image vidéo 1 en projection. Ce traitement d’image est, par exemple, un réglage d’ambiance colorimétrique pour une représentation visuelle d’un son musical (une mélodie, un rythme, une harmonie, ou un certain instrument musical par exemples) ou une voix (voix d’une femme ou d’un homme).

[0046] Le traitement d’image appliqué peut également tenir compte de la directivité sonore du son associé à l’image vidéo 1, dont notamment l’orientation, par rapport au spectateur, de l’objet visuel supposé être la source de ce son et/ou son éloignement (intensité). Il en résulte avantageusement une visualisation ou une interprétation visuelle de l’espace sonore du contenu audiovisuel.

[0047] En combinant et/ou en variant un ou plusieurs traitements d'image appliqués à une zone 31 d'extrémité (redimensionnement, filtres, intensité, direction ou, plus généralement, d'un ou plusieurs paramètres d'un traitement d'image), une pluralité de trames visuelles peuvent être générées pour une même zone 31 d’extrémité sélectionnée d'un arrière-plan 3. Un redimensionnement non proportionnel de la hauteur et/ou de la largeur de la zone 31 d’extrémité permet de les étirer de sorte à couvrir au mieux le champ de vision périphérique du spectateur.

[0048] Pour ne pas exposer la vision périphérique du spectateur à des stimulations importantes qui pourraient l'obliger à tourner la tête et, de ce fait, perdre la sensation d’immersion, une trame visuelle est, dans un mode de réalisation, de faible contraste, de faible résolution et moins nette que la zone 31 d'extrémité à partir de laquelle cette trame visuelle est générée. De façon générale, dans la mesure où les trames visuelles générées sont destinées à l'activation de la vision périphérique, le traitement d'image appliqué à une zone 31 d'extrémité sélectionnée d'un arrière-plan 3 comprend une réduction de la netteté en dessous d'un seuil prédéfini.

[0049] Il résulte du traitement d'image appliqué à une zone 31 d'extrémité que la trame visuelle générée comprend un ou plusieurs indices de l'environnement à la zone 31 d'extrémité sélectionnée (la colorimétrie, la luminance, l'apparence, la forme générale, et/ou l'allure des obj ets présents dans cette zone 31 d'extrémité), sans toutefois le décrire dans les détails. [0050] L'affichage d'une trame visuelle déduite de l'image vidéo 1 permet d'étendre ou prolonger, dans le champ de vision périphérique du spectateur au moins partiellement, l'arrière-plan 3 de l'image vidéo

I en projection dans son champ de vision central. L'extension dans le champ visuel périphérique de l'arrière-plan 3 - qui constitue une source de repères pour le spectateur dans l'image vidéo 1 - produit une impression de profondeur dans cette image vidéo 1. En effet, en stimulant la vision périphérique, cette dernière agit comme vecteur de perspective qui favorise la perception de la profondeur et, en conséquence, la production d'une sensation d'immersion visuelle chez le spectateur.

[0051] Lors de la projection de l'image vidéo 1 dans le champ de vision central du spectateur, la trame visuelle soumet à la vision périphérique du spectateur des indices du fond de l’image vidéo 1, sans toutefois détourner l'attention du spectateur de l'écran 2 frontal.

II en résulte, avantageusement, que la trame visuelle permet d'étendre les repères d'espace affichés dans l'image vidéo 1 à l'effet de mieux encore faire porter l’attention du spectateur sur les obj ets 41 de premier plan et lui procurer un sentiment d'immersion dans cette image vidéo 1

[0052] Avantageusement, la trame visuelle ne comprend pas des indices des obj ets 41 de premier plan qui demeurent affichés seulement dans le champ de vision central du spectateur. L'arrière- plan 3 est étendu par ces extrémités pour couvrir aussi le champ de vision périphérique, alors que les obj ets 41 de premier plan demeurent associés à la vision centrale. Une telle occupation du champ visuel du spectateur permet, avantageusement, d'englober le spectateur dans l'environnement de l'image vidéo 1 en projection dans son champ de vision central et de faire converger son attention sur l'écran 2 frontal.

[0053] Il en résulte pour le spectateur une décomposition immersive de l'image vidéo 1 dans laquelle

- les obj ets 41 de premier plan (c.à.d. les objets 41 d'intérêt) sont soumis à sa vision centrale et, donc, à son analyse directe; et - le décor ou l'environnement (c.à.d. l'arrière-plan 3) s'étend au-delà de son champ visuel central pour remplir aussi son champ visuel périphérique.

[0054] Chaque trame visuelle est destinée à être affichée dans le champ de vision périphérique du spectateur du même côté que la zone 31 d'extrémité à partir de laquelle cette trame visuelle est générée. En d'autres termes, chaque trame visuelle est destinée à occuper une région du champ visuel périphérique du spectateur. Cette région diverge de la zone 31 d'extrémité à partir de laquelle est générée la trame visuelle.

[0055] Dans un autre mode de réalisation, l'immersion visuelle induite par l'activation de la vision périphérique au moyen des trames visuelles est encore amplifiée au moyen d'une lumière d'ambiance. Cette lumière d'ambiance est émise par au moins une source de lumière apte à émettre un faisceau lumineux dans une direction prédéterminée. Dans un mode de réalisation, la teinte ou la température de couleur du faisceau lumineux émis est réglable. Cette source de lumière est, par exemple, un spot, ou un projecteur directif.

[0056] La lumière d'ambiance émise vise à reproduire un faisceau de lumière présent dans l'image vidéo 1 en projection (effet « lampe torche »). Le faisceau lumineux présent dans l'image vidéo 1 peut correspondre à une illumination par une source de lumière directive telle qu'une lampe torche, ou des phares d'automobiles.

[0057] Pour cela, l'analyse des obj ets 41 de premier plan permet de détecter la présence d'un faisceau lumineux dans l'image vidéo 1 en projection. Cette détection est, dans un mode de réalisation, basée sur l'apprentissage automatique profond (ou, en anglais, « deep learning»). En variante ou en combinaison, cette détection peut se baser sur la forme et/ou la luminosité des objets 41 de premier plan.

[0058] La commande de la lumière d'ambiance est déterminée par la direction et la teinte du faisceau lumineux détecté dans le premier plan 4 de l’image vidéo 1 en projection. Il est, ainsi, possible de reproduire l'évolution dans des images vidéo 1 successives d'un faisceau lumineux produit, par exemples, par les phares d'un véhicule automobile dans un virage ou par une lampe torche en manipulation par un personnage. Dans un mode de réalisation, le faisceau lumineux est reproduit dans le champ de vision périphérique vertical (notamment, au dessus du champ de vision central) du spectateur.

[0059] L'application du traitement décrit ci-dessus à l'ensemble des images vidéo 1 du contenu audiovisuel permet de produire une bibliothèque d'effets d'immersion visuelle. Cette bibliothèque d'effets d'immersion visuelle comprend, pour chaque image vidéo 1, une ou plusieurs trames visuelles, corrélées ou non à la bande sonore, et éventuellement des données de commande d'une source de lumière.

[0060] Cette bibliothèque d'effets d'immersion visuelle constitue une ressource pour la création d'un script d'immersion visuelle pour le contenu audiovisuel. Ce script d'immersion visuelle comprend une suite de trames visuelles et de données de commande d'une source de lumière cohérents avec le contenu audiovisuel initial et destinés à être affichés dans le champ de vision périphérique du spectateur lors de la projection du contenu audiovisuel.

[0061] En effet, en associant à chaque image vidéo 1 du contenu audiovisuel une ou plusieurs trames visuelles et, éventuellement, une lumière d'ambiance, divers scripts d'immersion visuelle peuvent être créés à partir de cette bibliothèque d'effets d'immersion visuelle pour un même contenu audiovisuel initial. Chacun de ces scripts d'immersion visuelle est, avantageusement, nativement généré à partir de la source initiale, à savoir le film ou plus généralement le contenu audiovisuel. Ceci permet de conserver une cohérence créative entre les choix des effets constituant le script d'immersion visuelle et le contenu audiovisuel initial dans sa narration visuelle et sonore. Un script d'immersion visuelle peut, ainsi, être adjoint au contenu audiovisuel initial sans déformation de l'œuvre initiale.

[0062] Dans un mode de réalisation, un script d'immersion visuelle est automatiquement généré à partir de la bibliothèque d'effets d'immersion visuelle. Pour cela, une application logicielle (ou, de façon générale, un produit programme d’ordinateur) est configurée pour associer à chaque image vidéo une ou plusieurs trames visuelles et, éventuellement, des données de commande d'une lumière d'ambiance déduites de cette image vidéo 1. Afin de maintenir une impression cohérente le long de ce script d'immersion visuelle, l'application logicielle est, en outre, configurée pour garantir un coefficient de corrélation entre deux trames visuelles successives (intra-trames visuelles) supérieur à une première valeur seuil prédéfinie. Cette application logicielle est, dans un autre mode de réalisation, configurée pour choisir parmi les trames visuelles associées à une image vidéo 1, une ou plusieurs trames visuelles ayant chacune, avec la zone 31 d'extrémité à partir de laquelle cette trame visuelle est générée, un coefficient de corrélation supérieur à une deuxième valeur seuil prédéfinie.

[0063] Cette application logicielle est, dans un autre mode de réalisation, aussi configurée pour générer, à partir du contenu audiovisuel, la bibliothèque d'effets d'immersion visuelle. Dans un mode de réalisation, cette application logicielle est intégrée dans un environnement logiciel métiers de création graphique.

[0064] L’application logicielle est, dans un mode de réalisation, apte à produire en temps réel (c.à.d. à la volée) à partir d’un contenu audiovisuel en projection (notamment, un film) un script d'immersion visuelle destiné à être affiché dans le champ de vision périphérique du spectateur en même temps que la proj ection du contenu audiovisuel dans le champ de vision central de ce spectateur.

[0065] Dans un mode de réalisation, un système de cinéma domestique (plus connu sous le nom de « home cinéma ») ou, plus généralement, un système télévisuel comprend l’application logicielle ou un dispositif mettant en œuvre cette application logicielle. Ce système de cinéma domestique comprend au moins une première sortie vidéo et une deuxième sortie vidéo agencées pour fournir un script d’immersion visuelle. Ce script d’immersion visuelle est produit en temps réel par l’application logicielle à partir du contenu audiovisuel en projection sur un écran frontal. Ce script d’immersion visuelle est destiné à être affiché sur au moins deux écrans latéraux de part et d’autre de l’écran frontal. Les écrans latéraux sont, dans un mode de réalisation, disposés sur les parois latérales d’une chambre.

[0066] En se reportant à la figure 4, la production, à partir d’un contenu audiovisuel donné, d'effets d'immersion visuelle comprend, tel qu'il est décrit ci-dessus, une étape de distinction, pour chaque image vidéo 1 ou plan vidéo de ce contenu audiovisuel, d'un arrière- plan 3 (ou fond) et d'un premier plan 4. Cette distinction peut résulter de l'extraction de l'arrière-plan 3 (étape 10) ou du premier plan 4. Au moins une zone 31 d'extrémité située à une extrémité de l'arrière-plan 3 extrait est sélectionnée (étape 20) . De préférence, deux zones 31 d'extrémité situées à deux extrémités opposées, notamment latérales, de l’arrière-plan 3 extrait sont sélectionnées.

[0067] L'application (étape 30) d'un traitement d'image prédéfini à une zone 31 d’extrémité sélectionnée permet de générer au moins une trame visuelle destinée à être affichée dans le champ de vision périphérique d'un spectateur lors de la projection de l'image vidéo 1 dans le champ de vision central du spectateur. Ce traitement d'image adapte le contenu graphique de la zone 31 d'extrémité à la vision périphérique du spectateur (en termes de netteté, de colorimétrie, de luminosité, de contraste, ou de dimensions, par exemples). Ce traitement d'image est, dans un mode de réalisation, lié au contenu sonore (dans sa dimension sémantique et/ou physique) associé à l’image vidéo 1 du contenu audiovisuel. Les trames visuelles ainsi générées sont destinées à être affichées/projetées sur des écrans s'adressant à la vision périphérique du spectateur.

[0068] Par ailleurs, l'extraction du premier plan 4 permet d'y détecter un faisceau lumineux qui, à l'effet d'une immersion visuelle, peut être reproduit dans le champ de vision périphérique du spectateur. Pour cela, la direction de ce faisceau lumineux par rapport à une direction prédéfinie est déterminée. La teinte ou la température de couleur de ce faisceau lumineux sont, dans un mode de réalisation, également déterminées. Des données de commande d'une source de lumière prédéfinie pour émettre, dans le champ de vision périphérique du spectateur, un faisceau lumineux dans la direction déterminée ou dans une direction associée à la direction déterminée sont, par la suite, générées.

[0069] En disposant des trames visuelles et des données de commande ainsi générées, un script d'immersion visuelle pour le contenu audiovisuel peut être produit.

[0070] Ce script d'immersion visuelle peut être utilisé dans une salle 5 de cinéma, tel qu'il est illustré par la figure 5. Cette salle 5 de cinéma comprend un écran 2 frontal et une pluralité d'écrans 7 latéraux de part et d'autre de l'écran 2 frontal. L'écran 2 frontal a un ratio d’écran apte à couvrir le champ visuel central 8 du spectateur 6. Quant aux écrans 7 latéraux, ils sont disposés sur les faces latérales de la salle 5 de cinéma et sont destinés à remplir le champ de vision périphérique 9 du spectateur 6. Des écrans au plafond et/ou au plancher de la salle 5 de cinéma (non affichés sur la figure 5) peuvent être envisagés pour couvrir le champ visuel périphérique vertical du spectateur. Plus généralement, tout écran permettant de remplir au moins partiellement le champ de vision périphérique 9 (horizontal et/ou vertical) d'un spectateur placé face à l'écran 2 frontal peut être envisagé. Dans un mode de réalisation, les écrans 7 latéraux sont des panneaux LED.

[0071] Eine pluralité de sources 71 de lumière aptes à émettre un faisceau lumineux sont disposées au-dessus des écrans 7 latéraux, et/ou au dessus de l'écran 2 frontal, au plafond, et/ou au fond de la salle 5 de cinéma (derrière les spectateurs).

[0072] L'affichage des trames visuelles du script d'immersion visuelle sur les écrans 7 latéraux permet une extension ou un prolongement, dans le champ de vision périphérique 9 du spectateur 6, du fond de l’image vidéo 1 en projection sur l’écran 2 frontal. Ceci produit chez le spectateur 7 l'impression que l’arrière-plan de l'image vidéo 1 en projection sur l'écran 2 frontal se prolonge dans les écrans 7 latéraux ce qui l’englobe dans cette image vidéo (un effet enveloppant et immersif).

[0073] La projection (ou l'affichage) du contenu audiovisuel sur l'écran 2 frontal et, simultanément, le script d'immersion visuelle sur les écrans 7 latéraux crée un espace d'immersion permettant d'immerger le spectateur 6 dans l’environnement de la scène perçue dans l'image vidéo 1 en projection sur l'écran 2 frontal. Le spectateur 6 maintient sa vision centrale sur l'écran 2 frontal, tout en demeurant conscient de qui s'offre à sa vision périphérique par les écrans 7 latéraux (comprenant, notamment, des indices de l'environnement de l'image vidéo 1 en projection).

[0074] Les trames visuelles comprennent des informations visuelles déduites du contenu sonore et des images et plans vidéo du contenu audiovisuel qui sont apportées dans le champ de vision périphérique 9 du spectateur 6 pour activer/exciter sa vision périphérique, sans détourner son attention de l'écran 2 frontal.

[0075] Dans un mode de réalisation, le script d'immersion comprend pour une même image vidéo 1 une pluralité de trames visuelles destinées à être affichées sur une pluralité d’écrans 7 latéraux disposés sur une même face latérale de la salle 5 de cinéma. Ces trames visuelles prennent en considération la place dans la salle 5 du cinéma du spectateur 6 (placé au premier rang, au milieu, ou au fond de la salle par exemples). Dans un autre mode de réalisation, ces trames visuelles sont de plus en plus floues en s'éloignant de l'écran 2 frontal pour tenir compte du fait que le passage de la zone centrale à la zone périphérique du champ de vision est un continuum entre le net et le flou et non une transition franche. En alternative, une trame visuelle est segmentée en autant d'écrans 7 latéraux, cette trame étant de moins en moins nette en s'éloignant de l'écran 2 frontal. Le nombre, les dimensions et/ou les dispositions des écrans 7 latéraux sont choisis de sorte à rapprocher les limites des trames visuelles des limites du champ visuel du spectateur 6 et laisser le moins de place possible à l'espace réel dans son champ de vision. [0076] En se reportant à la figure 6, il est affiché des modules intervenant dans la production d’un script 65 d’immersion visuelle pour un contenu audiovisuel 61. Pour cela, ce contenu audiovisuel 61 est, d’abord, fourni en entrée d’un générateur 62 de trames visuelles mettant en œuvre le procédé décrit ci-dessus. De préférence, une pluralité de trames visuelles différentes est générée pour chaque image vidéo du contenu audiovisuel 61 de façon à obtenir en sortie une palette 63 d’effets immersifs. En se basant sur cette palette 63 d’effets immersifs, un générateur 64 de scripts d’immersion visuelle est apte à en produire un ou plusieurs scripts 65 d’immersion visuelle.

[0077] Dans un deuxième temps, lorsque le contenu audiovisuel 61 est en lecture par un lecteur multimédia 66 (un lecteur logiciel ou un projecteur par exemple), le script 65 d’immersion visuelle est simultanément déroulé par un lecteur 67 de script d’immersion via un ou plusieurs médiums 68 tels que des panneaux LED, un environnement virtuel en simulation 3D, ou des écrans d’affichage.

[0078] La palette 63 d’effets immersifs est, dans un mode de réalisation, construite bien en amont de la projection du contenu audiovisuel 61 par le lecteur multimédia 66, le temps de pouvoir générer plusieurs scripts 65 d’immersion visuelle différents.

[0079] Pour assurer une lecture synchrone du contenu audiovisuel 61 et du script 65 d’immersion visuelle, des informations de synchronisation sont échangées entre le lecteur multimédia 66 et le lecteur 67 de script d’immersion. Dans un mode de réalisation, le lecteur 67 de script d’immersion est distinct du lecteur multimédia 66 de sorte qu’il n’as pas accès au contenu audiovisuel 61 joué.

[0080] Avantageusement, les modes de réalisation décrits ci- dessus permettent d'aller au-delà de l'affichage en deux dimensions de l'écran 2 frontal en prolongeant l'environnement/fond de l'image vidéo 1 en projection à l'extérieur de ce cadre de façon à activer la vision périphérique du spectateur qui, de ce fait, ait l'impression d'être dans l’image (un sentiment de présence) et non face à une projection sur un plan non propice à une immersion. En étant porteur de significations, l’interprétation visuelle du contenu sonore permet d’améliorer encore le sentiment d’immersion chez le spectateur. De plus, l’imitation dans le champ de vision périphérique du spectateur d’un faisceau de lumière présent dans l'image vidéo en projection permet d’enrichir encore l’expérience immersive du spectateur.

Claims

Revendications

1. Procédé pour la production d'effets d'immersion visuelle pour un contenu audiovisuel intégrant une image vidéo (1) et un contenu sonore associé à l’image vidéo (1), ce procédé comprenant les étapes suivantes:

- extraction (10) d'un arrière-plan (3) de l’image vidéo (1);

- sélection (20) d'une première zone (31) d'extrémité située à une première extrémité de l'arrière-plan (3) extrait;

- détermination d’un état sémantique du contenu sonore ;

- application (30) d'un traitement d'image prédéfini à la première zone (31) d'extrémité sélectionnée pour générer au moins une trame visuelle destinée à être affichée dans le champ de vision périphérique (9) d'un spectateur (6) lors de la projection de l'image vidéo (1) dans le champ de vision central (8) du spectateur (6), ce procédé étant caractérisé en ce que le traitement d’image prédéfini est lié à l’état sémantique déterminé du contenu sonore.

2. Procédé selon la revendication précédente, caractérisé en ce qu’il comprend, en outre, une étape de détermination d’un paramètre sonore du contenu sonore, le traitement d’image prédéfini étant lié au paramètre sonore déterminés du contenu sonore.

3. Procédé selon la revendication précédente, caractérisé en ce que le paramètre sonore est choisi parmi une liste comprenant une hauteur sonore, une durée sonore, une intensité sonore, un timbre sonore, et/ou une directivité sonore.

4. Procédé selon l'une quelconque des revendications précédentes, caractérisé en ce que le traitement d'image prédéfini comprend un réglage de l'ambiance colorimétrique de la première zone (31) d'extrémité sélectionnée.

5. Procédé selon la revendication précédente, caractérisé le traitement d’image prédéfini comprend une restitution de l’ambiance colorimétrique moyenne de la première zone (31) d’extrémité sélectionnée.

6. Procédé selon l’une quelconque des revendications précédentes, caractérisé en ce que le traitement d'image prédéfini comprend une modification de la luminosité d'au moins une couleur dans la première zone (31) d'extrémité sélectionnée.

7. Procédé selon l'une quelconque des revendications précédentes, caractérisé en ce que le traitement d'image prédéfini comprend une application d'un effet de flou.

8. Procédé selon l'une quelconque des revendications précédentes, caractérisé en ce qu’il comprend, en outre, les étapes suivantes

- sélection d'une deuxième zone (31) d'extrémité située à une deuxième extrémité de l'arrière-plan (3) extrait, la deuxième extrémité étant opposée à la première extrémité;

- application dudit traitement d'image prédéfini à la deuxième zone (31) d'extrémité sélectionnée.

9. Procédé selon l’une quelconque des revendications précédentes, caractérisé en ce qu’une pluralité de trames visuelles différentes intégrant ladite au moins une trame visuelle est générée à partir de la première zone (31) d'extrémité.

10. Procédé selon l'une quelconque des revendications précédentes, caractérisé en ce qu'il comprend, en outre, les étapes suivantes

- extraction d'un premier plan (4) de l'image vidéo (1);

- détection d'un faisceau lumineux dans le premier plan (4) extrait;

- détermination d'une direction du faisceau lumineux détecté;

- génération d'une donnée de commande pour commander une source de lumière apte à générer un faisceau de lumière dans une direction associée à la direction déterminée.

11. Procédé selon l'une quelconque des revendications précédentes, caractérisé en ce qu'il comprend, en outre, une étape de génération d'un script d'immersion visuelle intégrant la trame visuelle.

12. Procédé selon les revendications 10 et 11, caractérisé en ce que le script d'immersion visuelle comprend, en outre,.

13. Procédé selon la revendications 12, caractérisé en ce que la donnée de commande est interprétable par un lecteur de script sous toute forme qu’elle soit logicielle, matérielle, firmware ou une combinaison de ces formes.

14. Procédé selon la revendication 11 ou 12, caractérisé en ce qu’il comprend, en outre, une étape d’adjonction du script d’immersion visuelle au contenu audiovisuel.

15. Procédé selon l’une quelconque des revendications 11 à 13, caractérisé en ce qu’il comprend, en outre, une étape de lecture du script d’immersion visuelle dans un environnement virtuel en simulation 3D.

16. Produit programme d’ordinateur implémenté sur un support mémoire, susceptible d’être mis en œuvre au sein d’une unité de traitement informatique et comprenant des instructions pour la mise en œuvre d'un procédé de production d'effets d'immersion visuelle pour un contenu audiovisuel selon l'une quelconque des revendications précédentes.