FR3131675A1

FR3131675A1 - video capture method and device, video composition method and device and video analysis method.

Info

Publication number: FR3131675A1
Application number: FR2200067A
Authority: FR
Inventors: Tomaj ROKNI
Original assignee: Individual
Current assignee: Individual
Priority date: 2022-01-05
Filing date: 2022-01-05
Publication date: 2023-07-07
Anticipated expiration: 2042-01-05
Also published as: EP4460979A1; FR3131675B1; WO2023131757A1

Abstract

L’invention concerne un procédé et un dispositif de capture vidéo, un procédé et un dispositif de composition vidéo et un procédé d’analyse vidéo. Plus particulièrement, le procédé de composition vidéo dans un serveur comprend : - la réception d’un au moins un premier dispositif de capture vidéo d’une première vidéo représentative d’une première partie d’une scène et de métadonnées associées à au moins une image fixe de ladite première partie de ladite scène, ladite métadonnée étant représentative d’une position géographique du premier dispositif de capture au moment de la capture de l’image,- la réception d’un au moins un second dispositif de capture vidéo d’une deuxième vidéo représentative d’au moins une deuxième partie de ladite scène et de métadonnées associées à au moins une image fixe de ladite seconde partie de ladite scène, ladite métadonnée étant représentative de la position géographique du second dispositif de capture au moment de la capture de l’image, lesdites premières et deuxièmes vidéos étant synchronisées, - la détermination de points d’intérêt fixes dans chacune desdites vidéos,- ladite composition d’une vidéo composite représentative de ladite scène à partir desdites première et au moins une deuxième vidéos par mise en correspondance desdits points d’intérêt,- la mise à disposition de ladite vidéo représentative de ladite scène, la détection d’un mouvement d’au moins un des deux dispositifs de capture sur la base des métadonnées reçues déclenchant une nouvelle détermination des points d’intérêt fixes dans ladite vidéo capturée par le dispositif en mouvement puis ladite composition d’une nouvelle vidéo composite. Figure pour l’abrégé : Fig. 2. A video capture method and device, video composition method and device, and video analysis method are provided. More particularly, the method of video composition in a server comprises: - receiving from at least a first video capture device a first video representative of a first part of a scene and metadata associated with at least one fixed image of said first part of said scene, said metadata being representative of a geographical position of the first capture device at the time of capturing the image,- the reception of at least one second video capture device from a second video representing at least a second part of said scene and metadata associated with at least one fixed image of said second part of said scene, said metadata being representative of the geographical position of the second capture device at the time of capture of the image, said first and second videos being synchronized, - determining fixed points of interest in each of said videos, - said composition of a composite video representative of said scene from said first and at least one second videos by matching of said points of interest, - provision of said video representative of said scene, the detection of a movement of at least one of the two capture devices on the basis of the received metadata triggering a new determination of the fixed points of interest in said video captured by the moving device then said composition of a new composite video . Figure for abstract: Fig. 2.

Description

method and device for video capture, method and device for composing a video and method for video analysis.

L’invention concerne le traitement d’une vidéo d’une scène à partir de plusieurs vidéos représentatives d’une partie de la scène.The invention concerns the processing of a video of a scene from several videos representative of a part of the scene.

La diffusion et la captation d’événements, tels que par exemple, mais non limitativement, des concerts, des événements sportifs requiert bien souvent le déploiement de moyens couteux et complexes à mettre en œuvre. En effet, il est bien souvent nécessaire de positionner de nombreuses caméras permettant la capture de l’événement, les caméras étant positionnées généralement tout autour de la scène à filmer. Non seulement la captation de la scène est rendue complexe par le positionnement des nombreuses caméras, mais également la composition et la restitution de la scène par les diffuseurs.The broadcasting and recording of events, such as, but not limited to, concerts and sporting events often requires the deployment of expensive and complex means to implement. Indeed, it is often necessary to position numerous cameras to capture the event, the cameras generally being positioned all around the scene to be filmed. Not only is the capture of the scene made complex by the positioning of the numerous cameras, but also the composition and restitution of the scene by the broadcasters.

La complexité de tels systèmes peut amener les spectateurs à utiliser des dispositifs plus simples à manipuler tels par exemple, des téléphones cellulaires pour la captation. Cependant la recomposition d’une vidéo à partir de téléphones positionnés autour de la scène reste complexe notamment en raison de la mobilité de tels téléphones et donc des positions respectives des téléphones vis à vis de la scène.The complexity of such systems can lead spectators to use devices that are simpler to handle, such as cell phones for recording. However, the recomposition of a video from phones positioned around the scene remains complex, particularly due to the mobility of such phones and therefore the respective positions of the phones with respect to the scene.

La présente invention a pour but de remédier à tout ou partie des inconvénients de l’art antérieur, notamment ceux exposés ci-avant, en proposant une solution qui permette, en comparaison avec les solutions de l’état de la technique, de recomposer une vidéo unique à partir de plusieurs vidéos d’une même scène tout en évitant les solutions complexes de gestion de la mobilité des terminaux de capture et l’intervention d’un utilisateur.The present invention aims to remedy all or part of the drawbacks of the prior art, in particular those set out above, by proposing a solution which allows, in comparison with the solutions of the state of the art, to recompose a single video from several videos of the same scene while avoiding complex mobility management solutions for capture terminals and user intervention.

A cet effet, selon un premier aspect, l’invention propose un procédé de capture vidéo comprenantTo this end, according to a first aspect, the invention proposes a video capture method comprising

- la capture vidéo d’une scène,- video capture of a scene,

- l’obtention d’au moins une métadonnée à partir de données associées à une image fixe de ladite scène, ladite métadonnée étant représentative d’une position géographique du dispositif de capture au moment d’une capture de l’image,- obtaining at least one metadata from data associated with a still image of said scene, said metadata being representative of a geographical position of the capture device at the time of capturing the image,

- la transmission de la vidéo et d’au moins ladite métadonnée.- the transmission of the video and at least said metadata.

Ainsi, les métadonnées permettent de détecter si l’un des dispositifs de capture a bougé au cours de la capture et ainsi de recalculer les points d’intérêt lorsque c’est le cas. Ceci évite avantageusement à un utilisateur de devoir surveiller régulièrement la position des points d’intérêt et en outre de repositionner les points d’intérêt de manière régulière. Ainsi, les points d’intérêt permettent d’obtenir une composition d’une vidéo unique d’une scène à partir d’une ou plusieurs vidéos de la même scène sans intervention de l’utilisateur et de manière très fiable produisant une vidéo de qualité et captant la totalité de la scène.Thus, the metadata makes it possible to detect if one of the capture devices has moved during the capture and thus to recalculate the points of interest when this is the case. This advantageously avoids a user having to regularly monitor the position of the points of interest and furthermore having to reposition the points of interest on a regular basis. Thus, the points of interest make it possible to obtain a composition of a single video of a scene from one or more videos of the same scene without user intervention and in a very reliable manner producing a quality video and capturing the entire scene.

Dans des modes particuliers de mise en œuvre, les métadonnées comprennent en outre un ou plusieurs éléments choisis parmi :In particular modes of implementation, the metadata also includes one or more elements chosen from:

- une inclinaison du dispositif de capture,- an inclination of the capture device,

- une assiette du dispositif de capture,- a plate of the capture device,

- la boussole (l’inclinaison des moyens de capture par rapport au Nord) du dispositif de capture,- the compass (the inclination of the capture means relative to North) of the capture device,

Ces données permettent avantageusement d’obtenir des informations sur l’orientation du dispositif de capture vidéo.These data advantageously make it possible to obtain information on the orientation of the video capture device.

Le tilt des moyens de capture a pour effet par exemple de faire monter l’horizon (mode piqué) ou de faire descendre l’horizon (dépiqué).Tilting the capture means has the effect, for example, of raising the horizon (dive mode) or lowering the horizon (dipped).

L’assiette du dispositif permet de détecter l’inclinaison par rapport à l’horizon.The attitude of the device makes it possible to detect the inclination relative to the horizon.

La boussole, encore appelée pan ou pano ou panoramique, permet de détecter l’inclinaison des moyens de capture par rapport au Nord.The compass, also called pan or pano or panoramic, makes it possible to detect the inclination of the capture means relative to the North.

Un déplacement des moyens de capture induit un changement de la valeur de l’un ou plusieurs de ces métadonnées, selon que le déplacement soit horizontal, vertical, oblique…A movement of the capture means induces a change in the value of one or more of these metadata, depending on whether the movement is horizontal, vertical, oblique, etc.

Selon un second aspect, l’invention concerne un procédé de composition d’une vidéo comprenant:According to a second aspect, the invention relates to a method of composing a video comprising:

- la réception d’un au moins un premier dispositif de capture vidéo d’une première vidéo représentative d’une première partie d’une scène et de métadonnées associées à au moins une image fixe de la première partie de ladite scène, la métadonnée étant représentative d’une position géographique du premier dispositif de capture au moment de la capture de l’image,- receiving from at least one first video capture device a first video representative of a first part of a scene and metadata associated with at least one still image of the first part of said scene, the metadata being representative of a geographical position of the first capture device at the time of image capture,

- la réception d’un au moins un second dispositif de capture vidéo d’une deuxième vidéo représentative d’au moins une deuxième partie de ladite scène et de métadonnées associées à au moins une image fixe de la seconde partie de la scène, la métadonnée étant représentative de la position géographique du second dispositif de capture au moment de la capture de l’image, les premières et deuxièmes vidéos étant synchronisées,- receiving from at least one second video capture device a second video representative of at least a second part of said scene and metadata associated with at least one still image of the second part of the scene, the metadata being representative of the geographical position of the second capture device at the time of capturing the image, the first and second videos being synchronized,

- la détermination de points d’intérêt fixes dans chacune des vidéos,- the determination of fixed points of interest in each of the videos,

- la composition d’une vidéo composite représentative de ladite scène à partir des première et au moins une deuxième vidéos par mise en correspondance desdits points d’intérêt,- the composition of a composite video representative of said scene from the first and at least one second videos by matching said points of interest,

- la mise à disposition de la vidéo représentative de la scène,- the provision of the representative video of the scene,

la détection d’un mouvement d’au moins un des deux dispositifs de capture sur la base des métadonnées reçues déclenchant une nouvelle détermination des points d’intérêt fixes dans la vidéo capturée par le dispositif en mouvement puis la composition d’une nouvelle vidéo composite.detecting a movement of at least one of the two capture devices on the basis of the received metadata triggering a new determination of the fixed points of interest in the video captured by the moving device then the composition of a new composite video .

Ainsi, le procédé peut avantageusement détecter que les dispositifs de capture ont bougé, ou au moins l’un d’entre eux et automatiquement recalculer les points d’intérêt. De cette manière, la composition des deux vidéos génère une vidéo de qualité constante à partir des deux vidéos. Aucune intervention humaine n’est nécessaire ni pour repositionner les dispositifs de capture ni pour demander un nouveau calcul des points d’intérêt tant que le procédé peut calculer ou recalculer les points d’intérêt ou tant que la variation des métadonnées reste inférieure à un seuil.Thus, the method can advantageously detect that the capture devices have moved, or at least one of them, and automatically recalculate the points of interest. In this way, compositing the two videos produces a consistent quality video from both videos. No human intervention is necessary either to reposition the capture devices or to request a new calculation of the points of interest as long as the method can calculate or recalculate the points of interest or as long as the variation of the metadata remains below a threshold .

Dans des modes particuliers de mise en œuvre, la détermination de points d’intérêt fixes dans chacune des vidéos comprend :In particular modes of implementation, the determination of fixed points of interest in each of the videos includes:

- la transmission à au moins un dispositif d’affichage vidéo, des première et au moins deuxième vidéos,- transmission to at least one video display device, of the first and at least second videos,

- la réception du au moins un dispositif d’affichage vidéo, des points d’intérêt relatifs à chacune des parties de la scène.- reception of at least one video display device, points of interest relating to each part of the scene.

Dans des modes particuliers de mise en œuvre, la mise à disposition comprend l’un ou l’autre ou plusieurs parmi :In particular modes of implementation, the provision includes one or the other or more of:

- l’enregistrement de la vidéo composite,- recording the composite video,

- l’affichage de la vidéo composite,- display of the composite video,

- la transmission de la vidéo composite à au moins un dispositif d’analyse.,- transmitting the composite video to at least one analysis device.

De manière avantageuse, la vidéo recomposée est destinée à être diffusée, par exemple à un groupe de diffusion. Elle peut être diffusée en direct, le procédé étant rapide et ne provoquant qu’un très léger décalage avec l’événement. La vidéo peut aussi être enregistrée et diffusée en décalé, à la demande.Advantageously, the recomposed video is intended to be broadcast, for example to a broadcast group. It can be broadcast live, the process being rapid and causing only a very slight delay with the event. The video can also be recorded and broadcast on time, on demand.

Dans des modes particuliers de mise en œuvre, lorsque ladite vidéo est transmise à au moins un dispositif d’analyse, il comprend en outreIn particular modes of implementation, when said video is transmitted to at least one analysis device, it further comprises

- la réception, suite à la transmission de données d’enrichissement de la scène,- reception, following the transmission of scene enrichment data,

- la synchronisation des données d’enrichissement avec la vidéo composite ;- synchronization of enrichment data with the composite video;

- la mise à disposition de la vidéo composite enrichie des données d’enrichissement.- the provision of the composite video enriched with enrichment data.

Ainsi, outre la recomposition automatique de la vidéo à partir des deux vidéos, le procédé peut avantageusement proposer à un utilisateur final un contenu enrichi de données additionnelles relatives au contenu capturé.Thus, in addition to the automatic recomposition of the video from the two videos, the method can advantageously offer an end user content enriched with additional data relating to the captured content.

Selon un troisième aspect, l’invention concerne un procédé d’analyse de vidéo comprenantAccording to a third aspect, the invention relates to a video analysis method comprising

- La réception, d’une vidéo composite représentative d’une scène obtenue par un procédé de composition d’une vidéo selon l’invention,- The reception of a composite video representative of a scene obtained by a method of composing a video according to the invention,

- L’ajout de données d’enrichissement sur ladite vidéo composite pour annoter ladite vidéo composite,- Adding enrichment data to said composite video to annotate said composite video,

- La mise à disposition de la vidéo composite annotée et des données d’enrichissement.- Provision of annotated composite video and enrichment data.

De manière préférée, les données d’enrichissement sont obtenues par un positionnement des données d’enrichissement par un utilisateur à travers une interface graphique.Preferably, the enrichment data is obtained by positioning the enrichment data by a user through a graphical interface.

Selon un autre mode de réalisation, le procédé de composition analyse la vidéo composite (par exemple en utilisant de l’intelligence artificielle) et compare les données d’enrichissement reçues avec les données analysées et en cas d’incohérence, soumet lesdites incohérences à l’utilisateur au travers de l’interface graphique pour validation finale.According to another embodiment, the composition method analyzes the composite video (for example using artificial intelligence) and compares the enrichment data received with the analyzed data and in the event of inconsistency, subjects said inconsistencies to the user through the graphical interface for final validation.

L’invention concerne également un dispositif de capture vidéo comprenant des moyens de capture vidéo, une interface de communication avec au moins un serveur et au moins un processeur apte à mettre en œuvre un procédé de capture vidéo selon l’invention.The invention also relates to a video capture device comprising video capture means, a communication interface with at least one server and at least one processor capable of implementing a video capture method according to the invention.

L’invention concerne également un serveur comprenantThe invention also relates to a server comprising

- au moins une première interface de communication avec un dispositif de capture vidéo,- at least a first communication interface with a video capture device,

- au moins une seconde interface de communication avec un dispositif d’affichage vidéo,- at least a second communication interface with a video display device,

- au moins un processeur apte à mettre en œuvre un procédé de composition d’une vidéo selon l’invention.- at least one processor capable of implementing a method for composing a video according to the invention.

L’invention concerne également un système comprenant au moins un premier et un second dispositif de capture vidéo selon l’invention, au moins un serveur selon l’invention et au moins un dispositif d’analyse apte à mettre en œuvre un procédé d’analyse selon l’invention.The invention also relates to a system comprising at least a first and a second video capture device according to the invention, at least one server according to the invention and at least one analysis device capable of implementing an analysis method according to the invention.

L’invention concerne également un programme d’ordinateur comportant des instructions pour la mise en œuvre d’un des procédés selon l’invention lorsque le programme est exécuté par un ordinateur.The invention also relates to a computer program comprising instructions for implementing one of the methods according to the invention when the program is executed by a computer.

L’invention concerne également un support d’enregistrement lisible par un ordinateur sur lequel est enregistré un programme d’ordinateur selon l’invention.The invention also relates to a computer-readable recording medium on which a computer program according to the invention is recorded.

La représente un procédé de capture vidéo selon un mode de réalisation particulier de l’invention. There represents a video capture method according to a particular embodiment of the invention.

La représente un procédé de composition d’une vidéo selon un mode de réalisation particulier de l’invention. There represents a method of composing a video according to a particular embodiment of the invention.

La représente la position des points d’intérêt selon un mode particulier de réalisation de l’invention. There represents the position of the points of interest according to a particular embodiment of the invention.

La représente un procédé d’analyse de vidéo selon un mode de réalisation particulier de l’invention. There represents a video analysis method according to a particular embodiment of the invention.

La représente un dispositif de capture vidéo selon un mode de réalisation particulier de l’invention. There represents a video capture device according to a particular embodiment of the invention.

La représente un serveur de composition d’une vidéo selon un mode de réalisation particulier de l’invention. There represents a server for composing a video according to a particular embodiment of the invention.

La représente un dispositif d’analyse de vidéo selon un mode de réalisation particulier de l’invention. There represents a video analysis device according to a particular embodiment of the invention.

La représente un système selon un premier mode de réalisation particulier de l’invention. There represents a system according to a first particular embodiment of the invention.

La représente la position de deux caméras autour d’une scène à capturer selon un mode de réalisation particulier de l’invention. There represents the position of two cameras around a scene to be captured according to a particular embodiment of the invention.

La la position de trois caméras autour d’une scène à capturer selon un mode de réalisation particulier de l’invention. There the position of three cameras around a scene to be captured according to a particular embodiment of the invention.

La représente un système selon un second mode de réalisation particulier de l’invention. There represents a system according to a second particular embodiment of the invention.

Dans les modes de réalisation décrits ci-après, la scène capturée est une scène représentative d’un match de football et donc plus précisément des événements se passant sur un terrain de football lors d’un match. Ainsi, lorsqu’il est fait référence à une première partie de la scène et à une seconde partie de la scène, il est fait particulièrement référence à une première partie du terrain de football, par exemple un peu plus qu’un demi-terrain pour une première partie et un peu plus qu’un demi terrain pour une seconde partie. Bien entendu, ceci est un exemple de scène capturée et ne saurait aucunement constituer une limitation de l’invention à la captation d’un match de football. De même, d’autres sports peuvent être envisagés mais également d’autres événements tels des concerts ou autres scènes de la vie.In the embodiments described below, the captured scene is a scene representative of a football match and therefore more precisely of the events taking place on a football field during a match. Thus, when reference is made to a first part of the scene and to a second part of the scene, particular reference is made to a first part of the football field, for example a little more than half a field for a first part and a little more than half a field for a second part. Of course, this is an example of a captured scene and in no way constitutes a limitation of the invention to the capture of a football match. Likewise, other sports can be considered but also other events such as concerts or other scenes of life.

Par ailleurs, la description des figures 1 à 9 fait référence principalement à des modes de réalisation basés sur la capture de deux parties de la même scène. Il est à noter que le fait de parler de deux parties de la scène n’est pas limitatif à deux et que l’invention ne se limite pas à deux captures mais à au moins deux. La illustre par exemple le positionnement possible de trois moyens de capture.Furthermore, the description of Figures 1 to 9 refers mainly to embodiments based on the capture of two parts of the same scene. It should be noted that speaking of two parts of the scene is not limited to two and that the invention is not limited to two captures but to at least two. There illustrates for example the possible positioning of three capture means.

La représente sous forme d’ordinogramme, les principales étapes d’un procédé de capture vidéo selon un mode de réalisation préféré de l’invention. Ledit procédé comprend des étapes E1a et E1b lors desquelles deux vidéos sont capturées. Plus précisément, lors de l’étape E1a, une vidéo d’une partie de ladite scène est capturée et lors de l’étape E1b, une vidéo d’au moins une autre partie de la dite scène est capturée. Les deux étapes E1a et E1b sont effectuées de manière simultanée. Les deux parties capturées contiennent au moins une portion commune de la scène, cette portion commune comprenant au moins deux points d’intérêt fixes communs.There represents in flowchart form the main steps of a video capture method according to a preferred embodiment of the invention. Said method comprises steps E1a and E1b during which two videos are captured. More precisely, during step E1a, a video of a part of said scene is captured and during step E1b, a video of at least one other part of said scene is captured. The two steps E1a and E1b are carried out simultaneously. The two captured parts contain at least one common portion of the scene, this common portion comprising at least two common fixed points of interest.

Les deux vidéos sont capturées de manière synchrone ou peuvent être synchronisées grâce à des étiquettes temporelles. Pour ce faire, préalablement au démarrage du procédé de capture, un procédé de synchronisation (non représenté sur les figures) est lancé de manière à associer à chaque vidéo capturée une étiquette temporelle (« timecode » en anglais). Ceci est par exemple avantageusement réalisé en utilisant le protocole NTP (« network Time Protocol » en anglais). Chacune des images capturées ayant son étiquette temporelle, il est possible de synchroniser les deux vidéos lors de leur réception par un dispositif distant, peu importe les délais de transmission de chacune des vidéos qui pourraient être causés par des perturbations réseau ou des vitesses de transmission différentes selon le réseau utilisé par chacun des dispositifs de capture.The two videos are captured synchronously or can be synchronized using time tags. To do this, before starting the capture process, a synchronization process (not shown in the figures) is launched so as to associate a time label (“timecode” in English) with each captured video. This is for example advantageously achieved by using the NTP protocol (“network Time Protocol” in English). Each of the captured images having its time label, it is possible to synchronize the two videos when they are received by a remote device, regardless of the transmission delays of each of the videos which could be caused by network disturbances or different transmission speeds. depending on the network used by each of the capture devices.

Dans d’autres modes de réalisation, la synchronisation des deux flux peut se faire grâce aux pistes sonores des flux. La fréquence d’échantillonnage du son étant beaucoup plus élevée que la fréquence des images, et les pistes sonores étant pratiquement identiques sur tous les flux car les micros sont très proches, caler les pistes sonores permet également de caler les étiquettes temporelles, donc les flux. Ce système est utilisé pour la synchronisation et le montage des captations multi caméras tout en évitant les effets d’échos.In other embodiments, the synchronization of the two streams can be done using the audio tracks of the streams. The sound sampling frequency being much higher than the image frequency, and the sound tracks being practically identical on all the streams because the microphones are very close, setting the sound tracks also makes it possible to set the time labels, therefore the streams. . This system is used for synchronization and editing of multi-camera recordings while avoiding echo effects.

Ensuite, lors d’une étape E2a, E2b, des métadonnées sont obtenues, préférentiellement à partir de données du capteur GPS (pour « Global Positioning System » en anglais ou système de positionnement global en français) et/ou de données d’un accéléromètre et/ou d’un gyroscope et/ou d’un magnétomètre. Chaque vidéo d’une partie de la scène est capturée par des moyens de capture et ces moyens peuvent par exemple être associés ou collaborer avec un GPS, un accéléromètre, un gyroscope ou un magnétomètre.Then, during a step E2a, E2b, metadata are obtained, preferably from data from the GPS sensor (for “Global Positioning System” in English or global positioning system in French) and/or data from an accelerometer and/or a gyroscope and/or a magnetometer. Each video of a part of the scene is captured by capture means and these means can for example be associated or collaborate with a GPS, an accelerometer, a gyroscope or a magnetometer.

Selon un autre mode de réalisation, un processeur associé aux moyens de capture peut également, à l’aide d’un programme logiciel, obtenir lesdites métadonnées.According to another embodiment, a processor associated with the capture means can also, using a software program, obtain said metadata.

Ainsi, lors de la capture de chaque partie de la scène, il est possible d’associer à chaque image capturée les métadonnées. Chaque image est donc associée à une étiquette temporelle et à des métadonnées. Bien entendu, certaines métadonnées varient peu telles la latitude et la longitude alors qu’en cas d’intempéries, certaines métadonnées vont varier plus, telles l’assiette, la boussole ou l’inclinaison. Ainsi, la longitude et la latitude peuvent être associées à la vidéo et transmises moins fréquemment que d’autres qui pourraient varier davantage au cours de la capture.Thus, when capturing each part of the scene, it is possible to associate the metadata with each captured image. Each image is therefore associated with a temporal label and metadata. Of course, certain metadata vary little, such as latitude and longitude, whereas in the event of bad weather, certain metadata will vary more, such as attitude, compass or inclination. Thus, longitude and latitude can be associated with the video and transmitted less frequently than others which might vary more during capture.

Les métadonnées sont principalement relatives à la position géographique, pouvant inclure également l’orientation, d’un dispositif de capture mettant en œuvre le procédé et par exemple décrit en . Ainsi, un changement dans les métadonnées permet d’identifier un déplacement ou un mouvement de la caméra. Un tel déplacement/mouvement, n’est pas nécessairement mais peut être, un déplacement opéré, volontairement ou involontairement, par une personne. Un tel déplacement/mouvement peut également être lié à la météorologie par exemple. S’il y a beaucoup de vent, il est possible que le dispositif de capture mettant en œuvre le procédé dévie de sa position initiale. Ceci est d’autant plus vrai si le dispositif de capture est attaché en hauteur (pour avoir une meilleure vision de la scène à capturer). De préférence, pour éviter des modifications importantes des métadonnées, les moyens de capture sont fixés de manière rigide et ancrés au sol. Par exemple, ils peuvent être fixés sur un ou plusieurs trépieds, démontables ou fixés au sol.The metadata mainly relate to the geographical position, which may also include the orientation, of a capture device implementing the method and for example described in . Thus, a change in the metadata makes it possible to identify a shift or movement of the camera. Such a displacement/movement is not necessarily, but can be, a displacement carried out, voluntarily or involuntarily, by a person. Such a shift/movement can also be linked to meteorology for example. If there is a lot of wind, it is possible that the capture device implementing the method deviates from its initial position. This is especially true if the capture device is attached high up (to have a better view of the scene to be captured). Preferably, to avoid significant modifications of the metadata, the capture means are rigidly fixed and anchored to the ground. For example, they can be fixed on one or more tripods, removable or fixed to the ground.

Lors d’une étape E3a, E3b, chaque flux vidéo (comprenant les étiquettes temporelles) et les métadonnées associées à la capture sont transmis vers un serveur, représenté en .During a step E3a, E3b, each video stream (including the time labels) and the metadata associated with the capture are transmitted to a server, represented in .

Selon un mode de réalisation préféré, les métadonnées sont transmises de manière périodique vers le serveur. De manière périodique signifie à des instants régulièrement espacés dans le temps ou à des instants irrégulièrement espacés dans le temps. Par exemple, il peut être envisagé que les métadonnées soient transmises toutes les 60s. La fréquence d’envoi des métadonnées peut également être programmée et varier selon les conditions météorologiques par exemple si les dispositifs de capture sont situés en extérieur. Lorsqu’il y a beaucoup de vent par exemple, les moyens de capture peuvent éventuellement bouger, selon leur localisation ou leur fixation au sol et ainsi il peut être choisi de transmettre les métadonnées avec une fréquence plus grande que lorsque le temps est calme. Chacun des dispositifs de capture peut également transmettre les métadonnées selon une fréquence différente puisque chacun des dispositifs de capture peut être sujet à des variations différentes selon son emplacement ou les conditions propres à son emplacement.According to a preferred embodiment, the metadata is transmitted periodically to the server. Periodically means at regularly spaced times in time or at irregularly spaced times in time. For example, it can be envisaged that the metadata be transmitted every 60 s. The frequency of sending metadata can also be programmed and vary depending on weather conditions, for example if the capture devices are located outdoors. When there is a lot of wind for example, the capture means may possibly move, depending on their location or their attachment to the ground and thus it may be chosen to transmit the metadata with a greater frequency than when the weather is calm. Each of the capture devices may also transmit the metadata at a different frequency since each of the capture devices may be subject to different variations depending on its location or the conditions specific to its location.

La transmission peut se faire en utilisant le réseau de communication sans fil, comme le réseau cellulaire 2G, 3G, 4G, 5G et plus ou alors en utilisant une connexion WIFI. Chacun des dispositifs de capture peut également utiliser un réseau différent pour transmettre la vidéo et les métadonnées.Transmission can be done using the wireless communication network, such as the 2G, 3G, 4G, 5G and more cellular network or using a WIFI connection. Each of the capture devices may also use a different network to transmit video and metadata.

Les images des flux vidéo sont préférentiellement transmises à un débit de 30 images par seconde. Dans d’autres modes de réalisation, elles peuvent être transmises à un rythme de 60, 120 ou 240 images par seconde. L’évolution des réseaux de communication et des standards vidéo peut permettre la transmission de vidéos de taille supérieure, par exemple Full HD, 4K, 8K en utilisant des réseaux de transmission comme la 5G et versions ultérieures, ou les réseaux WIFI de normes futures.The images of the video streams are preferably transmitted at a rate of 30 images per second. In other embodiments, they may be transmitted at a rate of 60, 120 or 240 frames per second. The evolution of communication networks and video standards may allow the transmission of larger videos, for example Full HD, 4K, 8K using transmission networks such as 5G and later versions, or WIFI networks of future standards.

Bien entendu, la vidéo peut être transmise de manière encodée (compressée) avant transmission en utilisant des algorithmes de codage tels MPEG-4, H.264 ou X.264 ou d’autres formats…Of course, the video can be transmitted in an encoded (compressed) manner before transmission using coding algorithms such as MPEG-4, H.264 or X.264 or other formats...

La représente un procédé de composition d’une vidéo composite selon un mode de réalisation particulier de l’invention. Le procédé est avantageusement mis en œuvre dans un serveur tel que représenté en .There represents a method of composing a composite video according to a particular embodiment of the invention. The method is advantageously implemented in a server as represented in .

Lors d’une étape T1, la vidéo (comprenant les étiquettes temporelles) et les métadonnées représentatives d’une première partie de la scène, et d’au moins une seconde partie de la scène, sont reçues. Les vidéos ont été capturées avec une même étiquette temporelle, elles peuvent donc être synchronisées à l’aide de ces étiquettes temporelles. De même, les métadonnées étant associées à une image, chaque image étant associée à une étiquette temporelle, les métadonnées sont donc associées à la même étiquette que l’image à laquelle elles sont associées.During a step T1, the video (including the time labels) and the metadata representative of a first part of the scene, and at least a second part of the scene, are received. The videos were captured with the same time tag, so they can be synchronized using those time tags. Likewise, the metadata being associated with an image, each image being associated with a temporal label, the metadata is therefore associated with the same label as the image with which it is associated.

Lors d’une étape T2, on détermine dans chacune des deux vidéos des points d’intérêt fixes dans la scène. La composition de la vidéo composite représentative de ladite scène est réalisée à partir des première et au moins une deuxième vidéos par mise en correspondance des points d’intérêt.During a step T2, fixed points of interest in the scene are determined in each of the two videos. The composition of the composite video representative of said scene is produced from the first and at least one second videos by matching the points of interest.

Lors de cette étape la détermination des points d’intérêt est liée à la nature de la scène capturée. Par exemple, lorsque la scène capturée est un match de football, 4 points d’intérêt sont déterminées sur chaque partie de la scène.During this step, the determination of points of interest is linked to the nature of the captured scene. For example, when the captured scene is a football match, 4 points of interest are determined on each part of the scene.

Selon un premier mode de réalisation, comme illustré en , les 4 points d’intérêt sont définis comme étant les points d’intersection entreAccording to a first embodiment, as illustrated in , the 4 points of interest are defined as being the points of intersection between

- La ligne médiane et les deux lignes de touche :- The center line and the two sidelines:

- les points Rlu et Rld pour la première partie de la vidéo représentant la partie droite de la scène en droite et les points Lru et Lrd pour la seconde partie de la vidéo en gauche représentant la partie gauche de la scène- the Rlu and Rld points for the first part of the video representing the right part of the scene in right and the points Lru and Lrd for the second part of the video in left representing the left part of the scene

- La ligne de but et les deux lignes de touche :- The goal line and the two touchlines:

les points Rru et Rrd pour la première partie de la vidéo représentant la partie droite de la scène en droite et les points Llu et Lld pour la seconde partie de la vidéo en gauche représentant la partie gauche de la scènethe points Rru and Rrd for the first part of the video representing the right part of the scene in right and the points Llu and Lld for the second part of the video in left representing the left part of the scene

Le procédé de composition et particulièrement la détection des points d’intérêt sont liés au type de scène filmée. Ainsi, le procédé de composition pourra être paramétré au préalable avec le type d’événement capturé.The composition process and particularly the detection of points of interest are linked to the type of scene filmed. Thus, the composition process can be configured in advance with the type of event captured.

Selon un mode de réalisation préféré, les points d’intrêts sont déterminés en utilisant différentes fonctions et algorithmes de la librairie open-cv. Tout d’abord les masques de couleur (vert pour le terrain et blanc pour les lignes). La détection de contours peut-être effectuée par le filtre de Canny (algorithme de canny), par la méthode des gradients ou du laplacien. Afin d’éliminer les faux-positifs restant, le procédé met en œuvre les librairies open-cv, numpy, et skimage.morphologie dans python (ou équivalent en langage C++) ou l’algorithme watershed (ou ligne de partages des eaux). La fonction morpho est calibrée pour ne garder que les éléments en ligne droite les plus longs (éliminant ainsi les buts comprenant les poteaux et la barre transversale, le rond central ou la surface de réparation pour l’exemple du football).According to a preferred embodiment, the points of interest are determined using different functions and algorithms from the open-cv library. First of all, the color masks (green for the terrain and white for the lines). Contour detection can be carried out by the Canny filter (Canny algorithm), by the gradient or Laplacian method. In order to eliminate the remaining false positives, the process implements the open-cv, numpy, and skimage.morphology libraries in python (or equivalent in C++ language) or the watershed algorithm. The morpho function is calibrated to keep only the longest straight line elements (thus eliminating goals including the posts and the crossbar, the central circle or the penalty area for the example of football).

Selon un mode particulier de réalisation la détermination, à l’étape T2, de points d’intérêt fixes dans chacune desdites vidéos peut comprendre :According to a particular embodiment, the determination, in step T2, of fixed points of interest in each of said videos may include:

- la transmission à au moins un dispositif d’analyse vidéo, des au moins deux vidéos reçues représentatives chacune d’au moins une partie de la scène,- the transmission to at least one video analysis device of the at least two videos received, each representative of at least one part of the scene,

- La réception du au moins un dispositif d’analyse vidéo, des points d’intérêt relatifs à chacune des parties de ladite scène.- Receiving from at least one video analysis device, points of interest relating to each of the parts of said scene.

Le dispositif d’analyse vidéo est représenté en The video analysis device is represented in

Ceci peut éventuellement permettre la détermination des points d’intérêt par un autre dispositif et éventuellement permettre si besoin d’ajuster les points d’intérêt dans le cas où la détection automatique ne pourrait avoir lieu, par exemple par l’intervention d’un utilisateur.This can possibly allow the points of interest to be determined by another device and possibly allow the points of interest to be adjusted if necessary in the event that automatic detection cannot take place, for example through the intervention of a user. .

Par exemple, si seulement trois points d’intérêt peuvent être déterminés lors de l’étape T2 par le procédé, alors l’utilisateur peut être amené à positionner un quatrième point d’intérêt pour améliorer le procédé de composition, plus fiable avec quatre points d’intérêt qu’avec trois points d’intérêt.For example, if only three points of interest can be determined during step T2 by the method, then the user may be required to position a fourth point of interest to improve the composition process, more reliable with four points of interest than with three points of interest.

- la transmission à au moins un dispositif d’analyse vidéo, des au moins deux vidéos reçues représentatives chacune d’au moins une partie de la scène, et des points d’intérêt,- the transmission to at least one video analysis device of the at least two videos received, each representative of at least one part of the scene, and of the points of interest,

- La réception du au moins un dispositif d’analyse vidéo, de nouveaux points d’intérêt relatifs à chacune des parties de ladite scène.- Receiving from at least one video analysis device, new points of interest relating to each of the parts of said scene.

Ainsi, ceci peut avantageusement ajuster un ou plusieurs points d’intérêt lorsque la détection automatique ne fonctionne pas correctement ou de manière suffisamment précise.Thus, this can advantageously adjust one or more points of interest when the automatic detection does not work correctly or sufficiently precisely.

Selon un autre mode particulier de réalisation la détermination, à l’étape T2, de points d’intérêt fixes dans chacune desdites vidéos peut comprendre :According to another particular embodiment, the determination, in step T2, of fixed points of interest in each of said videos may include:

- La réception du au moins un dispositif d’analyse vidéo, d’un message de validation de la position de au moins un des points d’intérêt.- Receipt from at least one video analysis device of a message validating the position of at least one of the points of interest.

Ceci peut avantageusement permettre à un utilisateur ou un opérateur de confirmer ou non la détection automatique de la position des points d’intérêt.This can advantageously allow a user or an operator to confirm or not the automatic detection of the position of points of interest.

Selon un autre mode de réalisation, lors de la transmission à au moins un dispositif d’analyse vidéo, des au moins deux vidéos reçues représentatives chacune d’au moins une partie de la scène, les deux vidéos sont transmises à la même résolution (définition) et plus particulièrement à la résolution la plus faible de celle des deux vidéos lorsque les deux vidéos ne sont pas capturées selon la même définition.According to another embodiment, during transmission to at least one video analysis device, of the at least two received videos each representative of at least one part of the scene, the two videos are transmitted at the same resolution (definition ) and more particularly at the lower resolution of that of the two videos when the two videos are not captured according to the same definition.

Selon un autre mode de réalisation préféré, outre la position des points d’intérêt, des données telles que la détection des limites du terrain peuvent être transmises et validées ou corrigées par le dispositif d’analyse vidéo. Plus généralement, des données de géométrie relatives à ladite scène peuvent être transmises au dispositif d’analyse vidéo et repositionnées par celui-ci ou validées par celui-ci. Ainsi, selon ce mode de réalisation l’étape T2 peut comprendre :According to another preferred embodiment, in addition to the position of the points of interest, data such as the detection of the boundaries of the terrain can be transmitted and validated or corrected by the video analysis device. More generally, geometry data relating to said scene can be transmitted to the video analysis device and repositioned by it or validated by it. Thus, according to this embodiment, step T2 can include:

- la transmission à au moins un dispositif d’analyse vidéo, des au moins deux vidéos reçues représentatives chacune d’au moins une partie de la scène, des points d’intérêt ou de données relatives à la géométrie de la partie de la scène,- the transmission to at least one video analysis device of the at least two videos received, each representative of at least one part of the scene, points of interest or data relating to the geometry of the part of the scene,

- La réception du au moins un dispositif d’analyse vidéo, d’un message de validation de la position de au moins un des points d’intérêt ou de la géométrie de la scène.- Receipt from at least one video analysis device of a message validating the position of at least one of the points of interest or the geometry of the scene.

Lors d’une étape T3, les métadonnées reçues avec chaque vidéo sont analysées pour étudier leur variation. Comme décrit dans la , les métadonnées sont représentatives d’une position géographique des moyens de capture, de l’assiette, de l’inclinaison ou de la boussole (l’inclinaison des moyens de capture par rapport au Nord). Les métadonnées sont transmises de manière périodique, à des intervalles de temps réguliers ou non, et analysées lors de leur réception en les comparant à des métadonnées de référence. Les métadonnées de référence dont des métadonnées transmises par les moyens de capture lors de leur initialisation ou mise en place (lors du verrouillage). Si cette comparaison détecte que la position géographique (par exemple la latitude ou la longitude), ou l’inclinaison, ou l’assiette ou la boussole ont varié et que la variation est supérieure à un seuil donné, alors les points d’intérêt sont recalculés. Comme indiqué, ces variations sont dues à un déplacement des moyens de capture. De manière avantageuse, lorsque les métadonnées ne varient pas, par exemple parce que les moyens de capture ne sont pas accessibles facilement et ne peuvent donc pas être déplacés par inadvertance ou lorsque les conditions météorologiques sont bonnes (absence de vent par exemple), alors la comparaison peut se faire de manière plus espacée dans le temps et pas systématiquement à chaque réception de nouvelle métadonnée.During a step T3, the metadata received with each video are analyzed to study their variation. As described in the , the metadata are representative of a geographical position of the capture means, the attitude, the inclination or the compass (the inclination of the capture means relative to North). Metadata is transmitted periodically, at regular or irregular time intervals, and analyzed upon receipt by comparing it to reference metadata. Reference metadata including metadata transmitted by the capture means during their initialization or implementation (during locking). If this comparison detects that the geographic position (e.g. latitude or longitude), or inclination, or attitude or compass has varied and the variation is greater than a given threshold, then the points of interest are recalculated. As indicated, these variations are due to a movement of the capture means. Advantageously, when the metadata does not vary, for example because the capture means are not easily accessible and therefore cannot be moved inadvertently or when the weather conditions are good (absence of wind for example), then the comparison can be done more spaced out over time and not systematically each time new metadata is received.

Si le résultat de la comparaison, étape T4, est supérieur à un seuil, chaque seuil étant défini pour chaque type de métadonnée, alors les points d’intérêt sont redéfinis. Sinon les points d’intérêt ne sont pas redéfinis. Bien entendu, les points d’intérêt étant utilisés lors de l’étape T5, ils sont toujours définis au lancement du procédé lors de la réception des premières métadonnées, les étapes d’analyse et de comparaison T3 et T4 intervenant ensuite au cours de la capture pour vérifier la stabilité géographique des dispositifs de capture.If the result of the comparison, step T4, is greater than a threshold, each threshold being defined for each type of metadata, then the points of interest are redefined. Otherwise the points of interest are not redefined. Of course, the points of interest being used during step T5, they are always defined at the launch of the process when receiving the first metadata, the analysis and comparison steps T3 and T4 then occurring during the capture to check the geographic stability of capture devices.

Selon un autre mode de réalisation les métadonnées ne sont pas comparées à un seuil mais doivent être comprises dans une plage de tolérance centrée autour de la valeur de la première métadonnée reçue correspondante dite métadonnée de référence.According to another embodiment, the metadata are not compared to a threshold but must be included in a tolerance range centered around the value of the first corresponding metadata received called reference metadata.

Il est possible qu’un seul des dispositifs de capture ait bougé et que la variation des métadonnées associées soit suffisamment importante pour nécessiter un nouveau calcul des points d’intérêt. Dans cas, les points d’intérêt sont recalculés uniquement pour cette partie de la vidéo lors de l’étape T2.It is possible that only one of the capture devices has moved and that the variation in the associated metadata is significant enough to require a recalculation of the points of interest. In this case, the points of interest are recalculated only for this part of the video during step T2.

Selon un autre mode de réalisation, plusieurs seuils peuvent être définis.According to another embodiment, several thresholds can be defined.

Le premier seuil S1 est défini comme étant un seuil au-dessous duquel la variation des métadonnées n’implique pas de recalcul de position des points d’intérêt.The first threshold S1 is defined as being a threshold below which the variation of the metadata does not involve recalculation of the position of the points of interest.

Le second seuil S2 est défini comme étant un seuil au-dessus duquel les au moins deux dispositifs de capture ne capturent plus de zone commune permettant la détermination d’un nombre suffisants de points d’intérêt fixes pour la composition de la vidéo composite.The second threshold S2 is defined as being a threshold above which the at least two capture devices no longer capture a common area allowing the determination of a sufficient number of fixed points of interest for the composition of the composite video.

Si la variation des métadonnées est sous le premier seuil S1, alors il n’y a pas de recalcul des points d’intérêt car cette faible variation n’implique pas de déformations des symétries ni des parallélismes de l’image composite à construire.If the variation of the metadata is below the first threshold S1, then there is no recalculation of the points of interest because this low variation does not imply deformation of the symmetries or parallelisms of the composite image to be constructed.

Si la variation des métadonnées est comprise entre ce premier seuil S1 et le second seuil S2, alors un recalcul des points d’intérêt est nécessaire comme indiqué ci-dessus.If the variation of the metadata is between this first threshold S1 and the second threshold S2, then a recalculation of the points of interest is necessary as indicated above.

Si la variation des métadonnées est supérieure à ce second seuil S2, alors le repositionnement des moyens ou d’au moins l’un des moyens de capture, est nécessaire avant le recalcul des points d’intérêt.If the variation of the metadata is greater than this second threshold S2, then the repositioning of the means or at least one of the capture means is necessary before recalculating the points of interest.

Lors d’une étape T5, une vidéo composite représentant la scène est composée à partir des deux vidéos représentant chacune au moins une partie de la scène et des points d’intérêt.During a step T5, a composite video representing the scene is composed from the two videos each representing at least part of the scene and points of interest.

Lors de cette étape, en référence à la , il s’agit de créer une unique vidéo, appelée vidéo composite, dans laquelle une unique scène est créée. La scène recomposée à partir des deux demi-scènes des vidéos de gauche et vidéos de droite est représentée en dessous.During this step, with reference to the , this involves creating a single video, called a composite video, in which a single scene is created. The scene recomposed from the two half-scenes of the left videos and right videos is shown below.

Ainsi, lors de cette étape, les deux vidéos sont mises en correspondance, en faisant correspondre les points Lru et Rlu et les points Lrd et Rld. Ceci est illustré en basse, les points d’intérêt Lru et Rlu sont confondus de même que les points d’intérêt Lrd et Rld.Thus, during this step, the two videos are matched, by matching the points Lru and Rlu and the points Lrd and Rld. This is illustrated in low, the points of interest Lru and Rlu are combined as are the points of interest Lrd and Rld.

La composition est réalisée en utilisant des algorithmes d’assemblage graphique, « stitching » en anglais, et de coupage, « cropping » en anglais. Dans le cas d’une scène représentant un terrain de sport, les contraintes suivantes sont prises en compte pour la composition de la vidéo composite :The composition is carried out using graphic stitching and cropping algorithms. In the case of a scene representing a sports field, the following constraints are taken into account for the composition of the composite video:

- L’image composite doit avoir les lignes de touches haute et basse parallèles,- The composite image must have the top and bottom key lines parallel,

- L’image composite doit avoir la ligne médiane perpendiculaire aux lignes de touches,- The composite image must have the center line perpendicular to the key lines,

- Les lignes longeant les buts sur l’image composite sont chirales,- The lines along the goals on the composite image are chiral,

- La longueur de ligne de touche basse doit faire 2 fois la définition du flux de plus basse résolution, en nombre de pixels,- The length of the bottom touchline must be twice the definition of the lowest resolution stream, in number of pixels,

- la hauteur de la ligne médiane est choisie en comparant les hauteurs des deux points d’intérêt commun et en conservant la plus grande, la seconde devra s’étirer pour y correspondre.- the height of the center line is chosen by comparing the heights of the two points of common interest and keeping the largest, the second will have to stretch to match it.

- Dans le cas de 3 dispositifs de capture, la hauteur de la ligne médiane sur le dispositif de capture central sera le référent,- In the case of 3 capture devices, the height of the center line on the central capture device will be the referent,

- La longueur de chaque moitié des lignes de touches hautes est identique- The length of each half of the high key lines is the same

- La largeur de l’image composite est de 2 fois la largeur du flux (si 2 flux), sa hauteur est réduite pour éliminer les zones de vides (trous) créées par le stiching.- The width of the composite image is 2 times the width of the flow (if 2 flows), its height is reduced to eliminate empty areas (holes) created by stiching.

Selon un mode de réalisation particulier, les algorithmes de coupage et collage utilisent des librairies python telles que open-cv et des fonctions cv2.getPerspectiveTransform et cv2.getWarpPerspective. Un encodage est ensuite réalisé en format X.264 avec la fonction cv2.videoWriter en précisant la taille de l’image (size) et le nombre d’images par seconde (fps). D’autres fonctions équivalentes peuvent être utilisées lorsque le langage de codage utilisé est le C++.According to a particular embodiment, the cutting and pasting algorithms use Python libraries such as open-cv and functions cv2.getPerspectiveTransform and cv2.getWarpPerspective. Encoding is then carried out in X.264 format with the cv2.videoWriter function, specifying the size of the image (size) and the number of images per second (fps). Other equivalent functions can be used when the coding language used is C++.

Selon un mode de réalisation particulier, cette étape peut comprendre une sous-étape de validation. Cette sous-étape de validation comprend la transmission à un dispositif d’analyse vidéo, d’une version, par exemple basse définition, de la vidéo composite.According to a particular embodiment, this step may include a validation sub-step. This validation sub-step includes the transmission to a video analysis device of a version, for example low definition, of the composite video.

Le terminal abonné peut recevoir, des instructions, par un utilisateur, pour ajuster certains points géométriques de la scène recomposée obtenus lors de la composition. Par exemple, dans le cadre d’un terrain de sport, il peut s’agir de l’ajustement des 4 coins du terrain de sport. Plus précisément, selon un mode préféré, seuls les deux points d’intérêt définis par l’intersection de la ligne de touche supérieure (haut de l’image) et les lignes de but sont modifiables. Les instructions peuvent aussi comprendre un ajustement, telle une diminution de la hauteur de l’image, en éliminant par exemple des éléments inutiles. Les instructions peuvent aussi comprendre le remplacement de ces zones inutiles par des bandeaux publicitaires.The subscriber terminal can receive instructions, from a user, to adjust certain geometric points of the recomposed scene obtained during composition. For example, in the context of a sports field, it may involve the adjustment of the 4 corners of the sports field. More precisely, according to a preferred mode, only the two points of interest defined by the intersection of the upper touchline (top of the image) and the goal lines are modifiable. The instructions may also include an adjustment, such as decreasing the height of the image, for example by eliminating unnecessary elements. The instructions may also include replacing these unnecessary areas with advertising banners.

Par zone inutile, on peut entendre par exemple, des zones à l’extérieur des limites du terrain.By unnecessary area, we can mean, for example, areas outside the boundaries of the land.

Lors de cette étape de composition T5, selon une variante, les différences entre les paramètres de couleur et luminosité, tels que par exemple le contraste, la luminosité, la saturation, l’exposition entre les deux vidéos sont également prises en compte afin de générer la vidéo composite. Ainsi, ces différences peuvent être lissées, des filtres peuvent également être appliqués pour homogénéiser, voire transformer, l’un ou l’autre flux pour avoir une vidéo composite homogène sur les deux parties ainsi rassemblées.During this composition step T5, according to a variant, the differences between the color and brightness parameters, such as for example contrast, brightness, saturation, exposure between the two videos are also taken into account in order to generate composite video. Thus, these differences can be smoothed out, filters can also be applied to homogenize, or even transform, one or the other stream to have a homogeneous composite video on the two parts thus brought together.

Une fois la vidéo recomposée à partir des points d’intérêt et des deux vidéos, elle est mise à disposition, étape T6.Once the video has been recomposed from the points of interest and the two videos, it is made available, step T6.

Selon une première variante, la mise à disposition consiste à enregistrer la vidéo composite de manière par exemple à la diffuser ultérieurement.According to a first variant, the provision consists of recording the composite video so as, for example, to broadcast it subsequently.

Selon une autre variante, la mise à disposition consiste en l’affichage.According to another variant, the provision consists of display.

Selon une autre variante, la mise à disposition consiste à transmettre la vidéo composite à un ou plusieurs dispositifs en vue de son affichage ou en vue de son enregistrement pour une visualisation ou utilisation ultérieure. La vidéo peut être enregistrée selon des résolutions différentes et ce en fonction de la capacité des réseaux de communication et des terminaux auxquelles elle est destinée.According to another variant, the provision consists of transmitting the composite video to one or more devices for its display or for its recording for later viewing or use. The video can be recorded at different resolutions depending on the capacity of the communication networks and terminals for which it is intended.

Les trois variantes peuvent bien entendu être combinées. De même, des définitions différentes de la vidéo composite peuvent être mises à disposition selon la bande passante, l’utilisation finale de la vidéo et les capacités du dispositif final d’utilisation de la vidéo.The three variants can of course be combined. Likewise, different definitions of composite video may be made available depending on bandwidth, the end use of the video, and the capabilities of the end device using the video.

Lorsque la mise à disposition consiste en l’affichage de la vidéo composite (pouvant d’ailleurs être précédée de l’enregistrement), selon un mode de réalisation particulier, la vidéo composite peut être enrichie par un utilisateur, ou de manière automatique par un programme.When the provision consists of the display of the composite video (which may also be preceded by recording), according to a particular embodiment, the composite video can be enriched by a user, or automatically by a program.

Dans un mode de réalisation, lorsque c’est un programme qui enrichie la vidéo composite, l’enrichissement peut être réalisé à l’aide d’un logiciel d’analyse d’image et de détection des actions préférentielles liées à l’événement diffusé. Par exemple, lors d’un match, il est possible de détecter les buts, les corners, et de compiler des statistiques, il est également possible de rajouter par exemple le nom des joueurs, le nombre de possessions de ballons, le nombre de ballons touchés, perdus, récupérés, le temps de possessions de ballons par joueur ou par équipe, le nombre de tirs cadrés ou pas, la distance parcourue par chaque joueur, par match, par poste et ainsi de voir l’évolution des statistiques lors d’une saison complète.In one embodiment, when it is a program which enriches the composite video, the enrichment can be carried out using image analysis software and detection of preferential actions linked to the broadcast event. . For example, during a match, it is possible to detect goals, corners, and compile statistics, it is also possible to add for example the names of the players, the number of ball possessions, the number of balls touched, lost, recovered, the time of ball possession by player or team, the number of shots on target or not, the distance covered by each player, by match, by position and thus to see the evolution of the statistics during a full season.

Lorsque c’est un utilisateur qui enrichie la vidéo composite, elle est transmise à au moins un dispositif d’analyse, par exemple un dispositif 3 tel qu’illustré en et utilisé par l’utilisateur qui va enrichir la vidéo composite. Dans ce cas, le procédé de composition de la vidéo comprendWhen it is a user who enriches the composite video, it is transmitted to at least one analysis device, for example a device 3 as illustrated in and used by the user who will enrich the composite video. In this case, the video composition process includes

- la réception, suite à la transmission, de données d’enrichissement de ladite scène,- the reception, following transmission, of enrichment data from said scene,

Lorsque la vidéo est transmise pour enrichissement, elle peut avantageusement être transmise avec un taux de compression élevé de manière à rendre la latence très basse. Le taux de compression est adapté au débit disponible. Ainsi, l’enrichissement se fait presque en direct ou « live » en anglais.When the video is transmitted for enrichment, it can advantageously be transmitted with a high compression ratio so as to make the latency very low. The compression rate is adapted to the available flow. Thus, the enrichment is done almost directly or “live” in English.

Un mode de réalisation, lorsque l’utilisateur enrichie la vidéo, est décrit ultérieurement en .One embodiment, when the user enriches the video, is described later in .

La , brièvement décrite ci-dessus illustre les deux parties de la scène et leur composition par le procédé de composition.There , briefly described above illustrates the two parts of the scene and their composition by the composition process.

La vidéo de gauche représente la capture vidéo d’un premier moyen de capture qui capture la partie droite d’un terrain de sport, plus particulièrement de football. Sur cette vidéo sont positionnés 4 points d’intérêt Llu, Lru, Lrd et Lld. Ces quatre points d’intérêt sont fixes et représentent comme décrit ci-dessus par exemple des intersections de lignes sur un terrain.The video on the left represents the video capture of a first means of capture which captures the right part of a sports field, more particularly a football field. On this video are positioned 4 points of interest Llu, Lru, Lrd and Lld. These four points of interest are fixed and represent, as described above, for example, intersections of lines on a piece of land.

La zone hachurée sur les deux vidéos de droite et de gauche représente une zone commune ou de chevauchement de la scène, c’est-à-dire une partie de la scène capturée par les deux dispositifs de capture vidéo. Ainsi les points Lru, Rlu représentent des points identiques de la scène et les points Lrd et Rld représentent également un même point de la scène.The hatched area on the two videos on the right and left represents a common or overlapping area of the scene, that is to say a part of the scene captured by the two video capture devices. Thus the points Lru, Rlu represent identical points of the scene and the points Lrd and Rld also represent the same point of the scene.

Le procédé de composition vidéo va générer la vidéo composite, vue de dessous de la , comme décrit précédemment en regard de la .The video composition process will generate the composite video, seen from below the , as described previously with regard to the .

Sur la , les points Lld et Rrd ne coïncident pas avec les bords de l’image. Ceci représente une version non limitative de l’image composite. Dans d’autres modes de réalisation, il est envisagé que les points d’intérêt Lld et Lrd coïncident avec les bords de l’image composite, celle-ci représentant alors en longueur la longueur du terrain. Ainsi la représente une parmi plusieures images composites, ceci dépendant du zoom souhaité. On peut envisager ainsi d’avoir une image composite comprenant uniquement le terrain ou également les ou une partie des tribunes, ou par exemple une zone tampon autour du terrain ou autour de certains bords du terrain.On the , the points Lld and Rrd do not coincide with the edges of the image. This represents a non-limiting version of the composite image. In other embodiments, it is envisaged that the points of interest Lld and Lrd coincide with the edges of the composite image, the latter then representing in length the length of the terrain. So the represents one of several composite images, depending on the desired zoom. We can thus envisage having a composite image including only the pitch or also the or part of the stands, or for example a buffer zone around the pitch or around certain edges of the pitch.

La représente un procédé d’analyse selon un mode particulier de réalisation de l’invention dans lequel la vidéo composite mise à disposition lors de l’étape T5 en référence à la , est transmise à un dispositif utilisateur. Ce dispositif utilisateur peut être, de manière non limitative, un téléphone mobile, un ordinateur, une tablette, une télévision…La vidéo composite est reçue sur le dispositif utilisateur lors de l’étape U1. Elle est également décodée si elle a été transmise de manière codée pour être ensuite affichée sur un écran du dispositif de l’utilisateur. Lors d’une étape U2, l’utilisateur positionne des informations, dites informations d’enrichissement, sur la vidéo composite ou associe à la vidéo composite des informations d’enrichissement. Les informations d’enrichissement, dans l’exemple d’un match de football, peuvent par exemple correspondre à des informations permettant d’annoter le match sous forme de mots tels que « but », « corner, « touche ». Elles peuvent également identifier les joueurs, ajouter des commentaires personnels de l’utilisateur, ajouter des statistiques sur le nombre de passes réussies, le score....Ces informations ainsi que la vidéo composite peuvent ensuite être affichées sur le terminal de l’utilisateur, transmises au serveur pour diffusion vers d’autres terminaux d’affichage ou enregistrées ou les deux.There represents an analysis method according to a particular embodiment of the invention in which the composite video made available during step T5 with reference to the , is transmitted to a user device. This user device can be, without limitation, a mobile phone, a computer, a tablet, a television, etc. The composite video is received on the user device during step U1. It is also decoded if it has been transmitted in an encoded manner to then be displayed on a screen of the user's device. During a step U2, the user positions information, called enrichment information, on the composite video or associates enrichment information with the composite video. The enrichment information, in the example of a football match, can for example correspond to information allowing the match to be annotated in the form of words such as "goal", "corner", "touch". They can also identify players, add personal comments from the user, add statistics on the number of successful passes, score, etc. This information as well as the composite video can then be displayed on the user's terminal , transmitted to the server for broadcast to other display terminals or recorded or both.

Pour ce faire, l’utilisateur utilise de manière avantageuse mais non limitative une interface utilisateur. Cette interface graphique peut par exemple lui permettre de venir sélectionner des événements prédéfinis correspondant au type de scène capturée. Par exemple, lorsque la scène est un match de football, les événements prédéfinis peuvent être « but », « corner », « touche ». L’utilisateur peut également venir associer des noms aux joueurs, demander la compilation de statistiques…To do this, the user uses a user interface in an advantageous but non-limiting manner. This graphical interface can for example allow it to select predefined events corresponding to the type of scene captured. For example, when the scene is a football match, the predefined events can be "goal", "corner", "touch". The user can also associate names with players, request the compilation of statistics, etc.

Si l’événement est un concert alors il peut venir rajouter le titre de la chanson, il peut également positionner le nom des musiciens, l’année de la chanson, le titre de l’album…If the event is a concert then it can add the title of the song, it can also position the name of the musicians, the year of the song, the title of the album, etc.

Ainsi, les informations d’enregistrement sont obtenues ou positionnées en fonction d’une analyse du contenu de la scène.Thus, recording information is obtained or positioned based on an analysis of the scene content.

Une fois les données d’enrichissement positionnées, lors d’une étape U3, la vidéo composite et les données d’enrichissement sont synchronisées si besoin.Once the enrichment data is positioned, during a step U3, the composite video and the enrichment data are synchronized if necessary.

Finalement, lors d’une étape U4, la vidéo composite enrichie des informations d’enrichissement est mise à disposition.Finally, during a step U4, the composite video enriched with enrichment information is made available.

Selon une première variante, la mise à disposition consiste à enregistrer la vidéo composite enrichie de manière à la diffuser ultérieurement par exemple.According to a first variant, the provision consists of recording the enriched composite video so as to broadcast it subsequently, for example.

Selon une autre variante, la mise à disposition consiste en l’affichage de la vidéo composite enrichie sur le terminal de l’utilisateur.According to another variant, the provision consists of displaying the enriched composite video on the user's terminal.

Selon une autre variante, la mise à disposition consiste à transmettre la vidéo composite enrichie à un serveur ou à un ou plusieurs dispositifs en vue de son affichage ou en vue de son enregistrement pour une visualisation ou utilisation ultérieure.According to another variant, the provision consists of transmitting the enriched composite video to a server or to one or more devices for its display or for its recording for later viewing or use.

Lorsque le serveur reçoit la vidéo enrichie, il peut également compiler ou avoir analysé la vidéo et comparer son analyse aux données d’enrichissement pour vérifier ces dernières. En cas de conflit lors de la vérification, une demande de validation peut être transmise au dispositif d’analyse vidéo et donc à l’utilisateur par l’intermédiaire de l’interface graphique par exemple.When the server receives the enriched video, it may also compile or have analyzed the video and compare its analysis to the enrichment data to verify the latter. In the event of a conflict during verification, a validation request can be transmitted to the video analysis device and therefore to the user via the graphical interface for example.

Les trois variantes peuvent, bien entendu, être combinées.The three variants can, of course, be combined.

Le procédé est mis en œuvre dans un dispositif d’analyse et par exemple un dispositif d’analyse tel que décrit en .The method is implemented in an analysis device and for example an analysis device as described in .

La représente un dispositif de capture configuré pour mettre en œuvre un procédé tel que décrit en .There represents a capture device configured to implement a method as described in .

Le dispositif 1 comprend des moyens de capture 11. Les moyens de capture 11 sont de préférence une caméra telle que l’on peut retrouver dans un téléphone mobile. Ainsi, de préférence, le dispositif 1 est un téléphone mobile mais peut également être un ordinateur ou plus généralement un dispositif équipé de moyens de capture. Les moyens de capture capturent au moins une partie d’une scène vidéo selon un mode de réalisation préféré.The device 1 comprises capture means 11. The capture means 11 are preferably a camera such as can be found in a mobile telephone. Thus, preferably, the device 1 is a mobile telephone but can also be a computer or more generally a device equipped with capture means. The capture means capture at least part of a video scene according to a preferred embodiment.

Le dispositif 1 comprend également des moyens d’affichage 16. Ces moyens d’affichage sont optionnels mais peuvent permettre avantageusement de visualiser la scène capturée par les moyens de capture 11. Le dispositif 1 comprend également une interface de communication 14 adaptée à communiquer avec des dispositifs distants, tels que par exemple mais non limitativement avec un serveur 4. Cette interface de communication peut être de type cellulaire (3G, 4G, 5G…) ou WIFI ou les deux, voire d’autres protocoles. Le dispositif 1 comprend également une mémoire 15 contenant des données et instructions de programme et une mémoire 12 permettant d’enregistrer des données, telles par exemple des données vidéos. La mémoire 12 peut par exemple enregistrer de manière temporaire ou plus long terme les données capturées par les moyens de capture 11, avant transmission à l’interface de communication 14. Le dispositif 1 comprend un processeur 13 apte à coopérer avec les moyens précités du dispositif 1 et principalement configuré pour mettre en œuvre le procédé décrit en . Le dispositif 1 comprend également un accéléromètre 18, un capteur GPS 17, un magnétomètre 19 et un gyroscope (électronique) 20. Le capteur GPS 17 permet de déterminer la position géographique du dispositif de capture et l’accéléromètre 18 permet de déterminer les mouvements de l’appareil (la vitesse de déplacement). Le gyroscope 20 permet de mesurer la rotation du dispositif de capture et le magnétomètre 19 fonctionne comme une boussole numérique. Ainsi, l’inclinaison, la boussole, et l’assiette du dispositif de capture sont mesurés. En outre un journal des positions du dispositif de capture peut être tenu à jour.The device 1 also includes display means 16. These display means are optional but can advantageously make it possible to view the scene captured by the capture means 11. The device 1 also includes a communication interface 14 adapted to communicate with remote devices, such as for example but not limited to a server 4. This communication interface can be cellular (3G, 4G, 5G, etc.) or WIFI or both, or even other protocols. The device 1 also includes a memory 15 containing data and program instructions and a memory 12 making it possible to record data, such as for example video data. The memory 12 can for example record temporarily or in the longer term the data captured by the capture means 11, before transmission to the communication interface 14. The device 1 comprises a processor 13 capable of cooperating with the aforementioned means of the device 1 and mainly configured to implement the method described in . The device 1 also includes an accelerometer 18, a GPS sensor 17, a magnetometer 19 and an (electronic) gyroscope 20. The GPS sensor 17 makes it possible to determine the geographical position of the capture device and the accelerometer 18 makes it possible to determine the movements of the device (the speed of movement). The gyroscope 20 makes it possible to measure the rotation of the capture device and the magnetometer 19 functions like a digital compass. Thus, the inclination, the compass, and the attitude of the capture device are measured. In addition, a log of the positions of the capture device can be kept up to date.

Avant tout lancement de la capture selon un mode préféré de réalisation de l’invention, le dispositif de capture est verrouillé, c’est-à-dire qu’il est positionné dans une position considérée comme une position de référence. Il s’agit donc d’un verrouillage physique qui peut être suivi par un verrouillage numérique, permettant d’avoir un rendu constant, à savoir par exemple obtenir une vidéo n’ayant pas de zone surexposée. Lors du verrouillage physique, le dispositif de capture transmet des métadonnées obtenues par le capteur GPS 17 et l’accéléromètre 18 qui constituent les métadonnées de référence utilisées par le procédé selon la pour la comparaison avec les métadonnées transmises ensuite de manière périodique.Before any launch of capture according to a preferred embodiment of the invention, the capture device is locked, that is to say it is positioned in a position considered as a reference position. It is therefore a physical locking which can be followed by a digital locking, making it possible to have a constant rendering, i.e. for example obtaining a video which does not have an overexposed area. During physical locking, the capture device transmits metadata obtained by the GPS sensor 17 and the accelerometer 18 which constitute the reference metadata used by the method according to the for comparison with the metadata subsequently transmitted periodically.

La décrit un dispositif 4 de composition de vidéo et de manière préférée un dispositif de type serveur. Ainsi ce serveur peut par exemple être situé à distance ou dans le « nuage informatique » bien connu en anglais sous le terme de « cloud ». Par ailleurs, selon certains modes de réalisation, les fonctions de ce dispositif peuvent être distribuées dans plusieurs serveurs. Par exemple le dispositif d’analyse 3 peut recevoir les données (vidéo composite et points d’intérêt) d’un premier serveur et transmettre la vidéo enrichie et/ou les données d’enrichissement à un autre serveur, physiquement différent du serveur qui lui a transmis la vidéo composite et éventuellement les points d’intérêt. De même un troisième serveur peut communiquer/coopérer avec l’un ou l’autre des serveurs pour transmettre la vidéo à une ou plusieurs résolutions supplémentaires.There describes a video composition device 4 and preferably a server type device. Thus this server can for example be located remotely or in the “computing cloud” well known in English under the term “cloud”. Furthermore, according to certain embodiments, the functions of this device can be distributed across several servers. For example, the analysis device 3 can receive the data (composite video and points of interest) from a first server and transmit the enriched video and/or the enrichment data to another server, physically different from the server which serves it. transmitted the composite video and possibly the points of interest. Likewise a third server can communicate/cooperate with either server to transmit the video at one or more additional resolutions.

Le dispositif de communication de vidéo 4 comprend un processeur 47 configuré pour mettre en œuvre un procédé de composition vidéo tel que décrit en . Le processeur 47 collabore avec une mémoire d’enregistrement 43 et une mémoire de programme 44. La mémoire d’enregistrement 43 peut par exemple enregistrer de manière temporaire ou plus long terme les données reçues ou transmises par les interfaces de communication 41a, 41b, 41c. Les interfaces de communication 41a, 41b, 41c sont de préférence adaptées à communiquer respectivement avec plusieurs dispositifs de capture 1, un ou plusieurs dispositifs d’analyse 3. Le nombre d’interfaces de communication est donné à titre illustratif. De telles interfaces de communication sont de manière préférée des interfaces de type cellulaire (3 G, 4G, 5G et futures…) ou WIFI norme 5, 6 et futures ou les deux.The video communication device 4 comprises a processor 47 configured to implement a video composition method as described in . The processor 47 collaborates with a recording memory 43 and a program memory 44. The recording memory 43 can for example record temporarily or in the longer term the data received or transmitted by the communication interfaces 41a, 41b, 41c . The communication interfaces 41a, 41b, 41c are preferably adapted to communicate respectively with several capture devices 1, one or more analysis devices 3. The number of communication interfaces is given for illustration purposes. Such communication interfaces are preferably cellular type interfaces (3 G, 4G, 5G and future, etc.) or WIFI standard 5, 6 and future or both.

La représente un dispositif d’analyse vidéo 3 selon un mode préféré de réalisation.There represents a video analysis device 3 according to a preferred embodiment.

Le dispositif 3 comprend un processeur 33 configuré pour mettre en œuvre un procédé d’analyse vidéo tel que décrit en . La mémoire 35 comprend des données et instructions de programme du processeur 33 et la mémoire 32 est utilisée pour enregistrer notamment de manière temporaire ou permanente la vidéo reçue à travers l’interface de communication 34 et des données d’enrichissement saisies par l’utilisateur par l’intermédiaire de l’interface graphique 37. L’interface de communication 34 est de manière préférée une interface de type cellulaire (3 G, 4G, 5G…) ou WIFI ou les deux.The device 3 comprises a processor 33 configured to implement a video analysis method as described in . The memory 35 includes data and program instructions of the processor 33 and the memory 32 is used to record in particular temporarily or permanently the video received through the communication interface 34 and enrichment data entered by the user by via the graphical interface 37. The communication interface 34 is preferably a cellular type interface (3 G, 4G, 5G, etc.) or WIFI or both.

La représente un système selon un mode préféré de réalisation de l’invention. Deux dispositifs de capture 1a et 1b sont disposés autour d’une scène 2, ici un match de football. Les deux dispositifs sont disposés de manière à filmer chacun au moins une partie du terrain de football, avec une zone de chevauchement, c’est-à-dire que chacun des dispositifs peut capturer plus d’un demi-terrain. Les deux dispositifs 1a et 1b sont configurés pour mettre en œuvre un procédé de capture selon l’invention et décrit en regard de la . Les deux dispositifs 1a et 1b transmettent chacun à travers leurs interfaces de communication respectives, la vidéo capturée (incluant dans un mode de réalisation préféré les étiquettes temporelles) et les métadonnées au serveur 4. Le serveur 4 peut être composé d’un ou plusieurs dispositifs distincts. Le serveur 4 est configuré pour mettre en œuvre un procédé de composition de vidéo selon l’invention et plus précisément décrit en . Le serveur 4 transmet la vidéo obtenue selon le procédé de composition vidéo à un dispositif 3 d’analyse vidéo qui enrichie la vidéo selon le procédé d’analyse décrit en et retransmet la vidéo enrichie et/ou les données d’enrichissement et ou la validation de points d’intérêt ou la validation de données d’enrichissement au serveur 4. Le serveur 4 enregistre ensuite les données d’enregistrement et/ou la vidéo annotée ou les transmet au dispositif 5 pour affichage ou enregistrement ou au dispositif 3. Le dispositif 5 est un dispositif électronique tel que par exemple un téléphone mobile, un ordinateur, un téléviseur.There represents a system according to a preferred embodiment of the invention. Two capture devices 1a and 1b are arranged around a scene 2, here a football match. The two devices are arranged so as to each film at least part of the football field, with an overlapping zone, that is to say that each of the devices can capture more than half a field. The two devices 1a and 1b are configured to implement a capture method according to the invention and described with regard to the . The two devices 1a and 1b each transmit through their respective communication interfaces, the captured video (including in a preferred embodiment the time labels) and the metadata to the server 4. The server 4 can be composed of one or more devices distinct. The server 4 is configured to implement a video composition method according to the invention and more precisely described in . The server 4 transmits the video obtained according to the video composition method to a video analysis device 3 which enriches the video according to the analysis method described in and retransmits the enriched video and/or enrichment data and/or point of interest validation or enrichment data validation to server 4. Server 4 then records the recording data and/or annotated video or transmits them to the device 5 for display or recording or to the device 3. The device 5 is an electronic device such as for example a mobile telephone, a computer, a television.

Selon un mode de réalisation préféré, un tel système peut être utilisé selon le scénario suivant.According to a preferred embodiment, such a system can be used according to the following scenario.

Le dispositif d’analyse 3 reçoit des instructions par un utilisateur pour lancer une application. De préférence le dispositif d‘analyse 3 est un téléphone mobile. L’application reçoit de l’utilisateur un paramétrage de l’application. Un tel paramétrage peut être par exemple une indication du type d’événement capturé, par exemple un match de sport, par exemple de football. L’application reçoit également des informations relatives au nombre de dispositifs de capture 1a, 1b utilisés pour la capture de l’événement. De même ces dispositifs de capture sont de préférence des téléphones mobiles. L’application créé un QR-code pour chaque dispositif de capture 1a, 1b.The analysis device 3 receives instructions from a user to launch an application. Preferably the analysis device 3 is a mobile telephone. The application receives application settings from the user. Such a setting may for example be an indication of the type of event captured, for example a sports match, for example football. The application also receives information relating to the number of capture devices 1a, 1b used for capturing the event. Likewise, these capture devices are preferably mobile phones. The application creates a QR code for each capture device 1a, 1b.

Chacun des dispositifs de capture 1a, 1b, scanne l’un des QR-code présents sur le dispositif d’analyse 3. Ceci permet de lier chaque dispositif de capture à l’un des flux. Ceci permet de lancer une application sur les dispositifs de capture ou de télécharger l’application si elle n’était pas présente puis de lancer la synchronisation de l’horloge selon le protocole NTP. Selon des modes de réalisation avantageux, les dispositifs de capture peuvent également faire des tests de débit pour vérifier la bande passante adaptée en fonction des paramètres du réseau, du type de réseau disponible (2G, 4G, 5G, WIFI norme 5, 6...), de l’environnement.Each of the capture devices 1a, 1b scans one of the QR codes present on the analysis device 3. This makes it possible to link each capture device to one of the flows. This allows you to launch an application on the capture devices or download the application if it was not present and then start clock synchronization using the NTP protocol. According to advantageous embodiments, the capture devices can also carry out flow tests to check the appropriate bandwidth depending on the network parameters, the type of network available (2G, 4G, 5G, WIFI standard 5, 6, etc.). .), of the environment.

Les dispositifs de capture s’identifient également auprès du serveur 4 de façon à permettre au serveur 4 de détecter quel flux est associé à quel dispositif de capture et éventuellement de modifier ceci.The capture devices also identify themselves with the server 4 so as to allow the server 4 to detect which stream is associated with which capture device and possibly modify this.

Un opérateur verrouille ensuite la position des dispositifs de capture autour de la scène en vérifiant que chaque partie de la scène capturée par chacun des dispositifs de capture comprend au moins une zone de chevauchement dans laquelle deux points d’intérêt fixes peuvent être déterminés. Cette détermination peut être visuelle par l’opérateur mais cette détermination peut également se faire au niveau du serveur. Par exemple le serveur peut transmettre sur les dispositifs de capture des notifications pour orienter/déplacer les dispositifs de capture, tant qu’il n’a pas réussi à déterminer une première fois, de points d’intérêt communs. Une fois les points d’intérêt communs détectés, l’opérateur verrouille la position physique des dispositifs de capture. Ensuite, comme décrit précédemment, les points d’intérêt sont recalculés automatiquement en fonction de la variation des métadonnées. Seule une variation importante des métadonnées ne permettant plus la détection de points d’intérêt rendra nécessaire le repositionnement physique des dispositifs de capture.An operator then locks the position of the capture devices around the scene by verifying that each part of the scene captured by each of the capture devices includes at least one overlapping area in which two fixed points of interest can be determined. This determination can be visual by the operator but this determination can also be made at the server level. For example, the server can transmit notifications to the capture devices to orient/move the capture devices, as long as it has not succeeded in determining common points of interest for the first time. Once common points of interest are detected, the operator locks the physical position of the capture devices. Then, as described previously, the points of interest are automatically recalculated based on the variation in the metadata. Only a significant variation in metadata no longer allowing the detection of points of interest will make it necessary to physically reposition the capture devices.

Lors du verrouillage, les métadonnées sont également enregistrées et constituent ainsi des métadonnées de référence de position des dispositifs de capture 1a, 1b. Ces métadonnées de référence sont utilisées lors de la comparaison avec les métadonnées reçues de manière périodique (régulièrement ou irrégulièrement) pour déterminer le besoin de recalcul de la position des points d’intérêt comme indiqué en référence à la .During locking, the metadata is also recorded and thus constitutes position reference metadata of the capture devices 1a, 1b. This reference metadata is used when comparing with metadata received periodically (regularly or irregularly) to determine the need for recalculation of the position of points of interest as indicated in reference to the .

La illustre le positionnement de deux dispositifs 1a et 1b de capture vidéo autour d’une scène de football. Les dispositifs 1a et 1b sont semblables au dispositif 1 décrit en . Ils sont positionnés géographiquement proches de la ligne médiane du terrain. Le dispositif 1a est orienté vers la partie gauche du terrain et le dispositif 1b est orienté vers la partie droite du terrain, de manière à ce que leurs moyens de capture respectifs capturent plus de la moitié de la scène soit plus d’un demi-terrain. Le dispositif de capture 1a a un angle de capture α et le dispositif de capture 1b a un angle de capture β .La zone hachurée de la montre la zone de chevauchement des deux captures vidéo opérées par le dispositif 1a et le dispositif 1b.There illustrates the positioning of two video capture devices 1a and 1b around a football scene. Devices 1a and 1b are similar to device 1 described in . They are positioned geographically close to the center line of the field. The device 1a is oriented towards the left part of the field and the device 1b is oriented towards the right part of the field, so that their respective capture means capture more than half of the scene, i.e. more than half a field . The capture device 1a has a capture angle α and the capture device 1b has a capture angle β. The hatched area of the shows the area of overlap of the two video captures taken by device 1a and device 1b.

La illustre le positionnement de trois dispositifs 1c, 1d et 1e de capture vidéo autour d’une scène de football. Les dispositifs 1c, 1d et 1e sont semblables aux dispositifs 1a et 1b décrits en référence à la mais les moyens de capture ont des angles de capture différents. Le troisième dispositif de capture 1e peut être placé de telle manière que ses moyens de capture soient parallèles à la ligne de touche.There illustrates the positioning of three video capture devices 1c, 1d and 1e around a football scene. Devices 1c, 1d and 1e are similar to devices 1a and 1b described with reference to but the capture means have different capture angles. The third capture device 1e can be placed in such a way that its capture means are parallel to the touchline.

Il peut être nécessaire de recourir à un nombre plus important de dispositifs de capture. Notamment lorsque deux dispositifs de capture ne sont pas suffisants pour capturer intégralement l’ensemble d’une scène, par exemple parce que leur angle de capture est insuffisant ou parce qu’ils ne peuvent pas être positionnés de manière à couvrir toute la scène. Certaines limitations techniques ou géographiques peuvent également provoquer l’ajout de nouveaux moyens de capture par exemple. Ici, les angles de capture respectifs γ et ε des dispositifs 1c et 1d étant inférieurs aux angles de capture des dispositifs 1a et 1b, un troisième dispositif 1e est ajouté dont l’angle de capture est µ. Ainsi le positionnement des trois dispositifs de capture et leurs angles permettent de couvrir l’intégralité du terrain.It may be necessary to use a larger number of capture devices. Particularly when two capture devices are not sufficient to fully capture an entire scene, for example because their capture angle is insufficient or because they cannot be positioned so as to cover the entire scene. Certain technical or geographical limitations may also lead to the addition of new means of capture, for example. Here, the respective capture angles γ and ε of the devices 1c and 1d being lower than the capture angles of the devices 1a and 1b, a third device 1e is added whose capture angle is µ. Thus the positioning of the three capture devices and their angles make it possible to cover the entire terrain.

La représente un un système selon un second mode de réalisation de l’invention. Un tel système est particulièrement avantageux lorsque les dispositifs de capture 1a et 1b ainsi que 3 ne sont pas connectés à un réseau tel un réseau cellulaire (3G, 4G, 5G, 6G) ou WIFI. Dans ce cas, en effet, ils ne peuvent pas communiquer avec un serveur tel qu’illustré en et donc transmettre les vidéos capturées pour recomposition à un serveur.There represents a system according to a second embodiment of the invention. Such a system is particularly advantageous when the capture devices 1a and 1b as well as 3 are not connected to a network such as a cellular network (3G, 4G, 5G, 6G) or WIFI. In this case, in fact, they cannot communicate with a server as illustrated in and therefore transmit the captured videos for recomposition to a server.

Une telle configuration est également avantageuse lorsque la bande passante entre les dispositifs de capture 1a et 1b et le serveur 4 est faible et ne permet pas l’émission des flux vidéos et métadonnées au serveur 3 à une qualité suffisante.Such a configuration is also advantageous when the bandwidth between the capture devices 1a and 1b and the server 4 is low and does not allow the transmission of video streams and metadata to server 3 at sufficient quality.

Dans ce mode de réalisation, les dispositifs de capture 1a, 1b et le dispositif d’analyse 3 communiquent par l’intermédiaire d’un réseau local établi entre eux. Ceci est notamment possible par le biais des réseaux WIFI nouvelle génération ou réseaux cellulaires 5G, 6G et 6E.In this embodiment, the capture devices 1a, 1b and the analysis device 3 communicate via a local network established between them. This is particularly possible through new generation WIFI networks or 5G, 6G and 6E cellular networks.

Dans ce mode de réalisation, le dispositif d’analyse 3 synchronise les deux dispositifs de capture 1a et 1b en créant une horloge temporelle provisoire qu’il leur transmet. Les flux vidéo des deux dispositifs 1a et 1b peuvent ensuite être synchronisés par le dispositif 3.In this embodiment, the analysis device 3 synchronizes the two capture devices 1a and 1b by creating a provisional time clock which it transmits to them. The video streams from the two devices 1a and 1b can then be synchronized by the device 3.

Le dispositif 3 reçoit les deux flux vidéo et construit la vidéo composite à partir des deux vidéos reçues et des métadonnées reçues. Pour ce faire, le dispositif 3 met en œuvre le procédé selon la . Une fois recomposée, la vidéo est ensuite enrichie par le dispositif 3 selon les étapes U2 à U4 du procédé décrit en .The device 3 receives the two video streams and constructs the composite video from the two received videos and the received metadata. To do this, the device 3 implements the method according to the . Once recomposed, the video is then enriched by the device 3 according to steps U2 to U4 of the method described in .

La vidéo ainsi enrichie est transmise au serveur 4 lorsque le dispositif 3 est de nouveau connecté à un réseau cellulaire ou WIFI ou lui permettant de bénéficier de suffisamment de bande passante pour la transmission. Le dispositif 3 et le serveur 4 peuvent ainsi enrichir, analyser la vidéo composite. De la même manière que précédemment, le serveur 4 peut demander des validations des informations d’enrichissement transmises par le dispositif 3 et compiler des statistiques.The thus enriched video is transmitted to the server 4 when the device 3 is again connected to a cellular or WIFI network or allowing it to benefit from sufficient bandwidth for transmission. The device 3 and the server 4 can thus enrich and analyze the composite video. In the same way as previously, the server 4 can request validations of the enrichment information transmitted by the device 3 and compile statistics.

Bien entendu par flux vidéo ou par vidéo, on entend également tout au long de la description précédente, l’audio associée à cette vidéo.Of course, by video stream or by video, we also mean throughout the preceding description, the audio associated with this video.

Claims

Video capture method comprising:
- video capture (E1a, E1b) of a scene (2),
- obtaining (E2a, E2b) at least one metadata from data associated with a fixed image of said scene (2), said metadata being representative of a geographical position of the capture device (1) at the time of 'a capture of the image,
- the transmission (E3a, E3b) of the video (2) and at least said metadata.

Video capture method according to claim 1 characterized in that said metadata further comprises one or more elements chosen from:
- an inclination of the video capture device (1),
- a plate of the video capture device (1),
- a compass for the video capture device (1).

Method for composing a video comprising:
- receiving (T1) from at least one first video capture device (1a) of a first video representative of a first part of a scene (2) and metadata associated with at least one still image of said first part of said scene, said metadata being representative of a geographical position of the first capture device (1a) at the time of capturing the image,
- receiving (T1) from at least one second video capture device (1b) of a second video representative of at least a second part of said scene (2) and of metadata associated with at least one still image of said second part of said scene, said metadata being representative of the geographical position of the second capture device (1b) at the time of capturing the image, said first and second videos being synchronized,
- the determination (T2) of fixed points of interest in each of said videos,
- said composition (T5) of a composite video representative of said scene from said first and at least one second videos by matching said points of interest,
- the provision (T6) of said video representative of said scene,
detecting (T3, T4) a movement of at least one of the two capture devices on the basis of the metadata received triggering a new determination (T2) of the fixed points of interest in said video captured by the moving device then said composition (T5) of a new composite video.

Method according to claim 3 characterized in that the determination (T2) of fixed points of interest in each of said videos comprises:
- transmitting said first and at least second videos to at least one video analysis device (3),
- receiving from said at least one video analysis device (3), said points of interest relating to each of said parts of said scene (2).

Method according to one of claims 3 to 4 characterized in that the provision (T6) comprises one or the other or more of:
- recording of said composite video,
- displaying said composite video,
- transmitting said composite video to at least one analysis device (3).

Method according to claim 5 characterized in that when said composite video is transmitted to at least one analysis device (3), it further comprises
- the reception, following said transmission, of enrichment data from said scene,
- synchronization of the enrichment data with said composite video;
- making said composite video enriched with enrichment data available.

Video analysis method comprising
- The reception (U1) of a composite video representative of a scene (2) obtained by a method according to one of claims 3 to 6,
- Adding (U2) enrichment data to said composite video to annotate said composite video,
- The provision (U4) of the annotated composite video and enrichment data.

Analysis method according to claim 7 characterized in that obtaining the enrichment data is obtained by positioning the enrichment data by a user through a graphical interface (37).

Video capture device comprising video capture means (10), a communication interface (14) with at least one server (4) and at least one processor (13) capable of implementing a method according to one of the claims 1 to 2.

Server including:
- at least a first communication interface (41a) with a video capture device,
- at least a second communication interface (41b) with a video display device,
- at least one processor (47) capable of implementing a method according to one of claims 3 to 6.

System comprising at least a first (1a) and a second (1b) video capture device according to claim 9, at least one server (4) according to claim 10 and at least one analysis device (3, 5) capable of implement a method according to claim 7 or 8.

Computer program comprising instructions for executing the steps of the capture method according to one of claims 1 or 2 or of the method of composing a video according to one of claims 3 to 6 or of the analysis method video according to any one of claims 7 or 8 when said program is executed by a computer.

Computer-readable recording medium on which is recorded a computer program comprising instructions for executing the steps of the capture method according to one of claims 1 or 2 or of the method of composing a video according to one of claims 3 to 6 or the video analysis method according to any one of claims 7 or 8.