EP2984815A1 - Fusion de plusieurs flux video - Google Patents

Fusion de plusieurs flux video

Info

Publication number
EP2984815A1
EP2984815A1 EP14717732.3A EP14717732A EP2984815A1 EP 2984815 A1 EP2984815 A1 EP 2984815A1 EP 14717732 A EP14717732 A EP 14717732A EP 2984815 A1 EP2984815 A1 EP 2984815A1
Authority
EP
European Patent Office
Prior art keywords
video streams
merging
images
video
panoramic image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP14717732.3A
Other languages
German (de)
English (en)
Inventor
Alexandre JENNY
Renan COUDRAY
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GoPro Inc
Original Assignee
Kolor
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kolor filed Critical Kolor
Publication of EP2984815A1 publication Critical patent/EP2984815A1/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/698Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/90Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing

Definitions

  • the invention relates to a method for generating a video type data file by merging several video data files. It also relates to a software for the implementation of this method and a human machine interface used in the implementation of this method. It also relates to a device and a system for merging video files.
  • Existing cameras can generate a video data file.
  • Such a file corresponds to a film comprising a view of the space limited by the field of view of the camera, which can be for example around 170 degrees.
  • a first object of the invention is a fusion solution of several video data files which makes it possible to obtain a resulting film of good quality.
  • a second subject of the invention is a solution for merging a plurality of user-friendly and fast video data files.
  • the invention is based on a method for merging a plurality of video streams, characterized in that it comprises the following steps:
  • the method for merging a plurality of video streams may comprise the following steps:
  • the method for merging a plurality of video streams may comprise a step of entering a reference instant by a human-machine interface and a step of presenting the panoramic image bringing together the images of the video streams at this reference time in a zone of visualization of the human machine interface of the device.
  • the method for merging a plurality of video streams may comprise the repetition of the following steps:
  • the method for merging multiple video streams may include a video encoding step of the wide field video stream at the end of each repetition of the steps listed above or the repetition of a small number of these steps.
  • the method for merging a plurality of video streams may comprise the following steps:
  • the step of measuring the time shift may comprise the use of the soundtrack associated with the different video streams to identify an identical sound on the different soundtracks, then may include a step of deduction of the lag time between the different video streams, then the synchronization step can associate for each moment the images different video streams closest taking into account their time lag.
  • the method for merging a plurality of video streams may include a step of entering a choice of a start and end time by a human machine interface of the merge device.
  • the step of merging the video streams may include associating at least one of the audio tapes, associated with at least one of the video streams, with a wide field video stream resulting from the merging.
  • the invention also relates to a device for merging a plurality of video streams comprising at least one computer and a memory, characterized in that it implements the steps of the method of merging a plurality of video streams as described above.
  • the invention also relates to a human-machine interface of a device for merging a plurality of video streams as described above, characterized in that it comprises an interface for entering a reference time for the calculation of the parameters of panoramic construction for merging images of video streams.
  • the human-machine interface of a device for merging multiple video streams may comprise all or some of the following interfaces:
  • a window for viewing a panoramic image resulting from the fusion of the images of the different video streams at the reference time - A preview window of a wide field video stream representing the fusion of video streams.
  • the invention also relates to a video stream fusion system, characterized in that it comprises a video stream fusion device as described above and a multi-camera support comprising at least two housing for fixing cameras. , especially such that two adjacent cameras are oriented in an orientation substantially perpendicular to each other.
  • the video stream merger system may include a player of a wide field video stream resulting from the merging of multiple video streams.
  • the invention also relates to a method for merging a plurality of video streams, characterized in that it comprises a preliminary step of positioning at least one multi-camera support at the level of a show stage, within a a sports enclosure, an athlete during a sporting event, a transport vehicle, a drone or a helicopter, a step of filming several video source streams from cameras positioned on this at least one multi-camera support, a fusion phase of said plurality of source video streams according to the fusion method described above, and a step of displaying on at least one display space of at least one screen of the resulting wide field video stream.
  • FIG. 1 schematically represents the structure of the video flux merging device according to one embodiment of the invention
  • FIG. 2 diagrammatically represents the steps of the method of fusing video streams according to one embodiment of the invention
  • FIG. 3 represents a menu of a man-machine interface according to the embodiment of the invention.
  • the chosen solution makes it possible to merge at best several video type files, which we more simply call "video stream” or “source video streams”, by an at least partially automatic optimization of the merger operations, these automatic operations making it possible to guarantee a quality satisfactory result.
  • the method allows the manual intervention of an operator by a user friendly machine interface according to one embodiment of the invention. The result thus represents a compromise of a few manual interventions and automatic operations, to finally reach an optimal quality in a fast and user-friendly way for the operator.
  • video stream used in simplified manner also refers to an audio-video stream
  • the soundtrack (audio) is also, preferably but optional, recovered in parallel processing that will be especially detailed for the video part.
  • the video flux merging device 1 comprises an input 2, which may be in the form of a connector, for example of USB type, by it receives by a communication means 3, in a memory not shown for a processing by several blocks 4-10, different video source streams from several cameras 20,.
  • these different video streams have been generated by several cameras 20 fixed on the same multi-camera support, commonly known by its Anglo-Saxon name “Rig”, which has the advantage of allowing to film several views from a single point of view and to guarantee a chosen and constant orientation between the different cameras.
  • Such a multi-camera support may for example allow the attachment of six cameras, such that the axes of the fields of view of two adjacent cameras are oriented in substantially perpendicular directions, which allows to obtain a vision of all the space around from the point of view.
  • the method is suitable for processing any number of video streams from at least two cameras.
  • the merging device 1 then comprises a first block 4 which implements a first step E1 for detecting time offsets between the different video streams received.
  • the fusion device 1 is adapted to operate with a multi-camera support on which are mounted cameras that are independent and operate with independent clocks.
  • the received source video streams are shifted in time.
  • This offset is for example caused by a start time different from the cameras, a time reference distinct from the cameras, and / or a sliding offset due to camera internal clock differences.
  • This first step E1 uses the soundtracks of the different video streams and implements the recognition of an identical sound on the different video streams, to deduce their offset in time.
  • this search for a particular sound to deduce the offset of the video streams is limited around a reference time indicated by an operator, for example indicated via a man-machine interface so similar to the step E30 for selecting a reference time which will be described later.
  • this search can be fully automatic. It can also be performed for the duration of the source video streams.
  • the device can then implement an intermediate optional step E15 automatic diagnosis of measured offset, by automatically measuring the quality of the registration obtained.
  • this step can in particular detect possible inconsistencies between all calculated offsets for all combinations of two video streams among all the source video streams considered.
  • the method can then either transmit the result of this diagnosis to an operator, by a human machine interface, or automatically determined that this result is satisfactory or not, by a comparison with a predefined threshold for example, and possibly implement a new calculation. shift in case of insufficient result.
  • the method implements a second video signal synchronization step E2 in a second block 5 of the video stream merging device.
  • This second step consists of an inverse shift operation of the video streams to synchronize them as best as possible.
  • a first stream is chosen as the reference video stream, preferably the video stream having started last in time, then each other stream is synchronized with this reference video stream.
  • the offset time obtained in the first step is used to deduce for each video stream the number of offset images with respect to the reference video stream.
  • the frames (frame in English denomination) closest to the time of each video stream are then known.
  • Each stream may be inversely offset from the number of offset images to achieve synchronization with the reference stream. As a remark, the images of each stream can remain in spite of this mechanism slightly offset with each other, and therefore not perfectly synchronized, but this residual offset is minimized by these synchronization steps.
  • the soundtracks of each video stream are likewise offset by the same offset time as the video portion associated with them in the audio-video stream, and are also synchronized.
  • the previous steps E1, E15, E2 are optional. Indeed, the merging device 1 can also receive as input video streams already synchronized by another means external to the fusion device, such as a sophisticated multi-camera support integrating a common clock managing the different cameras. In such a case, synchronization is no longer necessary. In all other cases, it is strongly recommended, even mandatory, to obtain a quality video stream output.
  • the melting device 1 then comprises two complementary blocks 6, 7, which make it possible to define panoramic construction parameters which are subsequently used during the phase of merging the video streams, which will be detailed. Further. These two blocks 6, 7 implement steps E30, E3, E4 of the video stream melting process.
  • a reference instant t re f is chosen during a step E30, then a step E3 of decoding images corresponding to this instant of the respective respective flows is performed.
  • this decoding makes it possible to transform the data of the video streams that are initially in a standard video format, for example into MPEG, MP4, etc., into a different format by which the subsequent processing by a computer, described below. , are possible.
  • a step E4 of constructing a panoramic image from these decoded images is performed.
  • This construction is then diagnosed, according to an optional diagnostic step, either automatically or manually by a visual presentation to an operator, the latter then having the opportunity to modify some parameters of construction of the panoramic image if the result is not suitable for him. not, or even modify the reference time t re f for a new implementation of the steps E3 and E4 at a different time, which may be more favorable to the panoramic construction algorithms.
  • the panoramic construction parameters are memorized for their subsequent application to the merge of the video streams which will now be described.
  • the method uses a method known from the state of the art, of which existing elements are for example mentioned in the document US671 1 293.
  • the different images are grouped together to to form only one image.
  • the method must notably manage areas of overlapping of the different images, because several cameras may have filmed common areas of space, and non-overlapping areas, filmed by a single camera. It must also handle the border areas between images from different cameras to ensure a continuous and visually undetectable boundary.
  • merging we mean a method of combining information from multiple cameras in overlapping areas to achieve a continuous, high-quality result in these areas. Specifically, a pixel in a cross-over area will be constructed from information from multiple cameras, not by the choice of a single camera. A simple juxtaposition of films does not therefore represent a fusion within the meaning of the invention.
  • a fusion implements complex calculations, a transformation using fusion parameters including in particular geometric parameters and radiometric parameters, to take account, for example, of differences in color and / or exposure between images from different cameras.
  • the method then engages the video stream merging phase to output a single video stream, which accumulates video data from each video stream.
  • this resulting video stream will be referred to as a wide field video stream later, although this video stream may however have any field of view value since it depends on the video streams considered input.
  • panoramic image will be used to designate an image obtained by the grouping / merging of several images, the result being able to form a very wide angle of view, but in a nonlimiting manner.
  • the method advantageously implements a repetition of the following steps, over the entire chosen duration of the merging of the video streams.
  • the method implements a step E5 of decoding an image or several images for each video stream at a given instant or around this instant, in a block 8 of the fusion device.
  • These decoded images are stored in a memory of the device for processing in the next step.
  • the fact of only partially decoding here preferably very limited, for example to less than ten images, or even three or less per video stream, is advantageous because it does not require the use of a large memory size.
  • each video stream has a reasonable size in its standard coded format, which incorporates a data compression method, but occupies a much larger size in a decoded format.
  • the method implements a step E6 of constructing a panoramic image, in a block 9 of the fusion device, bringing together for each video stream, the corresponding image substantially at the given instant.
  • a panoramic image is then constructed from the image of each video stream corresponding to the given instant considered. This construction is carried out using the panoramic construction parameters which were previously calculated by the steps E30, E3 and E4 described previously, which allows a rapid construction.
  • a last step E7 of construction of the wide-field video stream implemented by a block 10 of the fusion device, the resulting panoramic image is added to the previously-built wide-field video stream and the whole is encoded in video format.
  • This encoding makes it possible to form the wide-field video output stream in a selected standard video format, such as MPEG, MP4, H264, etc., for example.
  • the iteration mechanism of the steps E5 to E7 over the chosen duration allows the progressive construction of the wide field video stream: this avoids having to decode the entirety of the video streams for their subsequent fusion, as mentioned above, this would require a very large memory space in the device, and in addition, it also avoids storing the whole of the resulting wide-field video stream in a format of the same size, since only a small portion of the wide-field video stream output is likewise in memory of the device in a decoded manner.
  • the advantageous solution adopted only a few images are decoded and processed at each moment, which requires only a small memory space, as well as a reasonable computing power.
  • the different video streams and the wide field video stream as a whole are stored in the standard encoded video format, for example MPEG, which occupies a standardized, compressed memory space, intended to optimize the memory space of a computing device.
  • MPEG which occupies a standardized, compressed memory space
  • This approach is compatible with the use of a simple personal computer (PC) for the implementation of the method and the formation of the fusion device 1.
  • PC personal computer
  • one or more audio bands associated with one or more source video streams can also be encoded with the wide-field video stream. , to actually form a wide field audio-video stream.
  • the video stream merging device 1 comprises a memory, not shown, which keeps the generated wide field video stream, which can then be transmitted by an output 1 1 of the fusion device, to a possible external reader for example.
  • the video stream merging device 1 also comprises an integrated reader that makes it possible to display the wide field video stream, on a screen 12 of the device for example.
  • FIG. 3 thus exposes a menu with the main functionalities of the human machine interface according to one embodiment, the specific steps of which in the method described above will now be detailed.
  • the human machine interface proposes a window 35 in which the operator can position the different source video streams to be merged, in an initial step E0 of the method. More specifically, at least one image 36 from each video stream is displayed in this space, as well as the name associated with the video streams. Each video stream can be completely viewed independently within this window 35, which therefore offers the function of multi-video players.
  • the operator has the possibility of adding or removing the video streams from this window 35. For this, he can either use a manual search in the memory space of the fusion device to select the video streams to be added, or the select on another window and move them in the window 35 mentioned. Conversely, he can remove them from space, either by delete key either by manually moving them out of space.
  • the human machine interface allows an operator to choose the time limits of the fusion of the source video streams, that is to say the start and end times of the merger.
  • the human machine interface presents the operator with a time line 30, on which he can position two cursors 31, 32 fixing the start and end times of the wide field video to be generated, for example in another previous step E05 of the process.
  • another interface can alternatively allow him to enter these moments.
  • the operator adds an additional cursor 33 on the time line 30 to define the reference time t ref , to a preliminary intermediate step E30 to steps E3 and E4.
  • the method then realizes a panoramic image between the images 36 at the chosen reference time of the different video streams.
  • the result obtained is a panoramic image 39, which is displayed in a viewing area 38 of the man-machine interface.
  • This merge then uses the same panorama construction parameters as those validated at the reference time t ref by the selected cursor 33 over the entire duration of the video streams merge.
  • the resulting wide field video stream is displayed in another wide field video preview window 37, which allows its simple viewing as a standard video.
  • the manual steps described above can also be automated, in alternative embodiments of the device.
  • a few predefined instants distributed over the time line can be tested, an automatic diagnosis of the panoramic result making it possible to retain the best choice.
  • several reference times are automatically selected, for example obtained automatically according to a predefined period on all or part of the duration selected for the wide field video stream.
  • a step of combining the different results obtained for the parameters of panorama construction calculated on all the moments chosen is implemented. This combination consists for example in an average of these different parameters, this average meaning in the broad sense and can be arithmetical, geometric, or finally be replaced by any mathematical function to deduce a final value for each panorama construction parameter to from the different values obtained.
  • an operator or an automatic step of the method determines a reference instant, preferably considered favorable, or even randomly, then the method automatically implements a step of calculating the panorama construction parameters over several selected instants over a time range distributed in the vicinity of this reference time.
  • This time range can be determined by parameters (duration, proportion before and / or after the reference time) predefined previously, or entered by the operator via a human machine interface.
  • the panorama construction parameters are finally determined by the combination of the different parameters obtained for each of these instants chosen over said time range, similarly to the principle explained above in the preceding variant embodiment.
  • one or more reference times may not be chosen but fixed in a random manner or according to a predefined rule without taking into account a quality criterion.
  • the parameters for constructing a panoramic image are defined at one or more selected times, or over a reference time range, specifically to obtain an optimal quality of merger.
  • at least one reference time will not correspond to the initial time of the resulting wide-field video stream, since it is a question of searching on all or part of the duration of the fusion a moment or a favorable range.
  • at least one reference time, or a reference time range is selected on the basis of an automatic or manual diagnosis, via a visualization on a screen via a human interface. machine, to allow to obtain an optimal quality of the fusion.
  • the video stream fusion method described above can be implemented in a distinct and successive manner over several portions of the total duration chosen, before the final collage of the different wide field video streams obtained, to construct the stream final for the duration sought.
  • This approach may have the advantage of obtaining different panoramic construction parameters on the different portions of the wide field video stream, which can achieve a better quality result in some configurations.
  • the video stream merging device described above can be presented as a simple computer, or any other device comprising at least a computer, a memory and means of communication to external devices for receiving input video streams and / or the transmission of the resulting wide field video stream at the output.
  • This device advantageously comprises a screen for the presentation of a human machine interface to an operator, as described above.
  • the invention also relates to a system that comprises a multi-camera support (Rig) on which are mounted several cameras, at least two and preferably at least six, and a fusion device as described above.
  • a multi-camera support Rig
  • the different video streams advantageously come from cameras positioned in the same place but oriented differently, to obtain a wide field video stream obtained from the observation of the space at the same point.
  • the wide field video stream generated by the fusion method as described above has the advantage of offering a video stream comprising a quantity of information greater than that of a simple video of the state of the art, obtained by a only camera, and allows, with the help of a reader adapted, to offer a richer visualization of a scene filmed than what one can easily obtain with the existing solutions.
  • the system mentioned above is particularly suitable for filming an event gathering a large crowd, such as a concert, a sports event in a stadium, a family celebration such as a wedding, etc.
  • a multi-camera support as mentioned above can be positioned on the stage, and can film the show as well as the audience simultaneously, which then allows the reading to easily obtain the possibility of visualize the show and / or the audience at any moment of the film.
  • one or more multi-camera support (s) can be arranged within a stadium enclosure, to allow from one point of view to simultaneously film the entire enclosure , the sports field as the public.
  • the system with a multi-camera support is also interesting for an "embedded" application, that is to say accompanying a person or a device that moves.
  • this support can be attached to the helmet of an athlete during a test, during a paragliding flight, a parachute jump, climbing, downhill skiing, etc. It can be arranged on a vehicle, such as a bike, a motorcycle, a car.
  • the multi-camera support can be associated with a drone or a helicopter, to obtain a complete aerial video, allowing a wide field recording of a landscape, a tourist site, a site to be watched, a sporting event seen from the sky, etc.
  • a remote monitoring system can also be used for a remote monitoring system.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Studio Devices (AREA)
  • Studio Circuits (AREA)

Abstract

Procédé de fusion de plusieurs flux vidéo, caractérisé en ce qu'il comprend les étapes suivantes: (E30) - définition d'au moins un instant de référence, (E4) - définition de paramètres de construction d'une image panoramique réunissant les images des flux vidéo à partir des paramètres de construction calculés à ce au moins un instant de référence, (E5) - fusion des flux vidéo par construction d'images panoramiques regroupant les images des différents flux vidéo à l'aide des mêmes paramètres de construction définis à l'étape (E4) précédente.

Description

Fusion de plusieurs flux vidéo
L'invention concerne un procédé de génération d'un fichier de données de type vidéo par fusion de plusieurs fichiers de données vidéo. Elle concerne aussi un logiciel pour la mise en œuvre de ce procédé ainsi qu'une interface homme machine utilisée dans la mise en œuvre de ce procédé. Elle concerne aussi un dispositif et un système de fusion de fichiers vidéo. Les caméras existantes permettent de générer un fichier de données de type vidéo. Un tel fichier correspond à un film comprenant une vue de l'espace limitée par l'angle de champ de la caméra, qui peut être par exemple autour de 170 degrés. Pour obtenir une vision plus large et plus complète de l'espace, notamment dépassant largement le champ de vision visuel humain, il est connu d'utiliser simultanément plusieurs caméras, orientées dans des directions différentes, pour obtenir plusieurs films complémentaires de l'espace au même instant. Toutefois, l'exploitation de ces différents films vidéo n'est pas facile avec les solutions existantes : il est connu de fusionner ces films pour générer un seul film réunissant les différents films indépendants, ce film unique résultant présentant une vision à très grand angle de champ, de type panoramique par exemple. Cette fusion n'est toutefois pas optimisée et ne permet pas d'obtenir un film de qualité satisfaisante. En effet, cette fusion nécessite de nombreuses opérations manuelles d'un opérateur, l'utilisation de plusieurs outils logiciels distincts et non directement compatibles, ce qui nécessite un temps important, n'est pas convivial, et entraîne une perte de qualité importante au niveau vidéo.
Le document US2009/262206 propose par exemple la simple juxtaposition de plusieurs films, en fonction de critères géométriques liés aux positions relatives de plusieurs caméras. Ces critères sont établis automatiquement au début du processus de juxtaposition. Cette solution ne met pas en œuvre une fusion de films mais une simple juxtaposition, ce qui ne rend pas une grande qualité puisqu'il apparaît inévitablement une discontinuité au niveau des frontières entre les différents films.
Ainsi, il existe un besoin d'une solution améliorée de fusion de plusieurs fichiers de données vidéo qui ne présente pas tout ou partie des inconvénients de l'état de la technique.
Plus précisément, un premier objet de l'invention est une solution de fusion de plusieurs fichiers de données vidéo qui permet d'obtenir un film résultant de bonne qualité. Un second objet de l'invention est une solution de fusion de plusieurs fichiers de données vidéo conviviale et rapide.
A cet effet, l'invention repose sur un procédé de fusion de plusieurs flux vidéo, caractérisé en ce qu'il comprend les étapes suivantes :
- définition d'au moins un instant de référence, de préférence favorable pour obtenir une optimisation de la future fusion des flux vidéos. Il s'agit donc d'un choix optimisé, par exemple basé sur un diagnostic, non d'un instant fixé aléatoirement à l'instant initial de la fusion,
- définition de paramètres de construction d'une image panoramique réunissant les images des flux vidéo à partir des paramètres de construction calculés à ce au moins un instant de référence,
- fusion des flux vidéo par construction d'images panoramiques regroupant les images des différents flux vidéo à l'aide des mêmes paramètres de construction définis à l'étape (E4) précédente. Le procédé de fusion de plusieurs flux vidéo peut comprendre les étapes suivantes :
- définition automatique ou par saisie dans une interface homme machine d'un instant de référence,
- définition des paramètres de construction d'une image panoramique réunissant les images des flux vidéo à cet instant de référence,
Ou peut comprendre les étapes suivantes :
- définition automatique ou par saisie dans une interface homme machine d'un instant de référence,
- élaboration des paramètres de construction d'une image panoramique réunissant les images des flux vidéo pour plusieurs instants répartis autour de l'instant de référence, puis définition des paramètres de construction d'une image panoramique à utiliser à l'étape de fusion des flux vidéo par une combinaison, notamment une moyenne, des paramètres de construction d'une image panoramique obtenus sur les différents instants,
Ou peut comprendre les étapes suivantes :
- définition automatique ou par saisie dans une interface homme machine de plusieurs instants de référence, notamment selon une période prédéfinie sur tout ou partie d'une durée considérée pour la fusion des flux vidéo,
- élaboration des paramètres de construction d'une image panoramique réunissant les images des flux vidéo pour tous ces instants de référence, puis définition des paramètres de construction d'une image panoramique à utiliser à l'étape de fusion des flux vidéo (E5) par une combinaison, notamment une moyenne, des paramètres de construction d'une image panoramique obtenus sur ces différents instants de référence. Le procédé de fusion de plusieurs flux vidéo peut comprendre une étape de saisie d'un instant de référence par une interface homme machine et une étape de présentation de l'image panoramique réunissant les images des flux vidéo à cet instant de référence dans une zone de visualisation de l'interface homme machine du dispositif.
Le procédé de fusion de plusieurs flux vidéo peut comprendre la répétition des étapes suivantes :
- décodage partiel de chaque flux vidéo autour d'un instant donné ; - fusion dans une image panoramique de chaque image décodée de chaque flux vidéo à l'instant donné;
- ajout de l'image panoramique à un flux vidéo large champ obtenu par les itérations précédentes de ces étapes répétées. Le procédé de fusion de plusieurs flux vidéo peut comprendre une étape de codage vidéo du flux vidéo large champ en fin de chaque répétition des étapes listées ci-dessus ou de la répétition d'un faible nombre de ces étapes. Le procédé de fusion de plusieurs flux vidéo peut comprendre les étapes suivantes :
- mesure du décalage temporel des différents flux vidéo ;
- synchronisation des différents flux vidéo en associant les images les plus proches dans le temps de ces différents flux vidéo.
L'étape de mesure du décalage temporel peut comprendre l'utilisation de la bande son associée aux différents flux vidéo pour identifier un son identique sur les différentes bandes son, puis peut comprendre une étape de déduction du temps de décalage entre les différents flux vidéo, puis l'étape de synchronisation peut associer pour chaque instant les images des différents flux vidéo les plus proches en tenant compte de leur décalage temporel.
Le procédé de fusion de plusieurs flux vidéo peut comprendre une étape de saisie d'un choix d'un instant de début et de fin par une interface homme machine du dispositif de fusion.
L'étape de fusion des flux vidéo peut comprendre l'association d'au moins une des bandes audio, associée à au moins un des flux vidéo, à un flux vidéo large champ résultant de la fusion.
L'invention porte aussi sur un dispositif de fusion de plusieurs flux vidéo comprenant au moins un calculateur et une mémoire, caractérisé en ce qu'il met en œuvre les étapes du procédé de fusion de plusieurs flux vidéo tel que décrit précédemment.
L'invention porte aussi sur une interface homme machine d'un dispositif de fusion de plusieurs flux vidéo tel que décrit ci-dessus, caractérisé en ce qu'il comprend une interface de saisie d'un instant de référence pour le calcul des paramètres de construction panoramique pour la fusion des images des flux vidéo.
L'interface homme machine d'un dispositif de fusion de plusieurs flux vidéo peut comprendre tout ou partie des interfaces suivantes :
- une fenêtre de présentation des flux vidéo à fusionner, avec une fonctionnalité d'ajout ou de suppression de flux vidéo ;
- une zone de saisie d'un instant de début et de fin de la fusion ;
- une fenêtre de visualisation d'une image panoramique résultant de la fusion des images des différents flux vidéo à l'instant de référence ; - une fenêtre d'aperçu d'un flux vidéo large champ représentant la fusion des flux vidéo.
L'invention porte aussi sur un système de fusion de flux vidéo, caractérisé en ce qu'il comprend un dispositif de fusion de flux vidéo tel que décrit ci- dessus et un support multi-caméras comprenant au moins deux logements pour la fixation de caméras, notamment tels que deux caméras adjacentes soient orientées selon une orientation sensiblement perpendiculaire entre elles.
Le système de fusion de flux vidéo peut comprendre un lecteur d'un flux vidéo large champ résultant de la fusion de plusieurs flux vidéo.
Enfin, l'invention porte aussi sur un procédé de fusion de plusieurs flux vidéo, caractérisé en ce qu'il comprend une étape préalable de positionnement d'au moins un support multi-caméras au niveau d'une scène de spectacle, au sein d'une enceinte sportive, sur un athlète pendant une épreuve sportive, sur un engin de transport, sur un drone ou un hélicoptère, une étape consistant à filmer plusieurs flux vidéo sources à partir de caméras positionnées sur ce au moins un support multi-caméras, une phase de fusion desdits plusieurs flux vidéo sources selon le procédé de fusion décrit précédemment, et une étape de visualisation sur au moins un espace d'affichage d'au moins un écran du flux vidéo large champ résultant.
Ces objets, caractéristiques et avantages de la présente invention seront exposés en détail dans la description suivante de modes de réalisation particuliers faits à titre non-limitatif en relation avec les figures jointes parmi lesquelles : La figure 1 représente schématiquement la structure du dispositif de fusion de flux vidéo selon un mode de réalisation de l'invention ;
La figure 2 représente schématiquement les étapes du procédé de fusion de flux vidéo selon un mode de réalisation de l'invention ;
La figure 3 représente un menu d'une interface homme machine selon le mode de réalisation de l'invention. La solution retenue permet de fusionner au mieux plusieurs fichiers de type vidéo, que nous appelons plus simplement « flux vidéo » ou « flux vidéo sources », par une optimisation au moins partiellement automatique des opérations de fusion, ces opérations automatiques permettant de garantir une qualité satisfaisante du résultat. Avantageusement, le procédé permet l'intervention manuelle d'un opérateur par une interface homme machine conviviale selon un mode de réalisation de l'invention. Le résultat représente ainsi un compromis de quelques interventions manuelles et d'opérations automatiques, pour atteindre finalement une qualité optimale de manière rapide et conviviale pour l'opérateur. En remarque, le terme de flux vidéo utilisé de manière simplifiée désigne aussi un flux audio-vidéo, la bande son (audio) étant aussi, de manière préférentielle mais optionnelle, récupérée en parallèle des traitements qui seront surtout détaillés pour la partie vidéo. Un dispositif et un procédé de fusion de flux vidéo selon un mode de réalisation de l'invention vont maintenant être détaillés, en référence avec les figures 1 et 2.
Le dispositif de fusion 1 de flux vidéo comprend une entrée 2, qui peut se présenter sous la forme d'un connecteur, par exemple de type USB, par lequel il reçoit par un moyen de communication 3, dans une mémoire non représentée pour un traitement par plusieurs blocs 4-10, différents flux vidéo sources provenant de plusieurs caméras 20, . Avantageusement, ces différents flux vidéo ont été générés par plusieurs caméras 20 fixées sur un même support multi-caméras, couramment dénommé par sa dénomination anglo-saxonne de « Rig », qui présente l'avantage de permettre de filmer plusieurs vues depuis un même point de vue et de garantir une orientation choisie et constante entre les différentes caméras. Un tel support multi-caméras peut par exemple permettre la fixation de six caméras, tel que les axes des champs de vision de deux caméras adjacentes sont orientées dans des directions sensiblement perpendiculaires, ce qui permet d'obtenir une vision de tout l'espace autour du point de prise de vue. Naturellement, le procédé est adapté pour le traitement de tout nombre de flux vidéo, provenant d'au moins deux caméras.
Le dispositif de fusion 1 comprend ensuite un premier bloc 4 qui met en œuvre une première étape E1 de détection des décalages temporels entre les différents flux vidéo reçus. En effet, le dispositif de fusion 1 est adapté pour fonctionner avec un support multi-caméras sur lequel sont montées des caméras qui sont indépendantes et fonctionnent avec des horloges indépendantes. Ainsi, les flux vidéo sources reçus sont décalés dans le temps. Ce décalage est par exemple causé par un instant de démarrage différent des caméras, par une référence temporelle distincte des caméras, et/ou par un décalage glissant dû à des différences d'horloge interne des caméras. En sortie de ce premier bloc 4, le décalage temporel entre deux flux vidéo sources quelconques est connu. Cette première étape E1 utilise les bandes sons des différents flux vidéo et met en œuvre la reconnaissance d'un son identique sur les différents flux vidéo, pour en déduire leur décalage dans le temps. Selon un mode de réalisation, cette recherche d'un son particulier pour en déduire le décalage des flux vidéo est limitée autour d'un temps de référence indiqué par un opérateur, par exemple indiqué par l'intermédiaire d'une interface homme machine de manière similaire à l'étape E30 de sélection d'un temps de référence qui sera décrite ultérieurement. En variante, cette recherche peut être entièrement automatique. Elle peut aussi être réalisée sur toute la durée des flux vidéo sources.
Dans tous les cas, le dispositif peut ensuite mettre en œuvre une étape optionnelle intermédiaire E15 de diagnostic automatique du décalage mesuré, par la mesure automatique de la qualité du recalage obtenu. Pour cela, cette étape peut notamment détecter d'éventuelles incohérences entre tous les décalages calculés pour toutes les combinaisons de deux flux vidéo parmi l'ensemble des flux vidéo sources considérés. Le procédé peut ensuite soit transmettre le résultat de ce diagnostic à un opérateur, par une interface homme machine, soit déterminé automatiquement que ce résultat est satisfaisant ou non, par une comparaison avec un seuil prédéfini par exemple, et éventuellement mettre en œuvre un nouveau calcul de décalage en cas de résultat insuffisant.
Ensuite, le procédé met en œuvre une seconde étape E2 de synchronisation des flux vidéo dans un second bloc 5 du dispositif de fusion de flux vidéo. Cette seconde étape consiste en une opération de décalage inverse des flux vidéo pour les synchroniser au mieux. Pour cela, un premier flux est choisi comme flux vidéo de référence, de préférence le flux vidéo ayant démarré le dernier dans le temps, puis chaque autre flux est synchronisé avec ce flux vidéo de référence. Pour cela, le temps de décalage obtenu lors de la première étape est utilisé pour en déduire pour chaque flux vidéo le nombre d'images de décalage par rapport au flux vidéo de référence. En sortie de ce bloc 5 de synchronisation, les images (frame en dénomination anglo-saxonne) les plus proches dans le temps de chaque flux vidéo sont alors connues. Chaque flux peut être inversement décalé du nombre d'images de décalage pour obtenir sa synchronisation avec le flux de référence. En remarque, les images de chaque flux peuvent rester malgré ce mécanisme légèrement décalées les unes avec les autres, et donc non parfaitement synchronisées, mais ce décalage résiduel est minimisé par ces étapes de synchronisation.
D'autre part, les bandes son de chaque flux vidéo sont de même décalées d'un même temps de décalage que la partie vidéo qui leur est associée au sein du flux audio-vidéo, et sont aussi synchronisées.
Les étapes précédentes E1 , E15, E2 sont optionnelles. En effet, le dispositif de fusion 1 peut aussi recevoir en entrée des flux vidéo déjà synchronisés par un autre moyen extérieur au dispositif de fusion, comme par un support multi-caméras sophistiqués intégrant une horloge commune gérant les différentes caméras. Dans un tel cas, la synchronisation n'est plus nécessaire. Dans tous les autres cas, elle est fortement conseillée, voire obligatoire, pour obtenir un flux vidéo de qualité en sortie.
En remarque, le dispositif de fusion 1 selon le mode de réalisation comprend ensuite deux blocs complémentaires 6, 7, qui permettent de définir des paramètres de construction panoramique qui sont utilisés par la suite lors de la phase de fusion des flux vidéo, qui sera détaillée plus loin. Ces deux blocs 6, 7 mettent en œuvre les étapes E30, E3, E4 du procédé de fusion de flux vidéo.
Un instant de référence tref est choisi lors d'une étape E30, puis une étape E3 de décodage des images correspondant à cet instant des différents flux respectifs est réalisée. En remarque, ce décodage permet de transformer les données des flux vidéo qui se trouvent initialement dans un format vidéo standard, par exemple en MPEG, MP4, etc., vers un format différent par lequel les traitements ultérieurs par un calculateur, décrits ci-après, sont possibles.
Ensuite, une étape E4 de construction d'une image panoramique à partir de ces images décodées est réalisée. Cette construction est ensuite diagnostiquée, selon une étape de diagnostic optionnelle, soit automatiquement, soit manuellement par une présentation visuelle à un opérateur, ce dernier ayant alors l'opportunité de modifier certains paramètres de construction de l'image panoramique si le résultat ne lui convient pas, voire de modifier l'instant de référence tref pour une nouvelle mise en œuvre des étapes E3 et E4 à un instant différent, qui peut être plus favorable aux algorithmes de construction panoramique. Lorsque le résultat est satisfaisant, les paramètres de construction panoramique sont mémorisés pour leur application ultérieure à la fusion des flux vidéo qui va maintenant être décrite. Pour cette construction d'une image panoramique, le procédé utilise une méthode connue de l'état de la technique, dont des éléments existants sont par exemple mentionnés dans le document US671 1 293. Lors de cette construction, les différentes images sont regroupées pour ne former qu'une seule image. Pour cela, le procédé doit notamment gérer des zones de recoupement des différentes images, du fait que plusieurs caméras peuvent avoir filmé des zones communes de l'espace, et des zones de non recoupement, filmées par une seule caméra. Il doit aussi traiter les zones frontières entre les images provenant de différentes caméras pour garantir une frontière continue et indécelable visuellement. Nous entendons par fusion une méthode permettant de combiner les informations provenant de plusieurs caméras dans les zones de recoupement, afin d'obtenir un résultat continu dans ces zones et de qualité optimale. Concrètement, un pixel d'une zone de recoupement sera construit à partir de l'information provenant de plusieurs caméras, et non par le choix d'une seule caméra. Une simple juxtaposition de films ne représente donc pas une fusion au sens de l'invention. Dans cette approche de l'invention, une fusion met en œuvre des calculs complexes, une transformation utilisant des paramètres de fusion comprenant notamment des paramètres géométriques et des paramètres radiométriques, pour tenir compte par exemple des différences de couleur et/ou d'exposition entre les images provenant des différentes caméras.
Le procédé engage alors la phase de fusion des flux vidéo pour obtenir en sortie un flux vidéo unique, qui cumule des données vidéo provenant de chaque flux vidéo. Pour cela, ce flux vidéo résultant sera dénommé flux vidéo large champ par la suite, même si ce flux vidéo peut toutefois présenter toute valeur de champ de vision puisqu'il dépend des flux vidéo considérés en entrée. De même, le terme d'image panoramique sera utilisé pour désigner une image obtenue par le regroupement/fusion de plusieurs images, le résultat pouvant former un angle de vue très large, mais de manière non limitative.
Dans cette phase de fusion de plusieurs flux vidéo sources, le procédé met avantageusement en œuvre une répétition des étapes suivantes, sur toute la durée choisie de la fusion des flux vidéo. D'abord, le procédé met en œuvre une étape E5 de décodage d'une image ou de plusieurs images pour chaque flux vidéo à un instant donné ou autour de cet instant, dans un bloc 8 du dispositif de fusion. Ces images décodées sont mémorisées dans une mémoire du dispositif pour leur traitement à l'étape suivante. En remarque, le fait de ne procéder ici qu'à un décodage partiel, de préférence très restreint, par exemple à moins de dix images, voire trois ou moins par flux vidéo, est avantageux parce que cela n'exige pas le recours à une taille mémoire importante. En effet, chaque flux vidéo possède une taille raisonnable dans son format standard codé, qui intègre une méthode de compression de données, mais occupe une taille très supérieure dans un format décodé.
Ensuite, le procédé met en œuvre une étape E6 de construction d'une image panoramique, dans un bloc 9 du dispositif de fusion, réunissant pour chaque flux vidéo, l'image correspondant sensiblement à l'instant donné. Une image panoramique est alors construite à partir de l'image de chaque flux vidéo correspondant à l'instant donné considéré. Cette construction est réalisée à l'aide des paramètres de construction panoramique qui ont été calculés au préalable par les étapes E30, E3 et E4 décrites précédemment, ce qui permet une construction rapide.
Enfin, dans une dernière étape E7 de construction du flux vidéo large champ, mise en œuvre par un bloc 10 du dispositif de fusion, l'image panoramique obtenue est ajoutée au flux vidéo large champ précédemment construit et le tout est encodé au format vidéo. Cet encodage permet de former le flux vidéo large champ de sortie dans un format vidéo standard choisi, comme MPEG, MP4, H264, etc., par exemple. Comme cela apparaît, le mécanisme d'itération des étapes E5 à E7 sur la durée choisie permet la construction progressive du flux vidéo large champ : cela évite d'avoir à décoder l'intégralité des flux vidéo pour leur fusion ultérieure, comme mentionné précédemment, ce qui nécessiterait un espace mémoire très important dans le dispositif, et en complément, cela permet aussi d'éviter de mémoriser l'ensemble du flux vidéo large champ résultant dans un format de même volumineux, puisque seule une faible partie du flux vidéo large champ de sortie reste de même en mémoire du dispositif de manière décodée. Ainsi, avec la solution avantageuse retenue, seules quelques images sont décodées et traitées à chaque instant, ce qui ne nécessite qu'un faible espace mémoire, ainsi qu'une puissance de calcul raisonnable. Les différents flux vidéo et le flux vidéo large champ dans leur ensemble sont mémorisés dans le format vidéo encodé standard, par exemple MPEG, qui occupe un espace mémoire standardisé, compressé, prévu pour optimiser l'espace mémoire d'un dispositif informatique. Cette approche est compatible avec l'utilisation d'un simple ordinateur personnel (PC) pour la mise en œuvre du procédé et la formation du dispositif de fusion 1 . En remarque, lors de l'encodage du flux vidéo large champ, une ou plusieurs bande(s) audio associée(s) à un ou plusieurs flux vidéo source(s) peu(ven)t aussi être encodées avec le flux vidéo large champ, pour former en fait un flux audio-vidéo large champ. Enfin, le dispositif de fusion 1 de flux vidéo comprend une mémoire, non représentée, qui conserve le flux vidéo large champ généré, qui peut ensuite être transmis par une sortie 1 1 du dispositif de fusion, vers un éventuel lecteur extérieur par exemple. En variante, le dispositif de fusion 1 de flux vidéo comprend aussi un lecteur intégré qui permet de visualiser le flux vidéo large champ, sur un écran 12 du dispositif par exemple. Enfin, toutes les étapes mentionnées précédemment sont mises en œuvre à l'aide de moyens logiciels et d'au moins un calculateur 13.
Un problème technique complémentaire se pose pour la mise en œuvre du procédé de fusion de flux vidéo décrit précédemment, et mis en œuvre par le dispositif de fusion 1 . En effet, dans le mode de réalisation choisi, certaines des étapes du procédé proposent une intervention d'un opérateur, comme cela va être détaillé ci-après, et il est nécessaire de rendre cette intervention optimale et conviviale. Pour cela, la solution repose aussi sur une interface homme machine, à l'aide d'un moyen logiciel mis en œuvre par le calculateur 13 du dispositif de fusion et permettant des échanges avec un opérateur par l'intermédiaire de l'écran 12 du dispositif de fusion. La figure 3 expose ainsi un menu avec les principales fonctionnalités de l'interface homme machine selon un mode de réalisation, dont les étapes spécifiques au sein du procédé décrit précédemment vont maintenant être détaillées.
D'abord, l'interface homme machine propose une fenêtre 35 dans laquelle l'opérateur peut positionner les différents flux vidéo sources à fusionner, dans une étape initiale E0 du procédé. Plus précisément, au moins une image 36 issue de chaque flux vidéo est affichée dans cet espace, ainsi que le nom associé aux flux vidéo. Chaque flux vidéo peut être intégralement visualisé, de manière indépendante, au sein de cette fenêtre 35, qui offre donc la fonction de multi-lecteurs vidéo. L'opérateur a la possibilité d'ajouter ou retirer les flux vidéo de cette fenêtre 35. Pour cela, il peut soit faire appel à une recherche manuelle dans l'espace mémoire du dispositif de fusion pour sélectionner les flux vidéo à ajouter, soit les sélectionner sur une autre fenêtre et les déplacer dans la fenêtre 35 mentionné. Inversement, il peut les supprimer de l'espace, soit par une touche de suppression soit en les déplaçant manuellement hors de l'espace.
De plus, l'interface homme machine permet à un opérateur de choisir les limites temporelles de la fusion des flux vidéo sources, c'est-à-dire les instants de début et de fin de la fusion. Pour cela, l'interface homme machine présente à l'opérateur une droite de temps 30, sur laquelle il peut positionner deux curseurs 31 , 32 fixant les instants de début et de fin de la vidéo large champ à générer, par exemple dans une autre étape préalable E05 du procédé. Naturellement, une autre interface peut lui permettre en variante de saisir ces instants.
Pour procéder au calcul des paramètres de fusion selon les étapes E3 et E4 du procédé décrit précédemment, l'opérateur ajoute un curseur supplémentaire 33 sur la droite de temps 30 pour définir l'instant de référence tref, à une étape intermédiaire préalable E30 aux étapes E3 et E4. Le procédé réalise alors une image panoramique entre les images 36 à l'instant de référence choisi des différents flux vidéo. Le résultat obtenu est une image panoramique 39, qui est affichée dans une zone de visualisation 38 de l'interface homme machine.
Si ce résultat n'est pas satisfaisant ou si l'opérateur souhaite procéder à plusieurs fusions différentes, il peut déplacer le curseur 33 sur la droite de temps 30 pour définir un autre instant de référence et refaire une génération d'image panoramique. Il répète ces étapes autant de fois qu'il le souhaite. Il peut alors obtenir plusieurs images panoramiques 39 résultantes dans la zone de visualisation 38.
Cette manière de procéder permet à un opérateur d'itérer ce procédé jusqu'à atteindre un résultat satisfaisant, qu'il peut valider par une simple inspection visuelle dans la zone de visualisation 38. Il choisit alors le résultat de meilleure qualité, qui garantit un choix avantageux des paramètres de construction panoramique. En complément, l'opérateur peut ouvrir un autre menu de l'interface homme machine, dans lequel il peut modifier les paramètres de réalisation de la fusion des images de chaque flux vidéo, pour affiner le résultat visualisé dans la zone de visualisation 38. Ensuite, l'opérateur peut sélectionner l'une de ces images panoramiques 39 de la zone de visualisation 38, dans une étape intermédiaire E45, qui sert de base à la réalisation de la fusion des flux vidéo sources, selon les étapes E5 à E7 décrites précédemment pour toute la durée définie par les curseurs 31 , 32. Cette fusion utilise alors les mêmes paramètres de construction de panorama que ceux validés à l'instant de référence tref par le curseur 33 choisi, sur toute la durée de fusion des flux vidéo. Le flux vidéo large champ résultant vient s'afficher dans une autre fenêtre d'aperçu 37 de vidéo large champ, qui permet sa simple visualisation comme une vidéo standard.
Naturellement, les étapes manuelles décrites ci-dessus peuvent aussi être automatisées, dans des variantes de réalisation du dispositif. Notamment, quelques instants prédéfinis et répartis sur la droite temporelle peuvent être testés, un diagnostic automatique du résultat panoramique permettant de retenir le meilleur choix. Selon une autre variante de réalisation, plusieurs instants de référence sont automatiquement choisis, par exemple obtenus automatiquement selon une période prédéfinie sur tout ou partie de la durée sélectionnée pour le flux vidéo large champ. Ensuite, une étape de combinaison des différents résultats obtenus pour les paramètres de construction de panorama calculés sur tous les instants choisis est mise en œuvre. Cette combinaison consiste par exemple en une moyenne de ces différents paramètres, cette moyenne s'entendant au sens large et pouvant être arithmétique, géométrique, ou finalement être remplacée par toute fonction mathématique permettant de déduire une valeur finale pour chaque paramètre de construction de panorama à partir des différentes valeurs obtenues. Selon une autre variante de réalisation, un opérateur ou une étape automatique du procédé détermine un instant de référence, de préférence considéré favorable, voire aléatoirement, puis le procédé met en œuvre automatiquement une étape de calcul des paramètres de construction de panorama sur plusieurs instants choisis sur une plage temporelle répartie au voisinage de cet instant de référence. Cette plage temporelle peut être déterminée par des paramètres (durée, proportion avant et/ou après l'instant de référence) prédéfinis préalablement, ou saisis par l'opérateur par l'intermédiaire d'une interface homme machine. Ensuite, les paramètres de construction de panorama sont finalement déterminés par la combinaison des différents paramètres obtenus pour chacun de ces instants choisis sur ladite plage temporelle, de manière similaire au principe explicité ci-dessus dans la variante de réalisation précédente.
Selon une autre réalisation simplifiée combinée avec toutes les variantes de réalisation décrites, un ou plusieurs instants de référence peuvent ne pas être choisis mais fixés de manière aléatoire ou selon une règle prédéfinie sans prendre en compte un critère de qualité.
Dans tous les cas, il apparaît donc que les paramètres de construction d'une image panoramique sont définis à un ou plusieurs instants choisis, ou sur une plage temporelle de référence, spécifiquement pour obtenir une qualité optimale de fusion. Ainsi, au moins un instant de référence ne correspondra pas à l'instant initial du flux vidéo large champs résultant, puisqu'il s'agit de rechercher sur tout ou partie de la durée de la fusion un instant ou une plage favorable. De plus, au moins un instant de référence, ou une plage temporelle de référence, est choisi sur la base d'un diagnostic automatique ou manuel, par l'intermédiaire d'une visualisation sur un écran par l'intermédiaire d'une interface homme machine, pour permettre d'obtenir une qualité optimale de la fusion.
Selon une variante de réalisation, le procédé de fusion de flux vidéo décrit précédemment peut être mis en œuvre de manière distincte et successive sur plusieurs portions de la durée totale choisie, avant le collage final des différents flux vidéo large champ obtenus, pour construire le flux final sur toute la durée recherchée. Cette approche peut présenter l'avantage d'obtenir des paramètres de construction panoramique différents sur les différentes portions du flux vidéo large champ, ce qui peut permettre d'atteindre un résultat de meilleure qualité dans certaines configurations.
En résumé, le dispositif de fusion de flux vidéo décrit précédemment peut se présenter comme un simple ordinateur, ou tout autre dispositif comprenant au moins un calculateur, une mémoire et des moyens de communication vers des dispositifs externes pour la réception des flux vidéo sources en entrée et/ou la transmission du flux vidéo large champ résultant en sortie. Ce dispositif comprend avantageusement un écran pour la présentation d'une interface homme machine à un opérateur, comme décrit précédemment.
L'invention porte aussi sur un système qui comprend un support multi- caméras (Rig) sur lequel sont montées plusieurs caméras, au moins deux et avantageusement au moins six, et un dispositif de fusion tel que décrit ci-dessus. Ainsi, les différents flux vidéo proviennent avantageusement de caméras positionnées en un même endroit mais orientées différemment, pour obtenir un flux vidéo large champ obtenu à partir de l'observation de l'espace en un même point.
Le flux vidéo large champ généré par le procédé de fusion tel que décrit précédemment présente l'avantage d'offrir un flux vidéo comprenant une quantité d'information supérieure à celle d'une simple vidéo de l'état de la technique, obtenue par une seule caméra, et permet, à l'aide d'un lecteur adapté, d'offrir une visualisation plus riche d'une scène filmée que ce qu'on peut facilement obtenir avec les solutions existantes.
Notamment, le procédé décrit ci-dessus est particulièrement avantageux pour les applications suivantes, citées à titre d'exemples non limitatifs.
D'abord, le système mentionné ci-dessus est particulièrement adapté pour filmer un événement réunissant une foule nombreuse, comme un concert, un événement sportif dans un stade, une fête de famille comme un mariage, etc. Dans le cas d'un concert, un support multi-caméras tel que mentionné précédemment peut être positionné sur la scène, et permet de filmer le spectacle ainsi que le public simultanément, ce qui permet ensuite à la lecture d'obtenir facilement la possibilité de visualiser le spectacle et/ou le public à tout instant du film. De manière similaire, un ou plusieurs support(s) multi-caméras peu(ven)t être disposés au sein d'une enceinte d'un stade, pour permettre depuis un seul point de vue de filmer simultanément l'intégralité de l'enceinte, le terrain de sport comme le public. Ces systèmes permettent ainsi de s'affranchir des dispositifs complexes prévus aujourd'hui, reposant sur une multitude de caméras disposés en de nombreux points d'un stade, équipés de mécanismes comme des rails ou des moteurs pour les déplacer, en rotation et/ou translation, pour modifier la vue selon le déroulement de l'événement. En complément, le système avec un support multi-caméras est aussi intéressant pour une application « embarquée », c'est-à-dire accompagnant une personne ou un dispositif qui se déplace. A titre d'exemple, ce support peut être fixé sur le casque d'un sportif pendant une épreuve, lors d'un vol en parapente, un saut en parachute, une escalade, une descente à ski, etc. Il peut être disposé sur un véhicule, comme un vélo, une moto, une voiture.
En variante, le support multi-caméras peut être associé à un drone ou un hélicoptère, pour obtenir une vidéo aérienne complète, permettant un enregistrement large champ d'un paysage, d'un site touristique, d'un site à surveiller, d'un événement sportif vu du ciel, etc. Une telle application peut ainsi aussi servir pour un système de télésurveillance.

Claims

Revendications
1 . Procédé de fusion de plusieurs flux vidéo pour générer un flux vidéo large champ, caractérisé en ce qu'il comprend les étapes suivantes :
(E30) - définition d'au moins un instant de référence différent de l'instant initial du flux vidéo large champ,
(E4) - définition de paramètres de construction d'une image panoramique réunissant les images des flux vidéo à partir des paramètres de construction calculés à ce au moins un instant de référence,
(E5) - fusion des flux vidéo par construction d'images panoramiques regroupant les images des différents flux vidéo à l'aide des mêmes paramètres de construction définis à l'étape (E4) précédente.
2. Procédé de fusion de plusieurs flux vidéo selon la revendication précédente ou la revendication 16, caractérisé en ce qu'il comprend une étape intermédiaire de diagnostic, de manière automatique ou manuelle, de cette construction d'une image panoramique obtenue avec les paramètres de construction d'une image panoramique définis, puis une réitération des étapes de définition d'au moins un instant de référence différent (E30) et de définition de paramètres différents de construction d'une image panoramique (E4) à ce au moins un instant de référence différent si l'étape intermédiaire de diagnostic détermine que le résultat de la construction panoramique n'est pas satisfaisant.
3. Procédé de fusion de plusieurs flux vidéo selon la revendication 1 , 2 ou 16, caractérisé en ce qu'il comprend les étapes suivantes :
(E30) - définition automatique ou par saisie dans une interface homme machine d'un instant de référence, (E4) - définition des paramètres de construction d'une image panoramique réunissant les images des flux vidéo à cet instant de référence,
Ou en ce qu'il comprend les étapes suivantes :
(E30) - définition automatique ou par saisie dans une interface homme machine d'un instant de référence,
(E4) - élaboration des paramètres de construction d'une image panoramique réunissant les images des flux vidéo pour plusieurs instants répartis autour de l'instant de référence, puis définition des paramètres de construction d'une image panoramique à utiliser à l'étape de fusion des flux vidéo (E5) par une combinaison, notamment une moyenne, des paramètres de construction d'une image panoramique obtenus sur les différents instants,
Ou en ce qu'il comprend les étapes suivantes :
(E30) - définition automatique ou par saisie dans une interface homme machine de plusieurs instants de référence, notamment selon une période prédéfinie sur tout ou partie d'une durée considérée pour la fusion des flux vidéo,
(E4) - élaboration des paramètres de construction d'une image panoramique réunissant les images des flux vidéo pour tous ces instants de référence, puis définition des paramètres de construction d'une image panoramique à utiliser à l'étape de fusion des flux vidéo (E5) par une combinaison, notamment une moyenne, des paramètres de construction d'une image panoramique obtenus sur ces différents instants de référence.
4. Procédé de fusion de plusieurs flux vidéo selon l'une des revendications 1 à 3, caractérisé en ce qu'il comprend une étape de saisie d'un instant de référence par une interface homme machine et une étape de présentation de l'image panoramique (39) réunissant les images des flux vidéo à cet instant de référence dans une zone de visualisation (38) de l'interface homme machine du dispositif.
5. Procédé de fusion de plusieurs flux vidéo selon l'une des revendications précédentes ou selon la revendication 16, caractérisé en ce qu'il comprend la répétition des étapes suivantes :
(E5) - décodage partiel de chaque flux vidéo autour d'un instant donné ;
(E6) - fusion dans une image panoramique de chaque image décodée de chaque flux vidéo à l'instant donné;
(E7) - ajout de l'image panoramique à un flux vidéo large champ obtenu par les itérations précédentes de ces étapes répétées.
6. Procédé de fusion de plusieurs flux vidéo selon la revendication précédente, caractérisé en ce qu'il comprend une étape de codage vidéo du flux vidéo large champ en fin de chaque répétition des étapes (E5)-(E7) ou de la répétition d'un faible nombre de ces étapes.
7. Procédé de fusion de plusieurs flux vidéo selon l'une des revendications précédentes ou selon la revendication 16, caractérisé en ce qu'il comprend les étapes suivantes :
(E1 ) - mesure du décalage temporel des différents flux vidéo en utilisant une bande son associée aux différents flux vidéo pour identifier un son identique sur les différentes bandes son;
(E2) - synchronisation des différents flux vidéo en associant les images les plus proches dans le temps de ces différents flux vidéo.
8. Procédé de fusion de plusieurs flux vidéo selon l'une des revendications précédentes, caractérisé en ce qu'il comprend une étape de saisie (E05) d'un choix d'un instant de début et de fin par une interface homme machine du dispositif de fusion.
9. Procédé de fusion de plusieurs flux vidéo selon l'une des revendications précédentes, caractérisé en ce que l'étape de fusion des flux vidéo comprend l'association d'au moins une des bandes audio, associée à au moins un des flux vidéo, à un flux vidéo large champ résultant de la fusion.
10. Dispositif de fusion (1 ) de plusieurs flux vidéo comprenant au moins un calculateur (13) et une mémoire, caractérisé en ce qu'il met en œuvre les étapes du procédé de fusion de plusieurs flux vidéo selon l'une des revendications précédentes ou selon la revendication 16.
1 1 . Interface homme machine d'un dispositif de fusion (1 ) de plusieurs flux vidéo selon la revendication précédente, caractérisé en ce qu'il comprend une interface de saisie (E30) d'un instant de référence pour le calcul des paramètres de construction panoramique pour la fusion des images des flux vidéo.
12. Interface homme machine d'un dispositif de fusion de plusieurs flux vidéo selon la revendication précédente, caractérisé en ce qu'il comprend tout ou partie des interfaces suivantes :
- une fenêtre (35) de présentation des flux vidéo à fusionner, avec une fonctionnalité d'ajout ou de suppression de flux vidéo ;
- une zone de saisie d'un instant de début et de fin de la fusion ;
- une fenêtre (38) de visualisation d'une image panoramique résultant de la fusion des images des différents flux vidéo à l'instant de référence ;
- une fenêtre d'aperçu (37) d'un flux vidéo large champ représentant la fusion des flux vidéo.
13. système de fusion de flux vidéo, caractérisé en ce qu'il comprend un dispositif de fusion (1 ) de flux vidéo selon la revendication 10 et un support multi-caméras comprenant au moins deux logements pour la fixation de caméras, notamment tels que deux caméras adjacentes soient orientées selon une orientation sensiblement perpendiculaire entre elles.
14. Système de fusion de flux vidéo selon la revendication précédente, caractérisé en ce qu'il comprend un lecteur d'un flux vidéo large champ résultant de la fusion de plusieurs flux vidéo.
15. Procédé de fusion de plusieurs flux vidéo selon l'une des revendications 1 à 9, caractérisé en ce qu'il comprend une étape préalable de positionnement d'au moins un support multi-caméras au niveau d'une scène de spectacle, au sein d'une enceinte sportive, sur un athlète pendant une épreuve sportive, sur un engin de transport, sur un drone ou un hélicoptère, une étape consistant à filmer plusieurs flux vidéo sources à partir de caméras positionnées sur ce au moins un support multi-caméras, une phase de fusion desdits plusieurs flux vidéo sources selon un procédé de fusion selon l'une des revendications 1 à 9, et une étape de visualisation sur au moins un espace d'affichage d'au moins un écran du flux vidéo large champ résultant.
16. Procédé de fusion de plusieurs flux vidéo pour générer un flux vidéo large champ, caractérisé en ce qu'il comprend les étapes suivantes :
(E30) - définition d'au moins un instant de référence,
(E4) - définition de paramètres de construction d'une image panoramique réunissant les images des flux vidéo à partir des paramètres de construction calculés à ce au moins un instant de référence, (E5) - fusion des flux vidéo par construction d'images panoramiques regroupant les images des différents flux vidéo à l'aide des mêmes paramètres de construction définis à l'étape (E4) précédente.
EP14717732.3A 2013-04-12 2014-04-11 Fusion de plusieurs flux video Withdrawn EP2984815A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1353346A FR3004565B1 (fr) 2013-04-12 2013-04-12 Fusion de plusieurs flux video
PCT/EP2014/057352 WO2014167085A1 (fr) 2013-04-12 2014-04-11 Fusion de plusieurs flux video

Publications (1)

Publication Number Publication Date
EP2984815A1 true EP2984815A1 (fr) 2016-02-17

Family

ID=48795715

Family Applications (1)

Application Number Title Priority Date Filing Date
EP14717732.3A Withdrawn EP2984815A1 (fr) 2013-04-12 2014-04-11 Fusion de plusieurs flux video

Country Status (4)

Country Link
US (1) US20160037068A1 (fr)
EP (1) EP2984815A1 (fr)
FR (1) FR3004565B1 (fr)
WO (1) WO2014167085A1 (fr)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160115466A (ko) * 2015-03-27 2016-10-06 한국전자통신연구원 파노라믹 비디오를 스티칭하는 장치 및 이를 위한 스티칭 방법
US10269257B1 (en) 2015-08-11 2019-04-23 Gopro, Inc. Systems and methods for vehicle guidance
US9896205B1 (en) 2015-11-23 2018-02-20 Gopro, Inc. Unmanned aerial vehicle with parallax disparity detection offset from horizontal
US9720413B1 (en) * 2015-12-21 2017-08-01 Gopro, Inc. Systems and methods for providing flight control for an unmanned aerial vehicle based on opposing fields of view with overlap
US9663227B1 (en) 2015-12-22 2017-05-30 Gopro, Inc. Systems and methods for controlling an unmanned aerial vehicle
KR102517104B1 (ko) 2016-02-17 2023-04-04 삼성전자주식회사 가상 현실 시스템에서 이미지 처리 방법 및 장치
CN108322763A (zh) * 2016-08-23 2018-07-24 深圳市掌网科技股份有限公司 一种编解码全景视频的方法和系统
US10650590B1 (en) * 2016-09-07 2020-05-12 Fastvdo Llc Method and system for fully immersive virtual reality
US11671551B2 (en) * 2021-05-24 2023-06-06 Sony Group Corporation Synchronization of multi-device image data using multimodal sensor data
CN113706391B (zh) * 2021-11-01 2022-01-18 成都数联云算科技有限公司 无人机航拍图像实时拼接方法、系统、设备及存储介质
CN114222162B (zh) * 2021-12-07 2024-04-12 浙江大华技术股份有限公司 视频处理方法、装置、计算机设备及存储介质
CN114638771B (zh) * 2022-03-11 2022-11-29 北京拙河科技有限公司 基于混合模型的视频融合方法及系统
CN117132925B (zh) * 2023-10-26 2024-02-06 成都索贝数码科技股份有限公司 一种体育赛事的智能场记方法及装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6711293B1 (en) 1999-03-08 2004-03-23 The University Of British Columbia Method and apparatus for identifying scale invariant features in an image and use of same for locating an object in an image
US6788333B1 (en) * 2000-07-07 2004-09-07 Microsoft Corporation Panoramic video
US7483061B2 (en) * 2005-09-26 2009-01-27 Eastman Kodak Company Image and audio capture with mode selection
US7777783B1 (en) * 2007-03-23 2010-08-17 Proximex Corporation Multi-video navigation
US8270767B2 (en) * 2008-04-16 2012-09-18 Johnson Controls Technology Company Systems and methods for providing immersive displays of video camera information from a plurality of cameras
CN101668160B (zh) * 2009-09-10 2012-08-29 华为终端有限公司 视频图像数据处理方法、装置及视频会议系统及终端
FR2973343B1 (fr) * 2011-04-01 2013-11-29 Latecoere Aeronef pourvu d'un systeme d'observation d'un environnement de cet aeronef
US20120277914A1 (en) * 2011-04-29 2012-11-01 Microsoft Corporation Autonomous and Semi-Autonomous Modes for Robotic Capture of Images and Videos
US8970665B2 (en) * 2011-05-25 2015-03-03 Microsoft Corporation Orientation-based generation of panoramic fields
JP5870636B2 (ja) * 2011-11-09 2016-03-01 ソニー株式会社 画像処理装置および方法、並びにプログラム
US9792955B2 (en) * 2011-11-14 2017-10-17 Apple Inc. Automatic generation of multi-camera media clips
US20130278728A1 (en) * 2011-12-16 2013-10-24 Michelle X. Gong Collaborative cross-platform video capture
EP2962063B1 (fr) * 2013-02-28 2017-03-29 Fugro N.V. Système et méthode de mesure d'attitude

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JOERGEN GEERDS: "PTgui 360 video batch stitching - Freedom360", 9 April 2013 (2013-04-09), XP055512649, Retrieved from the Internet <URL:https://freedom360.us/360-video-stitching-ptgui/> [retrieved on 20181005] *

Also Published As

Publication number Publication date
FR3004565A1 (fr) 2014-10-17
FR3004565B1 (fr) 2016-11-11
US20160037068A1 (en) 2016-02-04
WO2014167085A1 (fr) 2014-10-16

Similar Documents

Publication Publication Date Title
WO2014167085A1 (fr) Fusion de plusieurs flux video
EP3005296B1 (fr) Fusion de plusieurs flux vidéo
JP6138962B2 (ja) 写真の変換提案
US10367997B2 (en) Enriched digital photographs
US20190268583A1 (en) Video sequence assembly
EP2834972B9 (fr) Navigation video multi-sources
FR2913510A1 (fr) Procede pour determiner automatiquement une probabilite de saisie d&#39;images avec un terminal a partir de donnees contextuelles
FR2875662A1 (fr) Procede de visualisation de document audiovisuels au niveau d&#39;un recepteur, et recepteur apte a les visualiser
EP3449634B1 (fr) Procédé de composition contextuelle d&#39;une représentation vidéo intermédiaire
EP2172000B1 (fr) Procede de creation d&#39;une suite sonore de photographies, et appareil pour la creation et la reproduction d&#39;une telle suite sonore
EP3092795A2 (fr) Dispositif de création de vidéos augmentées
EP3473000A1 (fr) Procede et systeme de prise de vues a l&#39;aide d&#39;un capteur virtuel
WO2014199085A1 (fr) Systemes de reperage de la position de la camera de tournage pour le tournage de films video
CA2511846A1 (fr) Procede d&#39;obtention d&#39;une succession d&#39;images sous la forme d&#39;un effet tournant
FR2978639A1 (fr) Procedes de compression et de decompression d&#39;images animees
FR3035989A1 (fr) Procede de reglage du niveau de definition des images d&#39;un programme multimedia
WO2023131757A1 (fr) Procede et dispositif de composition d&#39;une video et procede d&#39;analyse de video
FR2931611A1 (fr) Procede de modelisation 3d de scenes reelles et dynamiques
FR2887106A1 (fr) Procede de generation d&#39;un signal source, signal source, procede et dispositif de montage, moyens de stockage et programme d&#39;ordinateur correspondants
EP2234066A1 (fr) Mesure de distance à partir d&#39;images stéréo
FR2983996A1 (fr) Dispositif et procede d&#39;affichage d&#39;une image
EP2661731A1 (fr) Procédé et dispositif d&#39;aide à la prise de vue d&#39;une photo numérique au moyen d&#39;un objectif grand angle
FR2993686A1 (fr) Procede de generation d&#39;un document multimedia relatif a un evenement, dispositif de generation et programme d&#39;ordinateurcorrespondants.

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20151102

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

AX Request for extension of the european patent

Extension state: BA ME

DAX Request for extension of the european patent (deleted)
RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: GOPRO, INC.

17Q First examination report despatched

Effective date: 20181015

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20190426

P01 Opt-out of the competence of the unified patent court (upc) registered

Effective date: 20230601