EP4335111A1 - Computer-implemented method for delivering audio-visual media on-demand - Google Patents
Computer-implemented method for delivering audio-visual media on-demandInfo
- Publication number
- EP4335111A1 EP4335111A1 EP22748259.3A EP22748259A EP4335111A1 EP 4335111 A1 EP4335111 A1 EP 4335111A1 EP 22748259 A EP22748259 A EP 22748259A EP 4335111 A1 EP4335111 A1 EP 4335111A1
- Authority
- EP
- European Patent Office
- Prior art keywords
- sequence
- digital video
- markers
- descriptors
- playlist
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 137
- 238000012163 sequencing technique Methods 0.000 claims abstract description 78
- 239000012634 fragment Substances 0.000 claims abstract description 13
- 239000000284 extract Substances 0.000 claims description 138
- 239000003550 marker Substances 0.000 claims description 121
- 238000004458 analytical method Methods 0.000 claims description 78
- 230000009471 action Effects 0.000 claims description 57
- 230000008569 process Effects 0.000 claims description 51
- 230000002123 temporal effect Effects 0.000 claims description 45
- 238000005520 cutting process Methods 0.000 claims description 40
- 238000004519 manufacturing process Methods 0.000 claims description 30
- 238000001514 detection method Methods 0.000 claims description 20
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 230000005540 biological transmission Effects 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000000717 retained effect Effects 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 7
- 238000012986 modification Methods 0.000 claims description 7
- 230000004048 modification Effects 0.000 claims description 7
- 238000009472 formulation Methods 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 6
- 230000000007 visual effect Effects 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 5
- 238000004220 aggregation Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 claims description 5
- 238000002955 isolation Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 4
- 230000001360 synchronised effect Effects 0.000 claims description 4
- 238000013518 transcription Methods 0.000 claims description 4
- 230000035897 transcription Effects 0.000 claims description 4
- 238000009826 distribution Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- GNFTZDOKVXKIBK-UHFFFAOYSA-N 3-(2-methoxyethoxy)benzohydrazide Chemical compound COCCOC1=CC=CC(C(=O)NN)=C1 GNFTZDOKVXKIBK-UHFFFAOYSA-N 0.000 claims description 2
- 238000013459 approach Methods 0.000 claims description 2
- 230000000295 complement effect Effects 0.000 claims description 2
- 238000012015 optical character recognition Methods 0.000 claims description 2
- 230000002441 reversible effect Effects 0.000 claims description 2
- 238000011160 research Methods 0.000 description 10
- 238000003860 storage Methods 0.000 description 8
- 230000001427 coherent effect Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000000670 limiting effect Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000004931 aggregating effect Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000009396 hybridization Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000030808 detection of mechanical stimulus involved in sensory perception of sound Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/432—Content retrieval operation from a local storage medium, e.g. hard-disk
- H04N21/4325—Content retrieval operation from a local storage medium, e.g. hard-disk by playing back content from the storage medium
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/732—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/735—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
- G06F16/739—Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
- H04N21/47202—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting content on demand, e.g. video on demand
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/84—Generation or processing of descriptive data, e.g. content descriptors
Definitions
- the present invention relates to the field of identification and automated processing of digital data, in particular digital video files.
- the invention relates more specifically to a computerized process for the audiovisual de-linearization of digital video files.
- a large number of video files cannot be structured a priori. This is the case, for example, of events filmed live, the course of which cannot be predicted before the production of the digital video file.
- the indexing defined a priori by the producer may not be relevant from the point of view of the user whose search criteria are not always known a priori either.
- the practice is therefore to label the digital video file as a whole, so that the metadata associated with a digital video file are global, such as name, creation date, file format, viewing time.
- a set of metadata provides access to a digital video file as a whole when a search for audiovisual content is performed. These metadata are therefore “global”.
- the difficulty with video content is that it is not self-descriptive, unlike text media.
- EU document EP3252770A1 proposes a process for the identification and automatic post-processing of audiovisual content.
- a formal description of the content of the digital video file is provided by an operator, such as a script in the case of a film.
- After extracting the image (i.e. containing visual data) and audio streams from the audiovisual data these two parts of the audiovisual data are broken down into a set of successive fragments.
- the formal description of the digital video file is broken down into logical parts.
- a dialog pattern is generated from the audio stream only.
- An association of the audiovisual data with the corresponding formal description is achieved by associating logical parts of the formal description to the set of audiovisual data fragments, using the dialogue pattern.
- a digital video file can then be indexed and then manipulated based on this association.
- Ue document US6714909B1 is another example in which a method of automating the multimodal indexing process is proposed.
- a process comprises the following steps:
- the method described in document EP3252770A1 has the disadvantage of requiring the provision of a formal description of the digital video file.
- the method described in the document US6714909B1 has the disadvantage of requiring that the content of the audio streams and or texts of the digital video file be semantically structured, that is to say that it is a question of being able to reconstitute an audio content which makes sense by extracting and aggregating footage from a given video. It cannot therefore be implemented to aggregate sequences from different video files or for semantically weakly structured video files.
- the invention thus aims to propose an automated method of analysis, indexing and editing of a set of digitally possibly weakly structured video files on criteria defined by the user and without a priori indexing of the content of these files.
- the invention relates to a computerized process for audiovisual de-linearization allowing sequencing of one or more digital video files and indexing of the sequences resulting from the sequencing, by virtually cutting by time stamping the digital video file(s) into virtual sequences, each virtual sequence being defined by two sequence time stamps and associated descriptors.
- the method comprises the following steps: a. receiving one or more digital video files to be analyzed; b. indexing each of the digital video files in a primary index by means of associated primary endogenous descriptors making it possible to identify each digital video file; vs. automatic extraction of audio, image, and text data streams from each digital video file; d.
- a multimodal candidate sequence time marker mathematically related to the at least two unimodal sequence markers, is created; f. for each of said digital video files analyzed, according to a lower limit and an upper limit defined to determine the minimum duration and the maximum duration of each sequence, with respect to the typology of the digital video file(s),
- these pairs of sequence markers being associated with the descriptors associated with the said selected candidate sequence temporal markers, these descriptors therefore being referred to as “secondary endogenous descriptors”; g. indexing, in a secondary index which is in a relationship of inheritance with respect to said primary index, of all the pairs of sequence markers and of the associated descriptors allowing the identification of each sequence, the virtual sequences being identifiable and capable of being searched for less by the secondary endogenous descriptors and the primary endogenous descriptors.
- sequence a digital video file in sequences presenting a semantic coherence according to one to four different modalities, in the form of virtual sequences delimited by pairs of sequence time markers and indexed by secondary descriptors associated with these sequence time stamps as well as the primary descriptors associated with the digital video file from which the sequences originate.
- the space in memory used for these sequences corresponds to the space necessary to store the pairs of temporal markers and the associated secondary descriptors. It is in this that the sequencing is said to be virtual.
- the computerized process for audiovisual de-linearization is characterized in that a video extract associated with a virtual sequence, obtained by viewing the file fragment delimited by the two sequence markers of the virtual sequence has a unit of meaning (in other words a semantic coherence) which results from the automatic analysis of each digital video file according to the four modalities and from the virtual cutting in relation to this analysis.
- a video extract associated with a virtual sequence obtained by viewing the file fragment delimited by the two sequence markers of the virtual sequence has a unit of meaning (in other words a semantic coherence) which results from the automatic analysis of each digital video file according to the four modalities and from the virtual cutting in relation to this analysis.
- the virtual sequences can be extracted and the video extracts corresponding to the virtual sequences can be viewed by a user who will perceive its semantic coherence and will be able to attribute an overall meaning to it.
- At least one of the two sequence markers of each pair of sequence markers selected in step f is a plurimodal candidate sequence temporal marker and is then called a plurimodal sequence marker, and advantageously each sequence marker of each selected sequence tag pair is a multimodal sequence tag.
- the so-called endogenous descriptors are derived from the same modality, or from one or more modalities different from the modality or modalities from which are derived for the start and end temporal cutting markers sequence of the video extract
- step f two types of plurimodal sequence markers are distinguished:
- main plurimodal sequence marker a plurimodal sequence marker created from four unimodal temporal cutting markers resulting from the four different modalities separated two-by-two by a time interval less than the main predetermined duration is called main plurimodal sequence marker and
- plurimodal sequence marker created from two or three unimodal temporal cutting markers resulting from as many modalities among the four modalities, separated two-by-two by a time interval less than the main predetermined duration is said marker of secondary multimodal sequence.
- At least one of the tags of each pair of sequence tags is a main multimodal sequence tag.
- the action modality is a modality of at least one of the two sequence markers of the pair of sequence markers selected.
- the semantic coherence of a sequence is at least underpinned by the action modality, which plays a special role in many video files.
- the sequence obtained will be coherent from the point of view of sporting actions.
- weights are assigned to each of the modalities for the production of candidate sequence markers in step e and/or the selection of sequence markers in step f.
- the semantic coherence of a sequence can be underpinned in various proportions, possibly adapted to video typologies, by the four modalities. For example, in the field of sport, we can assign a higher weight to the action modality. In the field of online courses, we can assign a higher weight to the text modality.
- the weight of the action modality is greater than that of the image modality, itself greater than the weight of the text and audio modalities
- the weight of the text modality is greater than that of the other three modalities. Thanks to this arrangement, the semantic coherence of a sequence can be adapted to a video typology such as a video in the field of sports or to a video with high informational content such as a documentary or an online course.
- a weight is assigned to the secondary endogenous descriptors as well as to the primary endogenous descriptors to characterize their importance in the sequences, and this weight is greater for the secondary endogenous descriptors than that of the primary endogenous descriptors.
- the different weights of the endogenous and exogenous descriptors make it possible, when formulating a sequence search query formulated later, to play different roles for these two types of descriptors.
- the weight of endogenous descriptors is greater than that of exogenous descriptors, the results of a sequence search will be based more on endogenous descriptors than on exogenous descriptors.
- the secondary endogenous descriptors are said to be “unimodal” when they correspond to a single modality and are said to be “multimodal” when they are detected for several modalities.
- thermodynamics information on the unimodal or multimodal character of a given secondary endogenous descriptor is kept during the indexing process. For example, if the image modality gives the “thermodynamics” descriptor, and the text modality also gives the “thermodynamics” descriptor, then we can create a “thermodynamics” plurimodal descriptor (which comes from the two previous descriptors and is therefore more robust on the interest of viewing this extract we are interested in thermodynamics).
- step f of the method presents these sub-steps, for each digital video file, to produce the sequences: i) - selection of a last end-of-sequence marker, in particular multimodal, from the end digital video file,
- the last sequence start marker is designated by the subtraction from the time code of the last end marker selected from the upper limit; ii), step i) is repeated to select a penultimate sequence start marker, the sequence start marker selected at the end of the previous step i playing the role of last sequence end marker selected at the start of the previous step i; iii) sub-step ii) is repeated in this way until the start of the digital video file.
- the main predetermined duration is less than 5 seconds, and optionally the maximum duration of each selected sequence is equal to two minutes. so that the candidate sequence markers are close enough in time and the sequencing is fine enough.
- the sequencing is fine enough, it is possible to constitute virtual sequences whose duration is limited by a relatively low upper limit.
- the duration of the selected virtual sequences is limited by an upper limit.
- the time between the two markers of a sequence marker pair is less than 2 minutes, 1 minute, or 30 seconds.
- step g At least one additional step of enriching the indexing of the virtual sequences by exogenous secondary descriptors is carried out in step g.
- the sequencing can be repeated to end up with finer sequencing, since additional - exogenous - information has been added.
- the secondary descriptors by means of which the identified sequences are indexed are enriched with a numerical or lettered indicator, such as an overall score of a digital collection card, calculated for each sequence from the secondary descriptors the virtual sequence and/or the primary descriptors of the digital video file in which the sequence was identified.
- a numerical or lettered indicator such as an overall score of a digital collection card
- the results of a subsequent sequence search in the secondary index can be ordered on the basis of this encrypted or lettered indicator.
- the action modality comprises the sub-modalities: ⁇ detection of change of shots, detection of action according to a typology of digital video files ⁇ , and each of the sub-modalities of the action modality makes it possible to generate a game particular of unimodal cut-out time markers.
- the analysis according to the audio modality comprises noise detection, music detection and/or transcription of speech into a text stream.
- the analysis according to the image modality includes the sub-modalities ⁇ shape or object recognition; plan aggregation; optical character recognition ⁇ , and each of the sub-modalities of the image modality makes it possible to generate a particular set of unimodal descriptors.
- the invention also relates to a computerized method for the automatic production of an ordered playlist of video extracts from digital video files, with a data transmission stream, the digital video files being indexed in a primary index stored in a documentary database containing the digital video files with primary descriptors, the digital video files having been, beforehand and by means of the computerized process of de-linearization according to one of the preceding embodiments, cut virtually by time stamping into virtual sequences which are defined by two sequence time markers forming a pair of sequence markers and by associated secondary descriptors, the pairs of virtual sequence markers and the associated secondary descriptors being stored in a secondary index stored in a documentary database, the index secondary being in inheritance relation with the primary index these index being accessible via a graphical interface.
- the computerized process of research and automatic production of a playlist of video extracts includes:
- the stored digital video files have been sequenced, and the virtual sequences of the digital video files have been indexed in the secondary index before the search criteria are formulated and before the search result is received by the client by means of the sequencing process as described above;
- the ordered automatic playlist is a list of video sequences of the digital video file(s) each corresponding to a virtual sequence of a digital video file, according to an order which is a function of the secondary descriptors associated with each sequence and primary descriptors associated with each video file digital. Thanks to this arrangement, it is possible to select one or more sequences of digital video files obtained at the end of the process for sequencing one or more digital video files, that is to say in an automated manner without required that the user view one or more digital video files in their entirety.
- This selection can be made by means of a search query and the search is carried out in the secondary index containing the secondary descriptors of the sequences, which is linked to the primary index containing the primary descriptors of the digital video files from which the sequences.
- the method determines according to the search query and the descriptors of the virtual sequence(s), whether the virtual sequences are essential (the number of descriptors is relevant) or ornamental (the number of descriptors is not relevant with respect to the criterion defined for the essential virtual sequences);
- the method produced via the transmission stream is an exhaustive playlist video extracts associated with all the essential virtual sequences, or a summary with a selection of video extracts associated with the essential virtual sequences according to criteria specified by the user,
- the method produces via the transmission stream a playlist of video extracts associated with the so-called “zapping" virtual sequences, of these digital files with a selection of the essential virtual sequences associated with the video extracts according to criteria specified by the user.
- the method produces via the transmission stream a summary playlist with a selection of video extracts from this digital video file according to criteria specified by the user during his search,
- the method produces via the transmission stream a playlist of video extracts associated with the so-called “zapping” virtual sequences, of these digital files with a selection of video extracts according to criteria specified by the user during his search.
- the computerized method for automatically producing a playlist of video extracts allows, after automatic production of an ordered playlist of video extracts from digital video files, the following navigation operations from the virtual remote control and from the data transmission stream:
- this comprises a single navigation bar for all the video extracts arranged one after the other on the playlist, according to the order of the sequence markers according to the user's request (which presents the descriptors associated with the markers cutting in the secondary index).
- the method for automatically producing an ordered playlist of video extracts from digital video files allows the following additional operation: d. new temporary output from the viewing of the original digital video file of the extract being played from operation c), to view during step d) a summary created automatically and prior to this viewing from this single original digital file.
- the method for automatically producing an ordered playlist of video extracts from digital video files allows the following additional operation: e. recording of browsing history on the playlist of video sequences and creation of a new digital file which is this browsing history.
- the search query formulated in step 1 is multi-criteria, and combines a search on the full text, a faceted search and in that the criteria for carrying out the order for the automatic playlist include criteria chronological and/or semantic and/or relevance.
- This arrangement makes it possible to formulate search queries as varied as possible, including with suggestions based on facets or criteria, and to obtain an ordered list of results.
- the search query formulated in step 1 is carried out automatically on the basis of one or more criteria specified by the user chosen from a list comprising: the desired duration of an automatic playlist as well as semantic criteria.
- the search query formulated in step 1 is carried out by a conversational robot.
- the computerized method for automatically producing an ordered playlist of video extracts from digital video files comprises a viewing step in which the user displays on a first screen a video extract from the playlist, and descriptors of the virtual sequence associated with the video extract on a second screen synchronized with the video extract.
- the computerized method for automatically producing an ordered playlist of video extracts from digital video files comprises a viewing step in which the descriptors associated with the virtual sequences are displayed on the extracts. Thanks to these arrangements, the user can view, at the same time as the video extracts, the descriptors on the basis of which the method has considered the sequence as relevant with respect to the search query. In this way, the user can both assign a global meaning to the video extract and compare it to the global meaning which could be attributed to it on the basis of the descriptors which have been automatically associated with it.
- the technology used is ElasticSearch®.
- access to the video files is done in “streaming” mode.
- the invention further relates to an automatic list of pairs of sequence markers and associated descriptors resulting from the computerized method of automatically producing an ordered playlist of video extracts from digital video files, presenting endogenous and exogenous descriptors consistent with the request of research.
- all the virtual sequences have, as end-of-sequence marker, at least one main multimodal sequence marker or sequence marker resulting from three modalities.
- the end of sequence marker of each pair of sequence time markers corresponding to each virtual sequence is derived at least from the action modality.
- the sequence time markers are determined by an approach multimodal by automatic analysis, file by file, of each of said one or more digital video files, according to at least two of the four modalities: image modality, audio modality, text modality, action modality.
- At least two sequence time markers are determined randomly or unimodally.
- the invention also relates to a computerized method of editing with virtual cutting without creating a digital video file, from the computerized method of automatic production an ordered playlist of video clips from digital video files comprising the following steps:
- the computerized method of assembly with virtual cutting comprises the following steps:
- the playlist of video extracts is generated automatically by a computerized method of searching and automatically producing a playlist having ordered video extracts according to one of the embodiments described above.
- the invention further relates to the use of video extracts or a playlist of video extracts obtained by the computerized method of research and automatic production of a playlist, or by the editing method according to one of the embodiments described above, in a social network or in a search engine or to constitute a new digital video file.
- the invention finally relates to a computerized system comprising:
- At least one acquisition module for one or more digital video files At least one acquisition module for one or more digital video files
- At least one sequencing module generating sequences of indexed digital video files;
- At least one search module comprising a client making it possible to formulate a search query for the implementation of the steps:
- One or more digital video files to be analyzed are received via the acquisition module;
- Each of said digital video files is automatically indexed in a primary index, based on the endogenous, so-called primary, descriptors of said digital video file;
- the audio, image and text data streams are extracted from each of the digital video files
- a file analysis is carried out by file of each of said one or more digital video files according to the four modalities: image modality, audio modality, text modality, action modality, the analysis automatically producing one or more unimodal cutting time markers for each of the modalities, one or more descriptors being associated with each of the single-mode slice time markers;
- candidate sequence time markers are provided, with the aim of determining virtual sequences, and the descriptors associated with these candidate sequence time markers, which are :
- the time codes corresponding to said unimodal cutting time markers are compared and, each time that at least two unimodal cutting time markers resulting from different analysis modalities are separated by a time interval less than a main predetermined duration, a plurimodal candidate sequence temporal marker, in mathematical connection with the at least two unimodal cut markers, is created;
- a lower limit and an upper limit are defined according to the type of said digital video file for the duration of a sequence and pairs of sequences are automatically selected from the candidate sequence markers.
- sequence markers called start and end of sequence markers, each pair of sequence markers having a start of sequence marker and an end of sequence marker, such that the duration of each sequence retained is between said lower limits and superior, these pairs of sequence markers being associated with the descriptors associated with the said selected candidate sequence temporal markers, these descriptors therefore being referred to as “secondary endogenous descriptors”;
- a search query for sequences of digital video files is formulated using the search module; each of the modules comprising the necessary calculation means, each of the modules other than the dispatcher module communicating with the dispatcher module and the dispatcher module managing the distribution of the calculations between the other modules.
- this system further comprises at least one module for enriching the primary descriptors of the digital video files and/or the secondary descriptors of the virtual sequences of digital video files by exogenous complementary descriptors.
- this system further comprises video editor module communicating with the research module.
- Fig. 1 represents a flowchart of a device making it possible to implement the method of analysis, sequencing and indexing of the sequences of a digital video file.
- Fig. 2a represents a first step in sequencing a digital video file according to the four modalities: image, audio, text and action.
- Fig. 2b represents a second step of sequencing a digital video file according to the four modalities: image, audio, text and action.
- Fig. 2c represents a third step of sequencing a digital video file according to the four modalities: image, audio, text and action.
- Fig. 3 represents the different interactions between the modules and the services of the computerized process in connection with the possible actions of the user.
- Fig. 4 represents the steps of an iteration of the method for sequencing a video file on the basis of four modalities.
- Fig. 5a represents a graphical interface 55 for editing or viewing a playlist.
- Fig. 5b shows another embodiment of a graphical interface for editing or viewing a playlist.
- Fig. 6 schematically represents the effect of the manipulation of the virtual remote control on the playlist.
- Fig. 7a shows a third embodiment of a graphical interface 55.
- Fig. 7b shows a fourth embodiment of a graphical interface 55.
- Fig. 8 shows a fifth embodiment of a graphical interface 55.
- Fig. 9 shows a sixth embodiment of a graphical interface 55.
- Fig. 10 shows a seventh embodiment of a graphical interface 55.
- Fig. 11 shows an eighth embodiment of a graphical interface 55.
- Fig. 12 shows a ninth embodiment of a graphical interface 55.
- the invention relates to a method for the analysis, sequencing and multimodal indexing of digital audiovisual data.
- the format of the audiovisual data is not limited a priori.
- the digital video file formats MPEG, MP4, AVI, WMV of the ISO/IEC standard can be considered.
- the audiovisual data may be available on the Internet, on a public or private digital video library, or even provided individually or in a group by a particular user.
- Metadata is integrated into the audiovisual document, in particular technical metadata: compression level, file size, number of pixels, format, etc. cataloging: title, year of production, director, ...
- This metadata will be referred to as "global” metadata insofar as it is associated with the digital video file as a whole.
- a digital video file without any cataloging metadata can be sequenced automatically by the method according to the invention without human intervention. This is one of the strengths of the method compared to the sequencing methods of the prior art.
- the audiovisual de-linearization process can be implemented on structured digital video files, such as those used in "broadcast” type distribution processes, it is particularly relevant in the case of a video file unstructured or weakly structured digital material, such as those generally available on the Internet or used in "multicast” type broadcasting processes, for example YouTube® videos.
- the method comprises several steps traversed in a non-linear manner, requiring its implementation on a computerized device 8 for sequencing a digital video file, an embodiment of which is shown in FIG. 1, comprising several modules:
- An acquisition module 1 allowing the recovery of one or more video files from various sources and their indexing by means of so-called primary descriptors in a primary index;
- a sequencing module 5 generating virtual sequences (or even virtual fragments) of the digital video file(s) and indexing them in a secondary index by means of secondary descriptors;
- a research module 6 comprising the client making it possible to carry out a search on the sequences generated by the module 5 for one or more digital video files.
- an enrichment module 4 4.
- module 7 video editor comprising a graphical interface allowing manipulation of virtual sequences produced following a search for virtual sequences by module 5.
- a virtual sequence of digital video file designates a virtual fragment of the initial digital video file, of shorter duration than that of the initial file, in which the succession of images between the beginning and the end of the fragment is exactly the same as that of the initial digital video file (or original, or in which the virtual sequence was identified) between the two corresponding instants, without a specific new digital video file to the sequence is constituted at the physical level.
- a virtual sequence of a digital video file is therefore constituted solely by the data of a pair of sequence time markers, comprising a start of sequence marker and an end of sequence marker.
- Each time stamp corresponds to a particular timecode in the original digital video file.
- a virtual digital video file sequence is therefore systematically indexed by means of one or more semantic descriptors, called secondary descriptors.
- the space in storage memory used to memorize these "virtual" sequences corresponds to the space necessary to store the pairs of markers temporal and the associated secondary descriptors. This is what sequencing is called virtual.
- the sequencing and indexing method according to the invention is therefore particularly inexpensive in terms of memory.
- a virtual sequence of digital video file allows in a second time, in particular according to the needs of the user, the extraction of a "real" fragment of a digital video file, that is to say the constitution of a "video clip" of a digital video file.
- the constitution of a video extract from a digital video file can for example take the form of modifications in the random access memory of a processor by viewing the content between the two sequence markers of the chosen virtual sequence, in particular in streaming, in particular after a decompression stage.
- This visualization of the video extract does not require the constitution of a new digital video file and directly calls up the passage or the fragment of the original digital video file thanks to the virtual sequence.
- the constitution of a video extract can possibly in certain cases materialize in a storage memory by the recording of the fragment of digital video file associated with the virtual sequence in the form of a new digital video file which can be of smaller size than that of the digital video file in which the corresponding virtual sequence has been identified.
- the acquisition module 1 makes it possible to copy from various storage sources and to record on a suitable storage device one or more digital video files that one wishes to analyze.
- the storage device may contain other files already acquired and its content is increased as the device is used.
- the storage device allows access to the video file in “streaming” mode.
- the set of digital video files acquired by the module 1 can be homogeneous from a content point of view or heterogeneous.
- the process can be implemented in any field (sport, online courses, scientific conferences, television news, amateur videos, cinema, etc.) or even in several fields at the same time.
- a domain or even a typology can in particular be described using semantic descriptors.
- the different modules are made up of physical or virtual machines, and therefore of one or more processors.
- the machines are organized into farms (“cluster” in English).
- the device comprises at least one master node (“master” in English) which interacts with a plurality of “worker” nodes called “workers”.
- master in English
- workers workers
- Each of the nodes, master and “workers”, encapsulates at least the applications, storage resources, means of calculation necessary for the realization of the task or tasks to which it is dedicated.
- Any container orchestration solution that automates the deployment and scaling of the management of containerized applications can be considered for the creation of this “cluster”.
- the ElasticSearch® technology available in Open Source, may be used.
- the digital video files acquired by the module 1 are therefore stored, for example in a documentary database, and they are further indexed in a so-called "primary" index, making it possible to find and access each of the digital video files in his outfit.
- the primary index is for example contained in the documentary database.
- the indexing of a given digital video file in the primary index is done by means of so-called “primary” descriptors. This is for example all or part of the metadata of the digital video file.
- the database is document-based, as opposed to relational, in the sense that searching the database is not based on a relational model or limited to an SQL-like language based on algebraic operators, such as this will be described later.
- Each digital video file acquired by the acquisition module 1 is transmitted to the dispatcher module 2 which is a master node.
- the dispatcher module 2 receives and distributes the requests on the "worker" nodes suitable for the execution of the requests and available for this execution.
- the dispatcher module 2 can launch a preliminary and optional step of enriching the metadata at the level of the enrichment module 4.
- the enrichment module 4 which is a "worker” node, is in particular connected to external databases, such as databases (4a) that are free to access and use (Open Data), web services (4b) or other databases (4c), private in particular.
- databases (4a) that are free to access and use (Open Data), web services (4b) or other databases (4c), private in particular.
- this preliminary step is not essential for the implementation of the method and it may not be executed or may not result in any effective enrichment of the metadata initially associated with the digital video file.
- the method is based on techniques of automatic de-linearization of the digital video file based on the content.
- delinearization is meant the discovery and/or recognition of underlying structures in a digital file, in particular a digital video file, without human intervention.
- the de-linearization is, in the context of the invention, based on the content of the digital file, including the metadata, enriched or not beforehand.
- the dispatcher module 2 can initially trigger four analyzes at the level of the multimodal analysis module 3.
- Multimodal analysis module 3 is a “worker” node on which four different computerized devices are implemented, each implementing an automatic learning algorithm. These are, for example, four different neural networks. These neural networks analyze the digital video file with different viewpoints in parallel.
- Each of these neural networks is chosen appropriately to extract temporal markers of potential cutting of the digital video file into sequences having coherence, i.e. meaning, with respect to a particular point of view of analysis .
- the image stream (equivalently video stream) of the digital video file can be considered, among other things, as an ordered collection of images. We can therefore assign a sequence number to each image, allowing it to be found within the digital video file.
- a cutting time marker corresponds to a sequence number, or equivalently to a given instant during the viewing of the video, the dates being able to be identified with respect to the initial instant corresponding to the first image digital video file.
- a cutting marker is associated with a time code (“timecode”).
- the neural networks used may in particular be convolutional neural networks (“Convolutional Neuronal Network”, CNN) and/or recurrent.
- Each of these neural networks contains several successive layers of neurons, so as to be able to undergo a learning phase of the deep learning type ("deep leaming"), unsupervised, semi-supervised or supervised, preferably pre-trained before its implemented in device 8.
- deep leaming the deep learning type
- unsupervised, semi-supervised or supervised unsupervised, semi-supervised or supervised, preferably pre-trained before its implemented in device 8.
- the role of supervision may be more or less important depending on the method of analysis.
- the analysis of the text and sound streams may, in one non-limiting embodiment, be carried out by a neural network having undergone an unsupervised learning phase, and the analysis of the image stream may implement a network neurons that have undergone a supervised or semi-supervised learning phase.
- the number and type of layers are chosen according to the type of analysis to be performed.
- a digital video file includes components (also called “flows”) images (or equivalently video), sound (or equivalently audio) and text placed in a container.
- a digital video file may contain several audio streams and/or several image streams.
- the text type stream has things like metadata, subtitles, transcription of the audio stream as text where possible, etc.
- the first neural network called an analyzer according to the image modality (3a)
- the first neural network is configured to carry out an analysis of the image flow, image by image. It can in particular carry out analyzes of the type: detection of objects, shapes, color, texture, detection of similar images, ocerization.
- the analyzer according to the image modality (3a) analyzes the content of each image of the file to be analyzed pixel by pixel. It is, among other things, equipped with an object detection algorithm, preferably capable of analyzing a video stream in real time while maintaining good predictive performance (algorithm available under the name “Yolo3” for example).
- the analyzer following the image modality (3a) extracts a set of primitives which take into account certain representations such as the contour, the texture, the shape, the color, then it aggregates the results in a single signature allowing the calculations of similarity in particular to through a hybridization between Deep Leaming and unsupervised clustering algorithms (“K Nearest Neighbors”, KNN).
- the algorithm aggregates the results in a signature allowing similarity calculations in particular through a hybridization between Deep Leaming algorithms and unsupervised clustering (KNN) (plane aggregation).
- KNN unsupervised clustering
- the image modality gives rise to an analysis according to at least three sub-modalities:
- the second neural network is a so-called sound analyzer network (3b) or equivalently an analyzer according to the audio modality or according to the sound modality. It is equipped with an audio track separator and an activity detector for speech, noise, music, ...
- the third neural network (3c) is a text flow analyzer or equivalent analyzer depending on the text modality, for example metadata, subtitles when available, or text obtained after a "speech" type text extraction to text” on the basis of known voice recognition technologies, or even “video tagging” information described later.
- NLP Natural Language Processing
- speech to text the analyzer following the text modality (3c) cuts sentences, paragraphs into units of meaning translating a change of subject, or the continuation of an argument according to models of the analysis of the speech.
- the analyzer following the text modality (3c) can also, via an automatic language processing (T.A.L) platform, possibly Open Source, extract semantic metadata to feed structured fields from the full text coming from module 4, for example from web sources and/or social networks.
- T.A.L automatic language processing
- Open Source extract semantic metadata to feed structured fields from the full text coming from module 4, for example from web sources and/or social networks.
- the fourth neural network (3d) is an analyzer of the video stream as a whole, in order to create cutting markers based on dynamic notions, such as the notion of action or shot changes.
- This modality of analysis will be called equivalently action modality or event modality.
- the actions could include the phases of actual play as opposed to the phases during which the players are not playing, for example: waiting for the next serve, picking up the ball, ...
- the analyzer following the action modality (3d) first detects the changes of shots. It should be noted that the changes of shots are generally not made randomly by an editor, so they can carry rich information, which can be found at least partially thanks to this detection of the changes of shots.
- the characteristic images of each plane are then sent to the analyzer according to the image modality (3a).
- the information returned by the analyzer according to the image modality (3a) is analyzed in the analyzer according to the action modality (3d) by an action detection algorithm.
- a dense pose estimation system can be implemented, which associates the pixels of two successive images based on the intensities of the different pixels to match them with each other. the other.
- Such a system can perform “video tracking” without sensors having been positioned on the animated objects/subjects present in the video content.
- a stock bank can be set up with a view to a supervised learning phase, thanks in particular to this estimation.
- the analysis of a player's arm gesture on a set of digital video files each containing a sequence of well-identified offensive forehands allows the neural network to recognize, based on the successive positions of a player's arm, an offensive forehand in a video file that was not used for training.
- topspin An offensive forehand
- cut An offensive forehand
- Actions can be defined outside the context of sport.
- a handshake between two subjects can be an action in the sense of the invention, and a neural network can learn to recognize such an action.
- the analyzer following the action modality (3d) can also exploit the sound associated with the images.
- an interruption in the flow of the speaker can be indicative of a change of action in the sense of these videos, that is to say the passage from one sequence of the course to another sequence.
- the analyzer following the action modality (3d) can also exploit "video tagging" information, i.e. metadata of the keyword type added manually to the digital video file, when they are relevant from the point of view of view of the actions that have been identified.
- the action modality gives way to at least two sub-modalities:
- the first sub-modality is the analysis (or equivalently the detection) of shot changes
- the second sub-modality is action detection in the sense of a typology, such as a typology of digital video files or gesture or motion.
- the method can include the phase of training the neural networks on a set of video files associated with a particular domain, for example a set of video files relating to a particular sport, or a particular scientific field. It can also be implemented on neural networks previously trained for a domain chosen by G user for example.
- the analyzers according to the image (3a) and action (3d) modalities can provide sets of unimodal temporal markers according to several sub-modalities.
- different unimodal cutting temporal markers can be identified according to one or more of the sub-modalities: change of planes,
- a descriptor is a term, which may be a common noun or a proper noun, an adjective, a verb, a phrase, a compound word or a group of words, and which represents a concept. Only descriptors or combinations of descriptors can be used for indexing. The non-descriptors may, however, be used in the formulation of the search request at the level of module 6 of research and assembly.
- descriptors can optionally be defined in a thesaurus specific to the device or come from existing thesaurus.
- a descriptor therefore makes it possible, in documentary language, to specify the content of the digital video file when it is associated with the digital video file as a whole, or of a sequence of digital video file when it is associated with the latter.
- the analysis step can be performed based on minimal metadata.
- the following schematic example helps to understand the different steps of the process. Let's assume that a user of the device wants to analyze a video:
- - whose audio track does not allow the extraction of significant textual content. For example, it contains only noise without identifiable words, or background music without words and unrelated to the image content.
- the example digital video file is an "example 1" amateur video file, made during a football match and in a very noisy sound environment so that any words cannot be highlighted in the noise of background.
- a first analysis by module 3 of multimodal analysis makes it possible to bring out a few descriptors of the ball, football, jersey type (and their colors), names of certain players, football stadium soundscape, corresponding to a relatively coarse sequencing after processing of the results of module 3 of multimodal analysis by module 5 of sequencing which will be described later.
- the dispatcher module 2 can optionally enrich the unimodal descriptors identified and associated with the unimodal cutting time markers by exogenous descriptors, either by transmitting them to the enrichment module 4, or from the descriptors already identified and stored in the device itself. , especially in the primary and secondary indexes.
- exogenous descriptors such as “match, goal, half-time, ...” may be added.
- exogenous descriptors can also be found on the device's database if it has already analyzed other video files such as football matches.
- the dispatcher restarts an analysis step by the multimodal analysis module 3 on the basis of these enriched descriptors.
- This new step generates more unimodal cut-out time markers and/or more adapted to the analyzed video.
- a second stage of analysis of the "example 1" video following the enrichment of the descriptors by the enrichment module 4 will make it possible to obtain a sequencing on the basis of the two halves and the goals scored if these events are identified.
- Module 3 of multimodal analysis used a priori can be "generalist”, i.e. adapted to digital video files whose content is as varied as possible, or even specialized by learning on an ad hoc video game.
- a multimodal analysis module 3 dedicated to and trained in this area, or even in a specific sport, can be implemented. But it is possible to analyze the same video with several 3 multimodal analysis modules dedicated to several different domains to obtain different sequencing, or to use a set of 3 modules to change the choice of the 3 multimodal analysis module as the metadata are enriched to move towards a multimodal analysis module 3 increasingly adapted to the content of the digital video file, on which the device had no a priori knowledge of the domain of the content.
- each of the modules 3 of multimodal analysis being adapted to a particular and/or general field.
- the multimodal analysis module 3 can only analyze the file according to two methods, for example if one of the streams of the file is not usable, or if one wishes to favor these two modalities.
- the temporal markers of unimodal cutting and the endogenous, and possibly exogenous, associated unimodal descriptors are transmitted by the dispatcher to the module 5 of sequencing.
- Sequencing module 5 is also a “worker” module. The sequencer synthesizes all the information collected by the dispatcher to create homogeneous, coherent and relevant sequences, if possible according to several of the points of view used in module 3 of multimodal analysis at the same time.
- the horizontal axis represents the time axis for the digital video file, that is to say the order of appearance of the various images which constitute it;
- the unimodal slice time markers associated with the image modality are for example represented on the top line, the unimodal slice time markers associated with the audio visual modality on the line, just below, then again below the time markers of unimodal cutouts associated with the textual modality, and finally the unimodal cutout temporal markers associated with the action modality are represented on the bottom one.
- the sequencing module 5 proposes candidate sequence time markers.
- a candidate sequence time stamp is:
- plurimodal candidate sequence temporal marker To create a plurimodal candidate sequence temporal marker, one proceeds as follows: if at least two unimodal cutting temporal markers from different modalities are identified as temporally close, a plurimodal candidate sequence temporal marker, in mathematical relation with these temporal cutting markers unimodal, is created.
- the temporal proximity is defined with respect to a time criterion T2 specified beforehand: two (or more) of unimodal cutting temporal markers are considered as temporally close if they are separated two-by-two by a duration less than a duration predetermined T2, called main.
- a plurimodal sequence temporal marker is created in mathematical connection with the unimodal cutout markers which underlie its creation according to a rule fixed beforehand.
- the candidate multimodal sequence time stamp is identical to the single-mode slice time stamp from the audio modality. Or again, it can correspond to the time marker closest to the mean of the time codes of the n unimodal cutting time markers identified as temporally close.
- a unimodal candidate sequence time stamp is created based on a single modality. In this case, it is said to be a unimodal candidate sequence time marker and identical to the identified unimodal cut-out time marker.
- Figure 2a represents the decomposition of a digital video file according to the four modalities: image, audio, text and action.
- two candidate sequence time markers 21 plurimodal are detected in this case according to four modalities.
- Candidate sequence markers are therefore said to be “main” when they come from the four modalities.
- the two candidate sequence temporal markers 21 of FIG. 2a are therefore principal multimodal.
- Endogenous plurimodal descriptors called “main” because they come from the four modalities, are associated with each of the 21 main plurimodal candidate sequence temporal markers identified.
- FIG. 2b represents the breakdown of the same digital video file as for FIG. 2a according to the four modalities: image, audio, text and action.
- This decomposition leads initially to the detection of three main candidate sequence temporal markers 21 , resulting from four different modalities.
- Multi-modal, but only three-modality candidate sequence temporal markers 22 can be identified.
- This plurimodal candidate sequence marker is said to be secondary because it is plurimodal but stems from less than four modalities.
- the secondary plurimodal candidate sequence marker is associated with endogenous plurimodal descriptors, called secondary because they are plurimodal but come from less than four modalities.
- a multimodal candidate sequence marker whether primary or secondary, can be associated with endogenous multimodal (or equivalently multimodal) descriptors, derived from the unimodal descriptors associated with the unimodal cut-off temporal markers of all the modalities which made it possible to select the multimodal marker.
- the descriptors are said to be "endogenous" when they come from the sequencing of the digital video file by the sequencing module (5) but not from an enrichment step by the module (4) from information exogenous to the video file digital.
- Two secondary candidate multimodal cut-out time markers 22 from three modalities can be seen in Figure 2b.
- a proximity threshold being able to be predetermined
- a multimodal candidate cutting marker called "secondary” because multimodal but resulting from less than four modalities, is identified, to which are associated endogenous multimodal descriptors, called secondary because multimodal but resulting from less than four modalities, in a second step.
- FIG. 2c This case is represented in FIG. 2c, still for the same digital video file as in FIG. 2a.
- the sequencing allows the detection in a first stage of main plurimodal candidate sequence markers 21, in a second stage of secondary plurimodal candidate sequence markers 22 resulting from three modalities, then in a third stage of secondary plurimodal candidate sequence markers 23.
- the multimodal candidate cut markers are therefore initially chosen by temporal proximity out of four modalities, which leads to the choice of the main multimodal candidate sequence markers 21.
- secondary multimodal sequence markers 22 or 23 can be selected based on a combination of two or three modalities.
- the sequencing is considered “insufficient” on automatically assessable criteria. For example, if at least one time interval separating two successive candidate sequence markers has a duration greater than a predetermined duration, called the threshold duration T1, defined for example in relation to the total duration of the digital video file or absolutely, the sequencing is insufficient.
- T1 a predetermined duration
- candidate sequence time markers Once the candidate sequence time markers have been identified, a selection is made from among these candidate sequence markers to constitute one or more pairs of sequence markers, each comprising a start of sequence marker and an end of sequence marker.
- the duration of a sequence is, to do this, limited by a minimum duration D 1 and by a maximum duration D2 which depend on the type of digital video file to be sequenced.
- a last end of sequence marker can be, to initialize the constitution of pairs of sequence markers, placed from the end of the digital video file, either exactly at the end of the file, or for example at the level of a candidate sequence time stamp provided it is separated by a time interval less than a predetermined threshold from the end of the file.
- a multimodal candidate sequence marker separated by a duration between the durations and D1 and D2 of the last end-of-sequence marker is sought. If it exists, it is effectively retained as the last sequence start marker and associated with the last sequence end marker to constitute the last pair of sequence markers, which delimits the last virtual sequence.
- a multimodal candidate sequence marker is found at a duration less than D 1 from the last end-of-sequence marker, it can thus be decided not to retain it because the sequencing would result in sequences that are too short for them to be really of interest.
- a unimodal candidate sequence marker separated by a duration between the durations and DI and D2 of the last end-of-sequence marker is sought . If it exists, it is selected as the last start-of-sequence marker and combined with the last end-of-sequence marker to form the last pair of sequence markers, which delimits the last virtual sequence.
- a last sequence start marker is created, separated by a duration D2 from the identified cutting marker, so as to ensure the convergence of the process.
- At least one of the sequence tags of each pair of sequence tags is multimodal.
- the two sequence markers of each pair of sequence markers are multimodal.
- This arrangement makes it possible to ensure that the identified sequences have a semantic coherence defined by several modalities.
- At least one of the sequence markers of each pair of sequence markers is main multimodal.
- weights can be assigned to the different modalities according to the typology of the digital video file. For example, for “sport” type videos, the action modality can play a more important role in the sequencing if its weight is higher.
- the weights of the different modalities can optionally be chosen according to the nature of the content analyzed (known a priori or detected as the iterations progress) and/or the video file search criterion formulated by a user of the device 8.
- Each virtual sequence of digital video file can be indexed in a secondary index by means of the endogenous descriptors, and if necessary exogenous, associated with the start of sequence marker, as well as those associated with the end of sequence marker.
- descriptors associated with the start of sequence marker and/or with the end of sequence marker are said to be “secondary” in the sense that they are associated with a digital video file sequence and no longer with the digital video file as a whole. They allow the sequence marker pair to be indexed in the secondary index.
- the secondary index is in a relationship of inheritance with the primary index so that the primary endogenous descriptors, associated with the digital video file, are also associated with the identified sequence.
- the sequences of a digital video file are "daughters" of this digital file in the sense that if the digital video file is indexed means of endogenous and, where appropriate exogenous, primary descriptors, the sequence inherits these primary descriptors and can therefore be searched in the index not only on the basis of the secondary descriptors which characterize it but also on the basis of the primary descriptors which characterize the digital video file of which it is a "daughter".
- the minimum duration of a video file sequence is not fixed a priori but a video file sequence (or equivalently a pair of sequence time stamps) is retained in the secondary index only if it is associated with a sufficient number of descriptors, for example for there to be a significant probability of finding this sequence at the end of a search query.
- unimodal sequence markers can be selected, before an enrichment step and a new iteration of the process of sequencing for example.
- Unimodal sequence markers then play the same role as multimodal sequence markers in the indexing process, i.e. the corresponding sequences are indexed on the basis of the associated unimodal descriptors. This scenario is not sought in itself, but makes it possible to ensure the convergence of the sequencing process.
- information on the unimodal or multimodal character of a given secondary endogenous descriptor is kept during the indexing process. Thanks to this arrangement, it is possible to distinguish the multimodal secondary descriptors from the unimodal descriptors, which can be useful when searching for a video file sequence in which it is desired to make these two types of descriptors play different roles.
- the analysis of a digital video file is not carried out backwards, but by starting by selecting a first initial sequence marker, then a first end sequence marker and so on until the file has been completely scanned starting from the beginning of the file.
- the sequencer therefore indexes in a secondary index all the validated virtual sequences, that is to say all the virtual sequences identified and delimited by a marker of sequence start and an end of sequence marker retained by the sequencing module 5, each of which is associated with a set of endogenous and, where appropriate, exogenous secondary semantic descriptors.
- a sequence time marker can be associated by default with the first image and/or the last image, so as to ensure the sequencing of the entire file.
- a preliminary step of reducing the digital video file can be carried out so as to proceed with the sequencing only on the fragments of digital video file of interest.
- the secondary descriptors selected at the end of the sequencing step are secondary because they are not associated with a digital video file in its entirety, like “global” metadata or generally like “primary” descriptors, but they are associated to a particular sequence.
- the sequencing module 5 may optionally be a cluster of sequencers, this arrangement making it possible to distribute the requests to the various sequencers of the cluster according to the increase in load of the device.
- the process is iterative, i.e. the secondary descriptors associated with a virtual sequence can be enriched by a search for so-called "exogenous" secondary descriptors, such as sequence descriptors already existing in the descriptor database. of the device and/or through the enrichment module 4, before a new sequencing is restarted in order to achieve finer sequencing, on the basis of the endogenous and exogenous primary and secondary descriptors identified. It is also possible to proceed, before the sequencing of a digital video file, to a step of enrichment of the primary endogenous descriptors of this digital video file by exogenous descriptors, also called primary by means of the enrichment module 4 . A digital video file is therefore indexed in the primary index by means of endogenous and, where appropriate, exogenous primary descriptors.
- information on the exogenous or endogenous character of a given primary or secondary descriptor is kept during the indexing process. Thanks to this arrangement, it is possible to distinguish the endogenous descriptors from the exogenous descriptors, which can be useful when searching for a video file sequence in which one wishes to make these two types of descriptors play different roles.
- example 1 if the sequences have been defined at the end of a first sequencing step on the basis of the schedule identified for the goals and half-time, it is possible for example to find the corresponding match on the Internet and to enrich the endogenous secondary descriptors of each sequence on the basis of textual information on this match.
- Fig. 4 gives a schematic representation of the steps of an iteration of the sequencing process of a video file on the basis of four modalities.
- the process of indexing digital video file sequences is of the parent/child type: the dispatcher's index points to the general information of the digital video file, therefore to the so-called "primary" index, while the sequencer creates an indexing "secondary" inherited.
- the primary and secondary indexes are multi-field and mutually feed each iteration. For example, a step of sequencing the video of a football match can cause N sequences to emerge, the k-th of which is associated with a descriptor that is “half-time”. The “half-time” information is relevant both for the sequence k but also for the entire video file.
- the primary indexing of the video file can therefore be enriched with the half-time information and the date of this half-time in the file.
- wildcard information can populate the primary index from the secondary index
- character information initially identified as generic and becoming particularly relevant to a particular sequence can populate the secondary index from the primary index
- the invention therefore makes it possible to go down, thanks to this indexing process, to a much finer grain size in a search for content in digital video files than what is permitted by the indexing processes currently implemented for this type of files, as well as a two-level sequence search possibility according to the two nested dimensions created by the two indexes.
- this secondary indexing is dynamic, that is to say that it can be enriched and refined: as the analyzes of videos of the same domain are carried out, the corpus of relevant descriptors associated to this domain on the basis of which the multimodal analysis module 3 can analyze a digital video file increases. As a result, the first analyzed digital video file can be re-analyzed after analyzing N other digital video files to refine its sequencing.
- the secondary indexing can be carried out according to various points of view according to the video search requests carried out by the user on the video library already analyzed.
- an initial point of view chosen for secondary indexing is not absolutely limiting and can always be modified on the basis of a particular search.
- a digital video file could have been created manually by aggregating two video files to give a digital video file containing a football sequence containing, among other things, a spectacular football goal followed by a rugby sequence containing, among other things, a spectacular rugby. Analyzing this digital video file in sports mode would yield two sequences, one sequence (a) for football and one sequence (b) for rugby, but there is no reason why the sequencing should be suitable for football rather than in rugby or vice versa.
- the dispatcher can relaunch an analysis of the video (a) on descriptors adapted to football, to obtain a sequencing and an indexing more adapted to this particular sport. But he can repeat the same process at another time in the context of rugby.
- the search module 6 contains a “client”, which allows a user to access the various sequences of the video files analyzed by formulating a search query .
- the research module 6 therefore constitutes the so-called “front-end” level of the device, that is to say through which the end user interacts with the device, while modules 1 to 5 constitute the so-called “back-end” level.
- -end i.e. not visible to the end user of the device.
- the research module 6 can communicate with a video editor module 7, comprising an interface for creating, editing and viewing video extracts corresponding to virtual sequences.
- the search module 6 allows the user at least to formulate a search query and to visualize the result.
- a search is carried out on the sequences of video files thanks to the association ⁇ primary index, secondary index ⁇ based on a inheritance link and thanks to the sets of descriptors that have been associated with each sequence of each digital video file during secondary indexing.
- the query is not an a priori query based on a relational database language, although this possibility could be envisaged.
- This is a query of the type used by search engines, i.e. the query can combine a full-text, faceted search based on the descriptors present in the primary and secondary and numerical (for example, sorting can be done on chronological type criteria).
- the search query can be formulated by a user in a user interface or else by a conversational robot (“chatbot” in English).
- the search result is then displayed in the graphical interface of the search and editing module 6 and it does not appear in the form of a list of video files but of a list of sequences of video files, classified in order of relevance.
- Fig. 3 represents the different interactions between the modules and the services of the computerized process in connection with the possible actions of the user.
- the principle is therefore that implemented for website search engines, which allow direct access to the pages that make up the websites, or for the constitution of playlists from a set of audio files in which tracks or chapters are predefined.
- this principle is natural for these two types of media, highly structured and designed to be indexed, it is not used for any type of digital video file in general, for which the choice has historically been made to index them in their globality due to the complexity of their sequencing.
- the device makes it possible in summary to constitute a search engine for digital video file sequences, the sequencing of video files on which the search is carried out being dynamic, that is to say to be created or modified or adapted at the end of formulating a new search query.
- the search result may include several sequences from several different video files and/or several sequences from the same digital video file.
- the temporal consistency of the original sequences may not be respected, even in the case where the sequences forming the list returned in response to the search query come from the same original digital video file, since this is the relevance of the sequences with respect to the search criterion which fixes their order of appearance in this list.
- the relevance of the sequences in relation to the search criterion is for example evaluated according to logical and mathematical criteria, which make it possible to assign a score to each sequence according to a query.
- the sequences are then presented in descending order of score.
- Prior filtering steps (language, geographical origin, dates, etc.) may be provided.
- a higher weight is assigned to the secondary descriptors than to the primary descriptors so that the search result is based more on the content of the sequence than on the content of the video file digital as a whole.
- indexing architecture primary and secondary
- a user can therefore perform several tasks dynamically from full-text search functionalities, semantic concepts, themes or multi-criteria filters/facets.
- the research module 6 can comprise a user interface, such as a computer, a tablet, a smartphone for example.
- the video editor module 7 can include a user interface, such as a computer, a tablet, a smartphone for example.
- the user interface can be common to modules 6 and 7.
- the user can in particular, via one or other of these interfaces: from each virtual sequence, extract the virtual sequence from the digital video file to produce a video extract that he can view , such as streaming, or saving as a new digital video file.
- a video extract In the case where a video extract is displayed, it can optionally simultaneously display the endogenous and/or, where appropriate exogenous, secondary and/or primary descriptors associated with the extracted sequence.
- the dashboard can also present other information, such as definitions or "find out more" from the encyclopedic web, geographical maps, graphs...
- the user interface can comprise a graphical interface 55 comprising a zone 52 dedicated to formulating the search query and displaying its results, a zone for viewing video extracts (screen 1, reference 53), a second zone display (or even screen 2, reference 54), synchronized with screen 1 and a virtual remote control zone 51.
- a graphical interface 55 comprising a zone 52 dedicated to formulating the search query and displaying its results, a zone for viewing video extracts (screen 1, reference 53), a second zone display (or even screen 2, reference 54), synchronized with screen 1 and a virtual remote control zone 51.
- each end of sequence marker of each virtual sequence associated with an extract from the playlist is: main plurimodal or
- This arrangement makes it possible to increase the semantic consistency of the playlist as a whole and its consistency with respect to the search criterion formulated.
- Navigation can, thanks to the primary and secondary indexing system, be extended outside the selected playlist: it is for example possible, from a given sequence of the playlist, to extend the playback of the digital video file from which from the sequence beyond this sequence by moving the start and/or end of sequence markers.
- Visual effects such as, in a non-exhaustive way, slow motions, enlargements, repetitions, can be applied to the playlist, either during viewing, an addition of text, a freeze frame, etc., or for the editing a new digital video file.
- Sound effects such as, but not limited to, modifying a background sound, adding a commentary or another sound, can be applied to the playlist, either during viewing or for editing. a new digital video file. Building a playlist or editing a new video can be fully automated from the formulation of the search query. However, as the system behaves like a virtual playhead which moves dynamically from sequence to sequence, at any time, if the graphic interface of module 6 gives it the possibility, the user can act on the playlist or the new video.
- the graphical interface of the video editor module 7 thus offers navigation options in the form of an improved video player allows access to the summary when the search result is an entire video or an interactive zapping within the selected and aggregated sequences.
- a graphical interface 55 for editing or viewing a playlist, can be viewed in FIG. 5a. Selectable descriptors are positioned to the left of playlist viewing screen 1, the playlist can be displayed above screen 1, the descriptors related to the user's search are displayed above the playlist .
- Virtual remote control 51 is located below the playlist.
- a second screen linked to the video extract corresponding to the virtual sequence being viewed is located to the right of the playlist and allows you to display graphics or other useful information linked to the playlist.
- Fig. 5b shows another embodiment of the graphical interface of the device 8 in which selectable descriptors are positioned to the left of the screen for viewing the playlist, the playlist is viewed in screen 1 (reference 53), the descriptors related to the user's search are located above the playlist and the virtual remote 51 is located below the playlist
- Fig. 6 represents the actions performed when using each button of the virtual remote control on an example of a playlist created from three digital video files, the playlist being composed by way of example of three different extracts.
- the virtual remote control comprises for example at least 5 virtual buttons.
- the al button allows viewing of the video extract corresponding to the current sequence and stopping viewing.
- buttons a2 and a2 When button a2 is pressed, the playback of the video extract corresponding to the sequence being viewed will be extended in the original digital video file beyond the duration provided for this sequence, a second press of button a2 while viewing has not yet exceeded the time limit provided for the sequence cancels the first press of button a2, a second press of button a2 when viewing the digital video file outside the time limit provided, stops viewing of the original digital video file and resumes the playlist at the next sequence.
- Button a3 allows you to return to the start of the sequence preceding the sequence currently being viewed.
- the a4 button allows you to return to the start (at the timecode of the start marker) of the sequence currently being viewed.
- Button a5 stops viewing the current sequence and starts playing the next sequence.
- -N s which allows you to go back N seconds in the digital video file of the current sequence, allowing you to review a sequence or to see N seconds before the start marker of the current virtual sequence;
- this button allows you to advance N seconds ahead of the digital video file of the current sequence allowing you to skip a sequence or see 10 seconds after the end marker of the virtual sequence In progress.
- the virtual remote control therefore allows flexible navigation within the automatic playlist of video extracts from digital files, the user being able to view the selected extracts at will in the order of the playlist or in an order that suits him better or even extending the viewing an extract before or after the cut markers, without the files associated with each extract being created and having to be opened and/or closed to switch from one extract to another.
- the comfort and browsing potential are therefore considerably improved compared to what is possible with a “static” playlist within the meaning of the prior art.
- Figs. 7a and Figs. 7b represent two examples of graphical interface 55.
- FIG. 7a represents a graphic interface of the computerized method, comprising a first screen 53 for viewing the playlist, a second screen 54 for a graphic linked to the sequence being viewed and a virtual remote control 51 located below the two screens to navigate in the playlist (in which the video extracts are arranged one after the other), as well as a button used to put the playlist in full screen.
- FIG. 7b represents a graphic interface 56 of the computerized method, comprising a first screen 53 for viewing the playlist, a second screen 54 for putting messages in connection with the video or for communicating with other users, a virtual remote control 51 located below the two screens to navigate in the playlist and a button used to put the playlist in full screen.
- the playlist made up of extracts based on this search result can be exhaustive. It may also contain only extracts considered essential with respect to search criteria specified by the user.
- a score can be defined to classify the virtual sequences of digital video files into two categories: "essential” and “ornamental” according to the number of descriptors found.
- the playlist made up of extracts based on this search result may contain only the extracts associated with virtual sequences identified as essential with respect to criteria user-specified searches.
- the concept of summary can be defined in relation to a particular domain.
- the summary can be built from keywords provided by the user or defined beforehand, for example ⁇ goal, yellow card, red card, change of player, mid- time ⁇ , the relevant sequences being presented in the temporal order of the initial digital video file from which they originate.
- the search is possible in "full text” mode (or even “full text”) and in "faceted” search mode, with optional semi-automatic completion. Faceted answers help refine search criteria and are combined with full-text words.
- the inheritance indexing system thanks to the inheritance indexing system, the video files (in the previous example, the matches) from which the sequences originate are known. It is therefore possible to provide an option to view all or part of the original video files of the sequences if necessary.
- module 6 "front-end” and the "back-end” level composed of modules 1 to 5 can be done whatever the support of module 6 (computer, tablet, smartphone, etc.) possibly without use a proprietary application. That is in particular achievable with technologies accessible in Open Source, such as the React JavaScript library.
- the device can be integrated into a social network, and offer two user profiles: the creators of video files by editing using the video editor module 7 and the viewers (“followers”) who follow these creators.
- the browsing history on a playlist of excerpts from digital video files obtained according to the invention can be recorded. It can then be shared in a social network or used to semi-automatically edit a new digital video file.
- Fig. 8 represents a graphic interface of the device 8 comprising a screen for the representation of a mental map ("mindmap" in English) of a directory of sequences or automatic lists or extracts or playlist recorded by the user, a part of the backups being public and the other part private, below this screen several tabs are selectable: Mindmap, Chatbot, Search by facet, Social network and video editor.
- Fig. 9 represents a graphic interface 56 of the device 8, comprising a screen for the representation of the interactive Chatbot making it possible to carry out a search for playlists or sequences through a discussion by keyword, below this screen several tabs are selectable: Mindmap, Chatbot, Facet Search, Social Network and Video Editor.
- Fig. 10 represents a graphic interface of the device 8, comprising a screen for the representation of the search by facet, grouping descriptors under other more general descriptors, making it possible to search by tree structure, below this screen several tabs are selectable: Mindmap, Chatbot, Facet Search, Social Network and Video Editor.
- Fig. 11 represents a graphic interface of the device 8, comprising a screen for the social network integrated into the invention, the users share the playlists found or created, below this screen several tabs are selectable: Mindmap, Chatbot, Search by facet, Network social and video editor.
- Fig. 12 represents a graphic interface of the computerized device 8, comprising a screen for editing video, the user can modify the order of the extracts and integrate the extracts he wishes into a playlist, below this screen several tabs are selectable: Mindmap, Chatbot, Facet Search, Social Network and Video Editor.
- multimodal analysis module 3 a analyzer according to the image modality 3b: analyzer according to the audio modality 3 c: analyzer according to the text modality 3d: analyzer according to the action modality 4: enrichment module
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
This computer-implemented method for delivering audio-visual media on-demand allows one or more digital video files to be sequenced and the sequences generated by the sequencing to be indexed, by dividing virtually the one or more digital video files into digital virtual sequences, each bounded virtually by two sequence time markers. The method is intended to produce and select automatically virtual sequences of each digital video file, the file fragments corresponding to the virtual sequences then being able to be extracted from the digital video files in question to be viewed or recorded in a new digital video file.
Description
PROCEDE INFORMATISE DE DE-LINEARISATION COMPUTERIZED DE-LINEARIZATION PROCESS
AUDIOVISUELLE AUDIOVISUAL
DOMAINE DE L’INVENTION La présente invention se rapporte au domaine de G identification et du traitement automatisé des données numériques, en particulier des fichiers vidéo numériques. FIELD OF THE INVENTION The present invention relates to the field of identification and automated processing of digital data, in particular digital video files.
L’invention se rapporte plus précisément à un procédé informatisé de dé-linarisation audiovisuelle de fichiers vidéo numériques. ARRIÈRE-PLAN TECHNOLOGIQUE The invention relates more specifically to a computerized process for the audiovisual de-linearization of digital video files. TECHNOLOGICAL BACKGROUND
La quantité d'informations générées dans la société d'aujourd'hui augmente de façon exponentielle. De plus, les données sont mises à disposition dans plusieurs dimensions sur différents supports numériques, tels que le flux vidéo, le flux audio et le flux texte. The amount of information generated in today's society is increasing exponentially. Moreover, data is made available in multiple dimensions on different digital media, such as video stream, audio stream, and text stream.
Cette masse d'informations multimédias pose d’importants défis technologiques en ce qui concerne la manière dont les données multimédias peuvent être intégrées, traitées, organisées et indexées d'une manière sémantiquement significative pour faciliter une récupération efficace. Habituellement, une structure de contenu est conçue par le producteur des données avant que celles-ci ne soient générées et enregistrées. Pour permettre la récupération future basée sur le contenu, une telle structure sémantique prévue (ou encore métadonnées) doit être transmise avec le contenu aux utilisateurs lorsque le contenu est livré. De cette manière, les utilisateurs peuvent choisir ce qu'ils souhaitent en fonction de la description de ces métadonnées. Par exemple, chaque livre ou magazine est publié avec sa table des matières, à travers laquelle les utilisateurs peuvent trouver le numéro de page (index) où les informations souhaitées sont imprimées en passant simplement à la page. Une telle indexation de contenus hautement structurés a priori permet donc l’accès rapides à des parties spécifiques des documents et la constitution d’agrégats de séquences de documents, comme par exemple des playlists dans le cas de fichiers audio. This mass of multimedia information poses significant technological challenges in terms of how multimedia data can be integrated, processed, organized and indexed in a semantically meaningful way to facilitate efficient retrieval. Usually, a content structure is designed by the data producer before the data is generated and saved. To enable future content-based retrieval, such intended semantic structure (or metadata) must be transmitted with the content to users when the content is delivered. In this way, users can choose what they want based on the description of this metadata. For example, each book or magazine is published with its table of contents, through which users can find the page number (index) where the desired information is printed by simply jumping to the page. Such indexing of highly structured content a priori therefore allows rapid access to specific parts of documents and the constitution of aggregates of document sequences, such as playlists in the case of audio files.
Cette structuration est rarement fournie dans le cas de données vidéo. Par exemple, pour un film destiné au cinéma, il n’est pas d’usage courant de fournir les indications permettant d’accéder aux différentes séquences composées par le cinéaste. This structuring is rarely provided in the case of video data. For example, for a film intended for the cinema, it is not common practice to provide the indications allowing access to the different sequences composed by the filmmaker.
Un grand nombre de fichiers vidéo ne peuvent pas être structurées a priori. C’est le cas par exemple d’évènements filmés en direct, dont on ne peut pas prévoir le déroulement avant la réalisation du fichier vidéo numérique. A large number of video files cannot be structured a priori. This is the case, for example, of events filmed live, the course of which cannot be predicted before the production of the digital video file.
Enfin, l’indexation définie a priori par le producteur peut ne pas être pertinente du point de vue de l’utilisateur dont les critères de recherche ne sont pas toujours connus a priori non plus.
Dans le cas des fichiers vidéo numériques, du fait de la difficulté d’accéder à une indexation pertinente, l’usage est donc de procéder à un étiquetage du fichier vidéo numérique dans son ensemble, de sorte que les métadonnées associées à un fichier vidéo numérique sont globales, comme par exemple le nom, la date de création, le format de fichier, la durée de visionnage. Un ensemble de métadonnées permet d’accéder à un fichier vidéo numérique dans son ensemble lorsqu’une recherche de contenu audiovisuel est effectuée. Ces métadonnées sont donc « globales ». Finally, the indexing defined a priori by the producer may not be relevant from the point of view of the user whose search criteria are not always known a priori either. In the case of digital video files, due to the difficulty of accessing relevant indexing, the practice is therefore to label the digital video file as a whole, so that the metadata associated with a digital video file are global, such as name, creation date, file format, viewing time. A set of metadata provides access to a digital video file as a whole when a search for audiovisual content is performed. These metadata are therefore “global”.
Il est connu d’enrichir les métadonnées « globales » associées à un fichier vidéo numérique par des métadonnées complémentaires, mais ces métadonnées sont toujours gérées au niveau global du fichier pour faciliter l’accès à la vidéo via un moteur de recherche. Par exemple, il est possible de récupérer des informations telles que l’auteur, les acteurs, le compositeur de la bande-son d’un film ou des commentaires de spectateurs sur internet et de compléter les métadonnées initiales avec ces métadonnées. Un tel enrichissement permet un accès plus efficace à un fichier vidéo numérique via un moteur de recherche. It is known to enrich the "global" metadata associated with a digital video file with additional metadata, but this metadata is always managed at the global level of the file to facilitate access to the video via a search engine. For example, it is possible to retrieve information such as the author, the actors, the composer of the soundtrack of a film or comments from spectators on the Internet and to complete the initial metadata with this metadata. Such enrichment allows more efficient access to a digital video file via a search engine.
Pour permettre de plus l’accès à une séquence pertinente d’un fichier vidéo numérique donné, plusieurs méthodes d’indexation a posteriori peuvent être envisagées, notamment des indexations manuelles. Ces méthodes sont cependant longues et fastidieuses. Dans le domaine de la recherche de contenus vidéo, l’utilisation de méthodes d’indexation automatiques est ainsi devenue incontournable. To also allow access to a relevant sequence of a given digital video file, several a posteriori indexing methods can be envisaged, in particular manual indexing. However, these methods are long and tedious. In the field of video content research, the use of automatic indexing methods has thus become essential.
Ua difficulté des contenus vidéo est qu’ils ne sont pas auto-descriptifs, contrairement aux médias textuels. The difficulty with video content is that it is not self-descriptive, unlike text media.
Ue document EP3252770A1 propose un procédé d’identification et de post-traitement automatique de contenu audiovisuel. Dans ce procédé, une description formelle du contenu du fichier vidéo numérique est fournie par un opérateur, comme par exemple un script dans le cas d’un film. Après l’extraction des flux image (c’est-à-dire contenant des données visuelles) et audio des données audiovisuelles, ces deux parties des données audiovisuelles sont décomposées en un ensemble de fragments successifs. Par ailleurs, la description formelle du fichier vidéo numérique est décomposée en parties logiques. Un motif de dialogue est généré à partir du flux audio uniquement. Une association des données audiovisuelles avec la description formelle correspondante est réalisée en associant des parties logiques de la description formelle à l’ensemble de fragments de données audiovisuelles, en utilisant le motif de dialogue. Ue fichier vidéo numérique peut alors être indexé puis manipulé sur la base de cette association.EU document EP3252770A1 proposes a process for the identification and automatic post-processing of audiovisual content. In this process, a formal description of the content of the digital video file is provided by an operator, such as a script in the case of a film. After extracting the image (i.e. containing visual data) and audio streams from the audiovisual data, these two parts of the audiovisual data are broken down into a set of successive fragments. Furthermore, the formal description of the digital video file is broken down into logical parts. A dialog pattern is generated from the audio stream only. An association of the audiovisual data with the corresponding formal description is achieved by associating logical parts of the formal description to the set of audiovisual data fragments, using the dialogue pattern. A digital video file can then be indexed and then manipulated based on this association.
Ue document US6714909B1 est un autre exemple dans lequel un procédé d’automatisation du processus d’indexation multimodal est proposé. Ue procédé comprend les étapes suivantes :Ue document US6714909B1 is another example in which a method of automating the multimodal indexing process is proposed. A process comprises the following steps:
- séparer un flux de données multimédia en composants audio, visuels et textuels ;
- segmenter les composants audio, vidéo et textuels du flux de données multimédia sur la base de différences sémantiques, les caractéristiques au niveau de la trame étant extraites du composant audio segmenté dans une pluralité de sous-bandes ; - separate a multimedia data stream into audio, visual and textual components; - segmenting the audio, video and text components of the multimedia data stream based on semantic differences, the frame-level features being extracted from the segmented audio component into a plurality of sub-bands;
- identifier au moins un locuteur cible à l'aide des composants audio et vidéo ; - identifying at least one target speaker using the audio and video components;
- identifier des limites sémantiques de texte pour au moins l'un des locuteurs cibles identifiés pour générer des blocs de texte sémantiquement cohérents ; - identifying text semantic boundaries for at least one of the identified target speakers to generate semantically consistent text blocks;
- générer un résumé du contenu multimédia basé sur les composants audio, vidéo et textuel, les blocs de texte sémantiquement cohérents et le locuteur cible identifié ; - generate a summary of the multimedia content based on the audio, video and textual components, the semantically coherent text blocks and the identified target speaker;
- dériver un sujet pour chacun des blocs de texte sémantiquement cohérents sur la base d'un ensemble de modèles de catégories de sujets ; - deriving a topic for each of the semantically consistent text blocks based on a set of topic category models;
- générer une description multimédia de l'événement multimédia sur la base du locuteur cible identifié, des blocs de texte sémantiquement cohérents, du sujet identifié et du résumé généré.- generating a media description of the media event based on the identified target speaker, the semantically consistent text blocks, the identified topic and the generated summary.
Le procédé décrit dans le document EP3252770A1 présente l’inconvénient de nécessiter la fourniture d’une description formelle du fichier vidéo numérique. Le procédé décrit dans le document US6714909B1 présente l’inconvénient de nécessiter que le contenu des flux audio et ou textes du fichier vidéo numérique soit sémantiquement structuré, c’est-à-dire qu’il s’agit de pouvoir reconstituer un contenu audio qui a un sens par extraction et agrégation de séquences d’une vidéo donnée. Il ne peut donc pas être mis en œuvre pour agréger des séquences issues de fichiers vidéo différents ou pour des fichiers vidéo sémantiquement faiblement structurée. L’invention vise ainsi à proposer un procédé automatisé d’analyse, d’indexation et de montage d’un ensemble de fichiers vidéo numériquement éventuellement faiblement structurés sur des critères définis par l’utilisateur et sans indexation a priori du contenu de ces fichiers. The method described in document EP3252770A1 has the disadvantage of requiring the provision of a formal description of the digital video file. The method described in the document US6714909B1 has the disadvantage of requiring that the content of the audio streams and or texts of the digital video file be semantically structured, that is to say that it is a question of being able to reconstitute an audio content which makes sense by extracting and aggregating footage from a given video. It cannot therefore be implemented to aggregate sequences from different video files or for semantically weakly structured video files. The invention thus aims to propose an automated method of analysis, indexing and editing of a set of digitally possibly weakly structured video files on criteria defined by the user and without a priori indexing of the content of these files.
RÉSUMÉ DE L’INVENTION SUMMARY OF THE INVENTION
Ainsi, l’invention se rapporte à un procédé informatisé de dé-linéarisation audiovisuelle permettant un séquençage d’un ou plusieurs fichiers vidéo numériques et une indexation des séquences issues du séquençage, en découpant virtuellement par marquage temporel le ou les fichiers vidéo numériques en des séquences virtuelles, chaque séquence virtuelle étant définie par deux marqueurs temporels de séquence et des descripteurs associés. Thus, the invention relates to a computerized process for audiovisual de-linearization allowing sequencing of one or more digital video files and indexing of the sequences resulting from the sequencing, by virtually cutting by time stamping the digital video file(s) into virtual sequences, each virtual sequence being defined by two sequence time stamps and associated descriptors.
Le procédé comprend les étapes suivantes : a. réception d’un ou plusieurs fichiers vidéo numériques à analyser ; b. indexation de chacun des fichiers vidéo numériques dans un index primaire au moyen de descripteurs endogènes primaires associés permettant d’identifier chaque fichier vidéo numérique ; c. extraction automatique des flux de données audio, image, et texte de chacun des fichiers vidéo numériques ;
d. au moyen d’une pluralité de dispositifs informatisés mettant en œuvre un algorithme d’apprentissage automatique choisis et/ou entraînés pour une typologie de fichiers vidéo numériques définie au préalable, analyse automatique, fichier par fichier de chacun des fichiers vidéo numériques, selon les quatre modalités : modalité image, modalité audio, modalité texte, modalité action permettant d’identifier les groupes d’images successives formant une action donnée, l’analyse produisant de manière automatique un ou plusieurs marqueurs temporels de découpe unimodaux pour chacune des modalités, un ou plusieurs descripteurs étant associés à chacun des marqueurs temporels de découpe unimodaux, e. production automatique, à l’issue de l’analyse de chacun des fichiers vidéo numériques, de marqueurs temporels de séquence candidats de découpe virtuelle, dans le but de délimiter des séquences virtuelles, et des descripteurs associés à ces marqueurs temporels de séquence candidats de découpe virtuelle, qui sont : The method comprises the following steps: a. receiving one or more digital video files to be analyzed; b. indexing each of the digital video files in a primary index by means of associated primary endogenous descriptors making it possible to identify each digital video file; vs. automatic extraction of audio, image, and text data streams from each digital video file; d. by means of a plurality of computerized devices implementing an automatic learning algorithm chosen and/or trained for a typology of digital video files defined beforehand, automatic analysis, file by file, of each of the digital video files, according to the four modalities: image modality, audio modality, text modality, action modality making it possible to identify the groups of successive images forming a given action, the analysis automatically producing one or more unimodal cut-out temporal markers for each of the modalities, one or several descriptors being associated with each of the unimodal cutting time markers, e. automatic production, following the analysis of each of the digital video files, of virtual cutting candidate sequence time markers, with the aim of delimiting virtual sequences, and of the descriptors associated with these cutting candidate sequence time markers virtual, which are:
- soit des marqueurs temporels de découpe unimodaux des fichiers vidéo numériques, et qui sont appelés à l’issue de cette étape marqueurs temporels de séquence candidats unimodaux ;- either unimodal cutting time markers of the digital video files, and which are called at the end of this step unimodal candidate sequence time markers;
- soit, pour chacun desdits fichiers vidéo numériques pris isolément, les codes temporels correspondants aux marqueurs temporels de découpe virtuelle unimodaux sont comparés et, à chaque fois qu’au moins deux marqueurs temporels de découpe unimodaux issus de modalités d’analyse différentes sont séparés par un intervalle de temps inférieur à une durée prédéterminée principale, un marqueur temporel de séquence candidat plurimodal, en lien mathématique avec les au moins deux marqueurs de séquence unimodaux, est créé ; f. pour chacun desdits fichiers vidéo numériques analysés, en fonction d’une borne inférieure et d’une borne supérieure définies pour déterminer la durée minimale et la durée maximale de chaque séquence, par rapport à la typologie du ou des fichiers vidéo numériques, - or, for each of said digital video files taken in isolation, the time codes corresponding to the unimodal virtual cutting time markers are compared and, each time that at least two unimodal cutting time markers resulting from different analysis modalities are separated by a time interval less than a main predetermined duration, a multimodal candidate sequence time marker, mathematically related to the at least two unimodal sequence markers, is created; f. for each of said digital video files analyzed, according to a lower limit and an upper limit defined to determine the minimum duration and the maximum duration of each sequence, with respect to the typology of the digital video file(s),
- sélection automatique, parmi les marqueurs temporels de séquence candidats unimodaux ou plurimodaux, de paires de marqueurs de séquence, - automatic selection, among the unimodal or plurimodal candidate sequence temporal markers, of pairs of sequence markers,
- chaque paire présentant un marqueur de début de séquence et un marqueur de fin de séquence, de sorte que la durée de chaque séquence retenue soit comprise entre lesdites bornes inférieure et supérieure, - each pair having a start of sequence marker and an end of sequence marker, so that the duration of each sequence selected is between said lower and upper limits,
- ces paires de marqueurs de séquence étant associées aux descripteurs associés auxdits marqueurs temporels de séquence candidats sélectionnés, ces descripteurs étant dès lors dits « descripteurs endogènes secondaires » ; g. indexation, dans un index secondaire qui est en relation d’héritage par rapport audit index primaire, de toutes les paires de marqueurs de séquence et des descripteurs associés permettant l’identification de chaque séquence, les séquences virtuelles étant identifiables et aptes à être recherchés au moins par les descripteurs endogènes secondaires et les descripteurs endogènes primaires.
Grâce à ces dispositions, il est possible de séquencer un fichier vidéo numérique en séquences présentant une cohérence sémantique suivant une à quatre modalités différentes, sous forme de séquences virtuelles délimitées par des paires de marqueurs temporels de séquence et indexées par des descripteurs secondaires associées à ces marqueurs temporels de séquence ainsi que les descripteurs primaires associées au fichier vidéo numérique dont les séquences sont issues. L’espace en mémoire utilisé pour ces séquences correspond à l’espace nécessaire pour stocker les paires de marqueurs temporels et les descripteurs secondaires associés. C’est en cela que le séquençage est dit virtuel. these pairs of sequence markers being associated with the descriptors associated with the said selected candidate sequence temporal markers, these descriptors therefore being referred to as “secondary endogenous descriptors”; g. indexing, in a secondary index which is in a relationship of inheritance with respect to said primary index, of all the pairs of sequence markers and of the associated descriptors allowing the identification of each sequence, the virtual sequences being identifiable and capable of being searched for less by the secondary endogenous descriptors and the primary endogenous descriptors. Thanks to these provisions, it is possible to sequence a digital video file in sequences presenting a semantic coherence according to one to four different modalities, in the form of virtual sequences delimited by pairs of sequence time markers and indexed by secondary descriptors associated with these sequence time stamps as well as the primary descriptors associated with the digital video file from which the sequences originate. The space in memory used for these sequences corresponds to the space necessary to store the pairs of temporal markers and the associated secondary descriptors. It is in this that the sequencing is said to be virtual.
Selon un mode de réalisation, le procédé informatisé de dé-linéarisation audiovisuelle est caractérisé en ce qu’un extrait vidéo associé à une séquence virtuelle, obtenu par visualisation du fragment de fichier délimité par les deux marqueurs de séquence de la séquence virtuelle présente une unité de sens (autrement dit une cohérence sémantique) qui résulte de l’analyse automatique de chaque fichier vidéo numérique selon les quatre modalités et de la découpe virtuelle par rapport à cette analyse. According to one embodiment, the computerized process for audiovisual de-linearization is characterized in that a video extract associated with a virtual sequence, obtained by viewing the file fragment delimited by the two sequence markers of the virtual sequence has a unit of meaning (in other words a semantic coherence) which results from the automatic analysis of each digital video file according to the four modalities and from the virtual cutting in relation to this analysis.
Grâce à cette disposition, les séquences virtuelles peuvent être extraites et les extraits vidéo correspondant aux séquences virtuelles peuvent être visualisés par un utilisateur qui percevra sa cohérence sémantique et pourra lui attribuer un sens global. By virtue of this arrangement, the virtual sequences can be extracted and the video extracts corresponding to the virtual sequences can be viewed by a user who will perceive its semantic coherence and will be able to attribute an overall meaning to it.
Selon un mode de réalisation, au moins un des deux marqueurs de séquence de chaque paire de marqueurs de séquence sélectionnée à l’étape f est un marqueur temporel de séquence candidat plurimodal et est alors dit marqueur de séquence plurimodal, et avantageusement chaque marqueur de séquence de chaque paire de marqueurs de séquence sélectionnée est un marqueur de séquence plurimodal. According to one embodiment, at least one of the two sequence markers of each pair of sequence markers selected in step f is a plurimodal candidate sequence temporal marker and is then called a plurimodal sequence marker, and advantageously each sequence marker of each selected sequence tag pair is a multimodal sequence tag.
De cette manière, le sens global de la séquence est soutenu par plusieurs modalités et avantageusement quatre modalités. Dans ce dernier cas, la cohérence sémantique est donc obtenue à la fois sur la modalité texte, la modalité action, la modalité audio et la modalité image. In this way, the overall meaning of the sequence is supported by several modalities and advantageously four modalities. In the latter case, semantic consistency is therefore obtained on the text modality, the action modality, the audio modality and the image modality.
Avantageusement : Advantageously:
- plus une découpe a un nombre de descripteurs endogènes important et plus cet extrait vidéo a de chances d’être retenu dans la playliste suite à la recherche de l’utilisateur qui présenterait ces descripteurs endogènes - the more a cut has a large number of endogenous descriptors, the more this video extract is likely to be retained in the playlist following the search for the user who would present these endogenous descriptors
-et plus ce nombre de descripteurs endogènes important présente par différentes modalités des résultats communs (et dans ce cas on parle de descripteurs plurimodaux) et plus cet extrait vidéo a de chances d’etre retenu dans la playlist qui sera décrite plus loin suite à la recherche de l’utilisateur qui présenterait ces descripteurs endogènes. -and the greater this number of endogenous descriptors present by different modalities of common results (and in this case we speak of plurimodal descriptors) the more this video extract is likely to be retained in the playlist which will be described later following the search for the user who would present these endogenous descriptors.
De façon générale, plus les marqueurs de découpe sont plurimodaux et plus les extraits vidéos sont coupés avec une granulométrie fine.
Selon un mode de réalisation, pour chaque extrait vidéo, les descripteurs dits endogènes sont issus de la même modalité, ou d’une ou de plusieurs modalités différentes de la ou des modalités dont sont issues pour les marqueurs de découpe temporel de début et de fin de séquence de l’extrait vidéo In general, the more the cutting markers are multimodal, the more the video extracts are cut with a fine grain size. According to one embodiment, for each video extract, the so-called endogenous descriptors are derived from the same modality, or from one or more modalities different from the modality or modalities from which are derived for the start and end temporal cutting markers sequence of the video extract
Dans un mode de réalisation particulier, à l’étape f, on distingue deux types de marqueurs de séquence plurimodaux : In a particular embodiment, in step f, two types of plurimodal sequence markers are distinguished:
- un marqueur de séquence plurimodal créé à partir de quatre marqueurs temporels de découpe unimodaux issus des quatre modalités différentes séparés deux-à-deux par un intervalle de temps inférieur à la durée prédéterminée principale est dit marqueur de séquence plurimodal principal et - a plurimodal sequence marker created from four unimodal temporal cutting markers resulting from the four different modalities separated two-by-two by a time interval less than the main predetermined duration is called main plurimodal sequence marker and
- un marqueur de séquence plurimodal créé à partir de deux ou trois marqueurs temporels de découpe unimodaux issus d’autant de modalités parmi les quatre modalités, séparés deux-à- deux par un intervalle de temps inférieur à la durée prédéterminée principale est dit marqueur de séquence plurimodal secondaire. - a plurimodal sequence marker created from two or three unimodal temporal cutting markers resulting from as many modalities among the four modalities, separated two-by-two by a time interval less than the main predetermined duration is said marker of secondary multimodal sequence.
Selon un mode de réalisation, au moins l’un des marqueurs de chaque paire de marqueurs de séquence est un marqueur de séquence plurimodal principal. According to one embodiment, at least one of the tags of each pair of sequence tags is a main multimodal sequence tag.
Grâce à cette disposition, le sens global de la séquence est soutenu par quatre modalités. Thanks to this arrangement, the overall meaning of the sequence is supported by four modalities.
Selon un mode de réalisation, la modalité action est une modalité d’au moins un des deux marqueurs de séquence de la paire de marqueurs de séquence sélectionnée. According to one embodiment, the action modality is a modality of at least one of the two sequence markers of the pair of sequence markers selected.
Grâce à cette disposition, la cohérence sémantique d’une séquence est au moins sous-tendue par la modalité action, qui joue un rôle particulier dans de nombreux fichiers vidéo. Par exemple, dans le domaine du sport, la séquence obtenue sera cohérente du point de vue des actions sportives. Thanks to this arrangement, the semantic coherence of a sequence is at least underpinned by the action modality, which plays a special role in many video files. For example, in the field of sport, the sequence obtained will be coherent from the point of view of sporting actions.
Selon un mode de réalisation, des poids sont affectés à chacune des modalités pour la production des marqueurs de séquence candidats à l’étape e et/ou la sélection des marqueurs de séquence à l’étape f. According to one embodiment, weights are assigned to each of the modalities for the production of candidate sequence markers in step e and/or the selection of sequence markers in step f.
Grâce à cette disposition, la cohérence sémantique d’une séquence peut-être sous-tendue dans des proportions variées, éventuellement adaptées à des typologies vidéo, par les quatre modalités. Par exemple dans le domaine du sport, on pourra attribuer un poids plus élevé à la modalité action. Dans le domaine des cours en ligne, on pourra attribuer un poids plus élevé à la modalité texte. Thanks to this arrangement, the semantic coherence of a sequence can be underpinned in various proportions, possibly adapted to video typologies, by the four modalities. For example, in the field of sport, we can assign a higher weight to the action modality. In the field of online courses, we can assign a higher weight to the text modality.
Selon un mode de réalisation, According to one embodiment,
- pour des fichiers vidéo numériques dans le domaine du sport, le poids de la modalité action est supérieur à celui de la modalité image, lui-même supérieur aux poids des modalités texte et audio, - for digital video files in the field of sport, the weight of the action modality is greater than that of the image modality, itself greater than the weight of the text and audio modalities,
-pour des fichiers vidéo à fort contenu informationnel par la parole, le poids de la modalité texte est supérieur à celui des trois autres modalités.
Grâce à cette disposition, la cohérence sémantique d’une séquence peut-être adaptée à une typologie de vidéo telle qu’une vidéo dans le domaine du sport ou à une vidéo à fort contenu informationnel telle qu’un documentaire ou un cours en ligne. -for video files with high informational content by speech, the weight of the text modality is greater than that of the other three modalities. Thanks to this arrangement, the semantic coherence of a sequence can be adapted to a video typology such as a video in the field of sports or to a video with high informational content such as a documentary or an online course.
Selon un mode de réalisation, on affecte un poids aux descripteurs endogènes secondaires ainsi qu’aux descripteurs endogènes primaires pour caractériser leur importance dans les séquences, et ce poids est plus grand pour les descripteurs endogènes secondaires que celui des descripteurs endogènes primaires. According to one embodiment, a weight is assigned to the secondary endogenous descriptors as well as to the primary endogenous descriptors to characterize their importance in the sequences, and this weight is greater for the secondary endogenous descriptors than that of the primary endogenous descriptors.
Les poids différents des descripteurs endogènes et exogènes permettent lors de la formulation d’une requête de recherche de séquences formulée ultérieurement de faire jouer des rôles différents à ces deux types de descripteurs. En particulier, si le poids des descripteurs endogènes est supérieur à celui des descripteurs exogènes, les résultats d’une recherche de séquences seront davantage basés sur les descripteurs endogènes que sur les descripteurs exogènes. The different weights of the endogenous and exogenous descriptors make it possible, when formulating a sequence search query formulated later, to play different roles for these two types of descriptors. In particular, if the weight of endogenous descriptors is greater than that of exogenous descriptors, the results of a sequence search will be based more on endogenous descriptors than on exogenous descriptors.
Selon un mode de réalisation, les descripteurs endogènes secondaires sont dits « unimodaux » lorsqu’ils correspondent à une seule modalité et sont dits « plurimodaux » lorsqu’ils sont détectés pour plusieurs modalités. According to one embodiment, the secondary endogenous descriptors are said to be “unimodal” when they correspond to a single modality and are said to be “multimodal” when they are detected for several modalities.
Grâce à cette disposition, il est possible de distinguer les descripteurs sous-tendus par une seule ou par plusieurs modalités, ce qui peut être utile lors d’une recherche de séquence de fichier vidéo dans laquelle on souhaite faire jouer des rôles différents à ces deux types de descripteurs. A cette fin, selon un mode de réalisation, une information sur le caractère unimodal ou plurimodal d’un descripteur endogène secondaire donné est conservée au cours du processus d’indexation. Par exemple, si la modalité image donne le descripteur « thermodynamique » , et la modalité texte donne aussi le descripteur « thermodynamique », alors on peut constituer un descripteur plurimodal « thermodynamique » (qui est issue des deux descripteurs précédents et est donc plus robuste sur l’intérêt de visionner cet extrait on s’intéresse à la thermodynamique). Thanks to this arrangement, it is possible to distinguish the descriptors subtended by a single or by several modalities, which can be useful during a search for a video file sequence in which one wishes to make these two play different roles. types of descriptors. To this end, according to one embodiment, information on the unimodal or multimodal character of a given secondary endogenous descriptor is kept during the indexing process. For example, if the image modality gives the “thermodynamics” descriptor, and the text modality also gives the “thermodynamics” descriptor, then we can create a “thermodynamics” plurimodal descriptor (which comes from the two previous descriptors and is therefore more robust on the interest of viewing this extract we are interested in thermodynamics).
Selon un mode de réalisation, l’étape f du procédé présente ces sous étapes, pour chaque fichier vidéo numérique, pour réaliser les séquences : i) - sélection d’un dernier marqueur de fin de séquence, notamment plurimodal, à partir de la fin du fichier vidéo numérique, According to one embodiment, step f of the method presents these sub-steps, for each digital video file, to produce the sequences: i) - selection of a last end-of-sequence marker, in particular multimodal, from the end digital video file,
-et détermination de la présence d’un marqueur de séquence plurimodal à un code temporel compris entre deux codes temporels extrêmes, calculés par soustraction de la borne inférieure au code temporel du marqueur de fin sélectionné et par soustraction de la borne supérieure au code temporel du marqueur de fin sélectionné, -and determination of the presence of a multimodal sequence marker at a time code between two extreme time codes, calculated by subtracting the lower limit from the time code of the selected end marker and by subtracting the upper limit from the time code of the selected end marker,
- sélection du marqueur plurimodal comme dernier marqueur de début de séquence si la présence est confirmée, - selection of the plurimodal marker as the last sequence start marker if the presence is confirmed,
-sinon, détermination de la présence d’un marqueur unimodal dont la modalité est fonction de la typologie du fichier vidéo numérique entre les deux codes temporels extrêmes
- sélection du marqueur unimodal comme dernier marqueur de début de séquence si la présence est confirmée, -otherwise, determination of the presence of a unimodal marker whose modality depends on the typology of the digital video file between the two extreme time codes - selection of the unimodal marker as the last sequence start marker if the presence is confirmed,
-sinon, le dernier marqueur de début de séquence est désigné par la soustraction au code temporel du dernier marqueur de fin sélectionné de la borne supérieure ; ii), on réitère l’étape i) pour sélectionner un avant-dernier marqueur de début de séquence, le marqueur de début de séquence sélectionné à l’issue de l’étape i précédente jouant le rôle de dernier marqueur de fin de séquence sélectionné au début de l’étape i précédente ; iii) on réitère ainsi de suite la sous-étape ii) jusqu’au début du fichier vidéo numérique. otherwise, the last sequence start marker is designated by the subtraction from the time code of the last end marker selected from the upper limit; ii), step i) is repeated to select a penultimate sequence start marker, the sequence start marker selected at the end of the previous step i playing the role of last sequence end marker selected at the start of the previous step i; iii) sub-step ii) is repeated in this way until the start of the digital video file.
Grâce à cette disposition, la convergence du séquençage est assurée. Thanks to this arrangement, the convergence of the sequencing is ensured.
Selon un mode de réalisation, la durée prédéterminée principale est inférieure à 5 secondes, et optionnellement la durée maximale de chaque séquence sélectionnée est égale à deux minutes Grâce à cette disposition, les marqueurs de découpe unimodaux successifs sont séparés au maximum de 5 secondes, de sorte que les marqueurs de séquence candidats sont assez proches dans le temps et le séquençage est suffisamment fin. According to one embodiment, the main predetermined duration is less than 5 seconds, and optionally the maximum duration of each selected sequence is equal to two minutes. so that the candidate sequence markers are close enough in time and the sequencing is fine enough.
Si le séquençage est assez fin, il est possible de constituer des séquences virtuelles dont la durée est limitée par une borne supérieure relativement faible. Ainsi, selon un mode de réalisation, la durée des séquences virtuelles sélectionnées est limitée par une borne supérieure. Par exemple, la durée séparant les deux marqueurs d’une paire de marqueurs de séquence est inférieure à 2 minutes, 1 minute ou 30 secondes. If the sequencing is fine enough, it is possible to constitute virtual sequences whose duration is limited by a relatively low upper limit. Thus, according to one embodiment, the duration of the selected virtual sequences is limited by an upper limit. For example, the time between the two markers of a sequence marker pair is less than 2 minutes, 1 minute, or 30 seconds.
Selon un mode de réalisation, au moins une étape supplémentaire d’enrichissement de l’indexation des séquences virtuelles par des descripteurs secondaires exogènes est effectuée à l’étape g. According to one embodiment, at least one additional step of enriching the indexing of the virtual sequences by exogenous secondary descriptors is carried out in step g.
Grâce à cette disposition, le séquençage peut être réitéré pour aboutir à un séquençage plus fin, puisque des informations complémentaires - exogènes - ont été ajoutées. Thanks to this arrangement, the sequencing can be repeated to end up with finer sequencing, since additional - exogenous - information has been added.
Selon un mode de réalisation, les descripteurs secondaires au moyen desquels les séquences identifiées sont indexées sont enrichis d’un indicateur chiffré ou lettré, tel qu’un score global d’une carte de collection numérique, calculé pour chaque séquence à partir des descripteurs secondaires de la séquence virtuelle et/ou des descripteurs primaires du fichier vidéo numérique dans lequel la séquence a été identifiée. According to one embodiment, the secondary descriptors by means of which the identified sequences are indexed are enriched with a numerical or lettered indicator, such as an overall score of a digital collection card, calculated for each sequence from the secondary descriptors the virtual sequence and/or the primary descriptors of the digital video file in which the sequence was identified.
Grâce à cette disposition, les résultats d’une recherche ultérieure de séquence dans l’index secondaire pourront être ordonnés sur la base de cet indicateur chiffré ou lettré. Thanks to this provision, the results of a subsequent sequence search in the secondary index can be ordered on the basis of this encrypted or lettered indicator.
Selon un mode de réalisation, la modalité action comprend les sous-modalités : {détection de changement de plans, détection d’action suivant une typologie de fichiers vidéo numérique}, et chacune des sous-modalités de la modalité action permet de générer un jeu particulier de marqueurs temporels de découpe unimodaux. According to one embodiment, the action modality comprises the sub-modalities: {detection of change of shots, detection of action according to a typology of digital video files}, and each of the sub-modalities of the action modality makes it possible to generate a game particular of unimodal cut-out time markers.
Grâce à cette disposition, autant de jeux marqueurs temporels de découpe unimodaux que de sous-modalités (une modalité ne contenant pas de sous-modalité étant comptée comme une
sous-modalité unique) pourront être obtenus, de sorte que le séquençage permettra de produire des séquences cohérentes suivant N sous-modalités, N étant compris entre un et le nombre total de sous-modalités, le séquençage pouvant identifier marqueurs de séquence plurimodaux basés sur 1 à N sous-modalités. Le séquençage est donc plus fin et présente une plus grande variété de point de vue que dans le cas où les sous-modalités d’une même modalité ne sont pas distinguées. Thanks to this arrangement, as many unimodal cutting time marker sets as there are sub-modalities (a modality not containing a sub-modality being counted as a unique submodality) can be obtained, so that the sequencing will make it possible to produce coherent sequences according to N submodalities, N being between one and the total number of submodalities, the sequencing being able to identify multimodal sequence markers based on 1 to N sub-modalities. The sequencing is therefore finer and presents a greater variety of points of view than in the case where the sub-modalities of the same modality are not distinguished.
Selon un mode de réalisation, l’analyse suivant la modalité audio comprend la détection de bruit, la détection de musique et/ou la transcription de la parole en un flux texte. According to one embodiment, the analysis according to the audio modality comprises noise detection, music detection and/or transcription of speech into a text stream.
Grâce à cette disposition, les différents aspects de la modalité audio peuvent être pris en compte pour la recherche de marqueurs de découpe unimodaux. Thanks to this arrangement, the different aspects of audio modality can be taken into account for the search for unimodal slice markers.
Selon un mode de réalisation, l’analyse suivant la modalité image comprend les sous-modalités {reconnaissance de forme ou d’objets ; agrégation de plans ; reconnaissance optique de caractères}, et chacune des sous-modalités de la modalité image permet de générer un jeu particulier de descripteurs unimodaux. According to one embodiment, the analysis according to the image modality includes the sub-modalities {shape or object recognition; plan aggregation; optical character recognition}, and each of the sub-modalities of the image modality makes it possible to generate a particular set of unimodal descriptors.
Grâce à cette disposition, les différents aspects de la modalité image peuvent être pris en compte pour la recherche de marqueurs de découpe unimodaux, sur le même principe que ce qui a été décrit pour les sous-modalités de la modalité action. Thanks to this arrangement, the different aspects of the image modality can be taken into account for the search for unimodal cut markers, on the same principle as what has been described for the sub-modalities of the action modality.
L’invention concerne aussi un procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques, avec un flux de transmission de données, les fichiers vidéo numériques étant indexés dans un index primaire stocké dans une base de données documentaire contenant les fichiers vidéo numériques avec des descripteurs primaires, les fichiers vidéo numériques ayant été, au préalable et au moyen du procédé informatisé de dé-linéarisation suivant l’un des modes de réalisation précédents, découpés virtuellement par marquage temporel en des séquences virtuelles qui sont définies par deux marqueurs temporels de séquence formant une paire de marqueurs de séquence et par des descripteurs secondaire associés, les paires de marqueurs de séquence virtuelle et les descripteurs secondaires associés étant mémorisés dans un index secondaire stocké dans une base de données documentaire, l’index secondaire étant en relation d’héritage avec l’index primaire ces index étant accessibles via une interface graphique. Le procédé informatisé de recherche et de production automatique d’une playlist d’extraits vidéo comprend : The invention also relates to a computerized method for the automatic production of an ordered playlist of video extracts from digital video files, with a data transmission stream, the digital video files being indexed in a primary index stored in a documentary database containing the digital video files with primary descriptors, the digital video files having been, beforehand and by means of the computerized process of de-linearization according to one of the preceding embodiments, cut virtually by time stamping into virtual sequences which are defined by two sequence time markers forming a pair of sequence markers and by associated secondary descriptors, the pairs of virtual sequence markers and the associated secondary descriptors being stored in a secondary index stored in a documentary database, the index secondary being in inheritance relation with the primary index these index being accessible via a graphical interface. The computerized process of research and automatic production of a playlist of video extracts includes:
1. la formulation d’au moins une requête de recherche ; 1. the formulation of at least one search query;
2. la transmission de ladite requête de recherche à un serveur de recherche associé à la base de données ; 2. transmitting said search query to a search server associated with the database;
3. la détermination et la réception à partir de la base de données documentaire, en réponse à la requête de recherche transmise, du résultat de recherche qui est une liste automatique de paires de marqueurs temporels de séquences et des descripteurs associés, suivant un ordre qui est fonction des descripteurs associés à chaque séquence virtuelle et de la formulation de
la requête de la recherche, les séquences virtuelles étant identifiables et aptes à être recherchées par les descripteurs secondaires et les descripteurs primaires; 3. the determination and reception from the documentary database, in response to the transmitted search query, of the search result which is an automatic list of pairs of time stamps of sequences and of the associated descriptors, according to an order which is a function of the descriptors associated with each virtual sequence and the formulation of the search query, the virtual sequences being identifiable and able to be searched by the secondary descriptors and the primary descriptors;
4. raffichage et le visionnage à partir d’une télécommande virtuelle de la playlist qui présente tous les extraits vidéo associés à la liste automatique ordonnée de paires de marqueurs temporels reçue lors de l’étape 3, sans création de nouveau fichier vidéo numérique, la télécommande virtuelle permettant la navigation sur la playlist, chaque extrait vidéo de la playlist étant associé à une séquence virtuelle, et étant appelé lors du visionnage de la playlist via le flux de transmission de données à partir du fichier vidéo numérique indexé dans l’index primaire dans lequel a été identifiée la séquence virtuelle indexée dans l’index secondaire. 4. redisplay and viewing from a virtual remote control of the playlist which presents all the video extracts associated with the automatic ordered list of time stamp pairs received during step 3, without creating a new digital video file, the virtual remote control allowing navigation on the playlist, each video extract from the playlist being associated with a virtual sequence, and being called upon viewing of the playlist via the data transmission stream from the digital video file indexed in the primary index in which the virtual sequence indexed in the secondary index has been identified.
Dans le procédé informatisé de production automatique d’une playlist d’extraits vidéo,In the computerized process for the automatic production of a playlist of video extracts,
- les fichiers vidéo numériques mémorisés ont été séquencés, et les séquences virtuelles des fichiers vidéo numériques ont été indexées dans l’index secondaire avant la formulation des critères de recherche et avant la réception du résultat de recherche par le client au moyen du procédé de séquençage tel que décrit plus haut ; - the stored digital video files have been sequenced, and the virtual sequences of the digital video files have been indexed in the secondary index before the search criteria are formulated and before the search result is received by the client by means of the sequencing process as described above;
- la playlist automatique ordonnée est une liste de séquences vidéo du ou des fichiers vidéo numériques correspondant chacun à une séquence virtuelle d’un fichier vidéo numérique, suivant un ordre qui est fonction des descripteurs secondaires associés à chaque séquence et primaires associés à chaque fichier vidéo numérique. Grâce à cette disposition, il est possible de sélectionner une ou plusieurs séquences de fichiers vidéo numériques obtenus à l’issue du procédé de séquençage d’un ou plusieurs fichiers vidéo numériques, c’est-à-dire de manière automatisée sans qu’il soit nécessaire que l’utilisateur visualise l’intégralité d’un ou plusieurs fichiers vidéo numériques. - the ordered automatic playlist is a list of video sequences of the digital video file(s) each corresponding to a virtual sequence of a digital video file, according to an order which is a function of the secondary descriptors associated with each sequence and primary descriptors associated with each video file digital. Thanks to this arrangement, it is possible to select one or more sequences of digital video files obtained at the end of the process for sequencing one or more digital video files, that is to say in an automated manner without required that the user view one or more digital video files in their entirety.
Cette sélection peut être faite au moyen d’une requête de recherche et la recherche est effectuée dans l’index secondaire contenant les descripteurs secondaires des séquences, qui est lié à l’index primaire contenant les descripteurs primaires des fichiers vidéo numériques dont sont issues les séquences. This selection can be made by means of a search query and the search is carried out in the secondary index containing the secondary descriptors of the sequences, which is linked to the primary index containing the primary descriptors of the digital video files from which the sequences.
Selon un mode de réalisation, lors de la détermination du résultat de recherche : - dans une sous-étape 1), le procédé détermine en fonction de la requête de recherche et des descripteurs de la ou des séquences virtuelles, si les séquences virtuelles sont essentielles (le nombre de descripteurs est pertinent ) ou d’ornement (le nombre de descripteurs n’est pas pertinent par rapport au critère défini pour les séquences virtuelles essentielles) ; According to one embodiment, when determining the search result: - in a sub-step 1), the method determines according to the search query and the descriptors of the virtual sequence(s), whether the virtual sequences are essential (the number of descriptors is relevant) or ornamental (the number of descriptors is not relevant with respect to the criterion defined for the essential virtual sequences);
- dans une sous-étape 2) · lorsque les paires de marqueurs temporels de séquence virtuelle constituant la liste automatique sont identifiés dans un seul fichier vidéo numérique, le procédé produit via le flux de transmission soit une playlist exhaustive
d’extraits vidéo associés à toutes les séquences virtuelles essentielles, soit un résumé avec une sélection d’extraits vidéo associés aux des séquences virtuelles essentielles en fonction de critères spécifiés par l’utilisateur, - in a sub-step 2) when the pairs of virtual sequence time stamps constituting the automatic list are identified in a single digital video file, the method produced via the transmission stream is an exhaustive playlist video extracts associated with all the essential virtual sequences, or a summary with a selection of video extracts associated with the essential virtual sequences according to criteria specified by the user,
• lorsque les paires de marqueurs temporels de séquence virtuelle constituant la liste automatique sont identifiés dans plusieurs fichiers vidéo numériques, le procédé produit via le flux de transmission une playlist d’extraits vidéo associés aux séquences virtuelles dites « zapping », de ces fichiers numériques avec une sélection des séquences virtuelles essentielles associées aux extraits vidéo en fonction de critères spécifiés par l’utilisateur. when the pairs of virtual sequence time markers constituting the automatic list are identified in several digital video files, the method produces via the transmission stream a playlist of video extracts associated with the so-called "zapping" virtual sequences, of these digital files with a selection of the essential virtual sequences associated with the video extracts according to criteria specified by the user.
Selon un mode de réalisation du procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques, According to one embodiment of the computerized method for automatically producing an ordered playlist of video extracts from digital video files,
-lorsque les paires de marqueurs temporels de séquence virtuelle constituant la liste automatique sont identifiés dans un seul fichier vidéo numérique, le procédé produit via le flux de transmission une playlist résumé avec une sélection d’extraits vidéo de ce fichier vidéo numérique en fonction de critères spécifiés par l’utilisateur lors de sa recherche, - when the pairs of virtual sequence time markers constituting the automatic list are identified in a single digital video file, the method produces via the transmission stream a summary playlist with a selection of video extracts from this digital video file according to criteria specified by the user during his search,
-lorsque les paires de marqueurs temporels de séquence virtuelle constituant la liste automatique sont identifiés dans plusieurs fichiers vidéo numériques, le procédé produit via le flux de transmission une playlist d’extraits vidéo associés aux séquences virtuelles dite « zapping », de ces fichiers numériques avec une sélection des extraits vidéo en fonction de critères spécifiés par l’utilisateur lors de sa recherche. when the pairs of virtual sequence time markers constituting the automatic list are identified in several digital video files, the method produces via the transmission stream a playlist of video extracts associated with the so-called “zapping” virtual sequences, of these digital files with a selection of video extracts according to criteria specified by the user during his search.
Selon un mode de réalisation, le procédé informatisé de production automatique d’une playlist d’extraits vidéo permet, après production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéos numériques, les opérations suivantes de navigation à partir de la télécommande virtuelle et à partir du flux de transmission de données : According to one embodiment, the computerized method for automatically producing a playlist of video extracts allows, after automatic production of an ordered playlist of video extracts from digital video files, the following navigation operations from the virtual remote control and from the data transmission stream:
- lecture, arrêt et reprise de l’extrait en cours de visionnage de la playlist qui comporte tous les extraits vidéo associés à la liste automatique obtenue à l’étape 3; - playing, stopping and resuming the current excerpt from the playlist which includes all the video excerpts associated with the automatic list obtained in step 3;
- pointage d’un extrait dans la playlist qui comporte tous les extraits vidéo associés à la liste automatique obtenue à l’étape 3 par avance rapide ou retour rapide ; - pointing of an extract in the playlist which includes all the video extracts associated with the automatic list obtained in step 3 by fast forward or fast reverse;
- sortie temporaire de l’extrait de la playlist qui comporte tous les extraits vidéo associés à la liste automatique obtenue à l’étape 3 pour visionner le fichier vidéo numérique d’origine de l’extrait, sans contraintes temporelles liées aux marqueurs temporels de début et de fin de la séquence virtuelle associée à l’extrait vidéo. - temporary output of the extract from the playlist which includes all the video extracts associated with the automatic list obtained in step 3 to view the original digital video file of the extract, without temporal constraints linked to the start time markers and end of the virtual sequence associated with the video extract.
Avantageusement, cette comprend une seule barre de navigation pour tous les extraits vidéos disposés les uns à la suite des autres sur la playlist, suivant l’ordre des marqueurs de séquences fonction de la requête de l’utilisateur (qui présente les descripteurs associés aux marqueurs de découpe dans l’index secondaire). Advantageously, this comprises a single navigation bar for all the video extracts arranged one after the other on the playlist, according to the order of the sequence markers according to the user's request (which presents the descriptors associated with the markers cutting in the secondary index).
Grâce à cette disposition, il est possible à partir d’une séquence identifiée comme intéressante
pour l’utilisateur par rapport à ses critères de recherche de procéder, au choix de l’utilisateur à la lecture de la suite du fichier dans lequel cette séquence a été identifiée, ou de passer à une autre séquence identifiée comme intéressante. Thanks to this arrangement, it is possible from a sequence identified as interesting for the user with respect to his search criteria to proceed, at the user's choice, to reading the rest of the file in which this sequence has been identified, or to move on to another sequence identified as interesting.
Selon un mode de réalisation, le procédé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques permet l’opération additionnelle suivante : d. nouvelle sortie temporaire du visionnage du fichier vidéo numérique d’origine de l’extrait en cours de lecture depuis l’opération c), pour visionner lors de l’étape d) un résumé créé automatiquement et préalablement à ce visionnage à partir de ce seul fichier numérique d’origine. According to one embodiment, the method for automatically producing an ordered playlist of video extracts from digital video files allows the following additional operation: d. new temporary output from the viewing of the original digital video file of the extract being played from operation c), to view during step d) a summary created automatically and prior to this viewing from this single original digital file.
Selon un mode de réalisation, le procédé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques permet l’opération additionnelle suivante : e. enregistrement de l’historique de navigation sur la playlist des séquences vidéo et création d’un nouveau fichier numérique qui est cet historique de navigation. According to one embodiment, the method for automatically producing an ordered playlist of video extracts from digital video files allows the following additional operation: e. recording of browsing history on the playlist of video sequences and creation of a new digital file which is this browsing history.
Selon un mode de réalisation, la requête de recherche formulée à l’étape 1 est multicritères, et combine une recherche sur le texte intégral, une recherche à facettes et en ce que les critères pour réaliser l’ordre pour la playlist automatique comprennent des critères chronologiques et/ou sémantiques et/ou de pertinence. According to one embodiment, the search query formulated in step 1 is multi-criteria, and combines a search on the full text, a faceted search and in that the criteria for carrying out the order for the automatic playlist include criteria chronological and/or semantic and/or relevance.
Cette disposition permet de formuler des requêtes de recherche aussi variées que possibles, y compris avec des suggestions sur la base des facettes ou des critères, et d’obtenir une liste ordonnée de résultats. This arrangement makes it possible to formulate search queries as varied as possible, including with suggestions based on facets or criteria, and to obtain an ordered list of results.
Suivant un mode de réalisation du procédé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques, la requête de recherche formulée à l’étape 1 est effectuée de manière automatique à partir d’un ou plusieurs critères spécifiés par l’utilisateur choisis dans une liste comprenant : la durée souhaitée d’une playlist automatique ainsi que des critères sémantiques. According to one embodiment of the method for automatically producing an ordered playlist of video extracts from digital video files, the search query formulated in step 1 is carried out automatically on the basis of one or more criteria specified by the user chosen from a list comprising: the desired duration of an automatic playlist as well as semantic criteria.
De cette manière, la recherche de séquences dans des fichiers vidéo numériques peut être entièrement automatisée à partir de critères de recherche minimaux. In this way, the search for sequences in digital video files can be fully automated based on minimal search criteria.
Selon un mode de réalisation du procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques, la requête de recherche formulée à l’étape 1 est réalisée par un robot conversationnel. According to one embodiment of the computerized method for automatically producing an ordered playlist of video extracts from digital video files, the search query formulated in step 1 is carried out by a conversational robot.
Selon un mode de réalisation, le procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques comprend une étape de visualisation dans laquelle l’utilisateur visualise sur un premier écran un extrait vidéo de la playlist, et des descripteurs de la séquence virtuelle associée à l’extrait vidéo sur un deuxième écran synchronisé avec l’extrait vidéo.
Selon un mode de réalisation, le procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques comprend une étape de visualisation dans laquelle les descripteurs associés aux séquences virtuelles sont visualisés sur les extraits. Grâce à ces dispositions, l’utilisateur peut visualiser en même temps que les extraits vidéo les descripteurs sur la base desquels le procédé a considéré la séquence comme pertinente par rapport à la requête de recherche. De cette manière, l’utilisateur peut à la fois attribuer un sens global à l’extrait vidéo et le comparer au sens global qui pourrait lui être attribué sur la base des descripteurs qui lui ont été automatiquement associés. According to one embodiment, the computerized method for automatically producing an ordered playlist of video extracts from digital video files comprises a viewing step in which the user displays on a first screen a video extract from the playlist, and descriptors of the virtual sequence associated with the video extract on a second screen synchronized with the video extract. According to one embodiment, the computerized method for automatically producing an ordered playlist of video extracts from digital video files comprises a viewing step in which the descriptors associated with the virtual sequences are displayed on the extracts. Thanks to these arrangements, the user can view, at the same time as the video extracts, the descriptors on the basis of which the method has considered the sequence as relevant with respect to the search query. In this way, the user can both assign a global meaning to the video extract and compare it to the global meaning which could be attributed to it on the basis of the descriptors which have been automatically associated with it.
Selon un mode de réalisation du procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo ,1a technologie utilisée est ElasticSearch®. According to one embodiment of the computerized process for the automatic production of an ordered playlist of video extracts from video files, the technology used is ElasticSearch®.
Selon un mode de réalisation du procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques, l’accès aux fichiers vidéos se fait en mode « streaming ». According to one embodiment of the computerized process for the automatic production of an ordered playlist of video extracts from digital video files, access to the video files is done in “streaming” mode.
L’invention concerne en outre une liste automatique de paires de marqueurs de séquence et des descripteurs associés issue du procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques, présentant des descripteurs endogènes et exogènes cohérents avec la requête de recherche. The invention further relates to an automatic list of pairs of sequence markers and associated descriptors resulting from the computerized method of automatically producing an ordered playlist of video extracts from digital video files, presenting endogenous and exogenous descriptors consistent with the request of research.
Selon un mode de réalisation, dans la liste automatique de paires de marqueurs de séquence et des descripteurs associés issue du procédé informatisé de de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo, toutes les séquences virtuelles (donc toutes les paires de marqueurs temporels de séquence) ont, comme marqueur de fin de séquence, au moins un marqueur de séquence plurimodal principal ou issu de trois modalités. According to one embodiment, in the automatic list of pairs of sequence markers and associated descriptors resulting from the computerized method of automatically producing an ordered playlist of video extracts from video files, all the virtual sequences (therefore all the pairs sequence markers) have, as end-of-sequence marker, at least one main multimodal sequence marker or sequence marker resulting from three modalities.
Selon un mode de réalisation, dans la liste automatique de paires de marqueurs de séquence et des descripteurs associés issue du procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo, le marqueur de fin de séquence de chaque paire de marqueurs temporels de séquence correspondant à chaque séquence virtuelle est issu au moins de la modalité action. According to one embodiment, in the automatic list of pairs of sequence markers and associated descriptors resulting from the computerized process for the automatic production of an ordered playlist of video extracts from video files, the end of sequence marker of each pair of sequence time markers corresponding to each virtual sequence is derived at least from the action modality.
Selon un mode de réalisation, dans la liste automatique de paires de marqueurs de séquence et des descripteurs associés issue du procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo, les marqueurs temporels de séquence sont déterminés par une approche multimodale par analyse automatique, fichier par fichier de chacun desdits un ou plusieurs fichiers vidéo numériques, selon au moins deux des quatre modalités : modalité image, modalité audio, modalité texte, modalité action. According to one embodiment, in the automatic list of pairs of sequence markers and associated descriptors resulting from the computerized method for the automatic production of an ordered playlist of video extracts from video files, the sequence time markers are determined by an approach multimodal by automatic analysis, file by file, of each of said one or more digital video files, according to at least two of the four modalities: image modality, audio modality, text modality, action modality.
Selon un mode de réalisation de la liste automatique, , au moins deux marqueurs temporels de séquence sont déterminés de façon aléatoire ou unimodale. According to an embodiment of the automatic list, at least two sequence time markers are determined randomly or unimodally.
L’invention porte aussi sur un procédé informatisé de montage avec découpe virtuelle sans création de fichier vidéo numérique, à partir du procédé informatisé de production automatique
d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numérique comprenant les étapes suivantes : The invention also relates to a computerized method of editing with virtual cutting without creating a digital video file, from the computerized method of automatic production an ordered playlist of video clips from digital video files comprising the following steps:
I. production automatique d’au moins une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques et enregistrement de l’au moins une liste automatique ordonnée de paires de marqueurs temporels de séquence et des descripteurs associés issus de cette production, sans création de fichier vidéo numérique ; I. automatic production of at least one ordered playlist of video extracts from digital video files and recording of the at least one automatic ordered list of sequence time stamp pairs and associated descriptors resulting from this production, without file creation digital video;
II. navigation sur l’au moins une playlist automatique d’extraits vidéo de fichiers vidéo numériques, par flux de transmission des données II. navigation on at least one automatic playlist of video extracts from digital video files, per data transmission stream
III. sélection par l’utilisateur d’une ou plusieurs séquences virtuelles associée à l’au moins une playlist automatique d’extraits vidéo de fichiers vidéo numériques pour réaliser une nouvelle playlist d’extraits vidéo dont l’ordre est modifiable par l’utilisateur. III. selection by the user of one or more virtual sequences associated with the at least one automatic playlist of video extracts from digital video files to produce a new playlist of video extracts whose order can be modified by the user.
Selon un mode de réalisation, le procédé informatisé de montage avec découpe virtuelle comprend les étapes suivantes : According to one embodiment, the computerized method of assembly with virtual cutting comprises the following steps:
- modification de la playlist automatique d’extraits vidéo par ajout et/ou retrait d’extraits vidéo à la playlist ; - modification of the automatic playlist of video extracts by adding and/or removing video extracts from the playlist;
- modification d’un ou de plusieurs extraits vidéo par prolongation ou réduction de la durée des séquences virtuelles associées aux extraits vidéo de la playlist, par déplacement des marqueurs de début et de fin de chaque séquence virtuelle ; - modification of one or more video extracts by extending or reducing the duration of the virtual sequences associated with the video extracts of the playlist, by moving the start and end markers of each virtual sequence;
- modification des extraits vidéo par un effet visuel ou un effet sonore. - modification of the video extracts by a visual effect or a sound effect.
Grâce à cette disposition, une nouvelle vidéo peut être montée de manière très automatisée, sans manipulation de fichiers vidéo numériques pour les agréger ou les découper. Le montage est économe en mémoire et en temps de calcul puisqu’il est basé sur la manipulation des marqueurs de séquence. Thanks to this arrangement, a new video can be edited in a very automated way, without manipulation of digital video files to aggregate or cut them. Editing saves memory and computation time since it is based on the manipulation of sequence markers.
Selon un mode de réalisation du procédé de navigation, la playlist d’extraits vidéo est générée automatiquement par un procédé informatisé de recherche et de production automatique d’une playlist ayant des extraits vidéo ordonnés selon un des modes de réalisation décrits plus haut. L’invention porte de plus sur Lutilisation d’extraits vidéo ou d’une playlist d’extraits vidéo obtenue par le procédé informatisé de recherche et de production automatique d’une playlist, ou par le procédé de montage selon un des modes de réalisation décrits plus haut, dans un réseau social ou dans un moteur de recherche ou pour constituer un nouveau fichier vidéo numérique. L’invention porte enfin sur un système informatisé comprenant : According to one embodiment of the browsing method, the playlist of video extracts is generated automatically by a computerized method of searching and automatically producing a playlist having ordered video extracts according to one of the embodiments described above. The invention further relates to the use of video extracts or a playlist of video extracts obtained by the computerized method of research and automatic production of a playlist, or by the editing method according to one of the embodiments described above, in a social network or in a search engine or to constitute a new digital video file. The invention finally relates to a computerized system comprising:
- Au moins un module d’acquisition d’un ou plusieurs fichiers vidéo numériques ;- At least one acquisition module for one or more digital video files;
- Au moins un module répartiteur ; - At least one splitter module;
- Au moins un module d’analyse multimodale ; - At least one multimodal analysis module;
- Au moins un module de séquençage générant des séquences de fichiers vidéo numériques indexées ;
- Au moins un module de recherche comprenant un client permettant de formuler une requête de recherche pour la mise en œuvre des étapes : - At least one sequencing module generating sequences of indexed digital video files; - At least one search module comprising a client making it possible to formulate a search query for the implementation of the steps:
1. On reçoit par l’intermédiaire du module d’acquisition un ou plusieurs fichiers vidéo numériques à analyser ; 1. One or more digital video files to be analyzed are received via the acquisition module;
2. On indexe de manière automatique chacun desdits fichiers vidéo numériques dans un index primaire, à partir des descripteurs endogènes, dits primaires, dudit fichier vidéo numérique ; 2. Each of said digital video files is automatically indexed in a primary index, based on the endogenous, so-called primary, descriptors of said digital video file;
3. On extrait les flux de données audio, images et texte de chacun des fichiers vidéo numériques ; 3. The audio, image and text data streams are extracted from each of the digital video files;
4. Au moyen d’une pluralité de dispositifs informatisés mettant en œuvre un algorithme d’apprentissage automatique choisis et/ou entraînés pour une typologie de fichiers vidéo définie au préalable et contenus dans le module d’analyse multimodale, on réalise une analyse fichier par fichier de chacun desdits un ou plusieurs fichiers vidéo numériques selon les quatre modalités : modalité image, modalité audio, modalité texte, modalité action, l’analyse produisant de manière automatique un ou plusieurs marqueurs temporels de découpe unimodaux pour chacune des modalités, un ou plusieurs descripteurs étant associés à chacun des marqueurs temporels de découpe unimodaux; 4. By means of a plurality of computerized devices implementing an automatic learning algorithm chosen and/or trained for a typology of video files defined beforehand and contained in the multimodal analysis module, a file analysis is carried out by file of each of said one or more digital video files according to the four modalities: image modality, audio modality, text modality, action modality, the analysis automatically producing one or more unimodal cutting time markers for each of the modalities, one or more descriptors being associated with each of the single-mode slice time markers;
5. On fournit, à l’issue de l’analyse de chacun des fichiers vidéo numériques, des marqueurs temporels de séquence candidats, dans le but de déterminer des séquences virtuelles, et les descripteurs associés à ces marqueurs temporels de séquence candidats, qui sont : 5. At the end of the analysis of each of the digital video files, candidate sequence time markers are provided, with the aim of determining virtual sequences, and the descriptors associated with these candidate sequence time markers, which are :
- soit des marqueurs temporels de découpe unimodaux desdits fichiers vidéo numériques qui sont appelés à l’issue de cette étape marqueurs temporels de séquence candidats unimodaux ;- either unimodal cutting time markers of said digital video files which are called at the end of this step unimodal candidate sequence time markers;
- soit, pour chacun desdits fichiers vidéo numériques pris isolément, les codes temporels correspondants auxdits marqueurs temporels de découpe unimodaux sont comparés et, à chaque fois qu’au moins deux marqueurs temporels de découpe unimodaux issus de modalités d’analyse différentes sont séparés par un intervalle de temps inférieur à une durée prédéterminée principale, un marqueur temporel de séquence candidat plurimodal, en lien mathématique avec les au moins deux marqueurs de découpe unimodaux, est créé ; - either, for each of said digital video files taken in isolation, the time codes corresponding to said unimodal cutting time markers are compared and, each time that at least two unimodal cutting time markers resulting from different analysis modalities are separated by a time interval less than a main predetermined duration, a plurimodal candidate sequence temporal marker, in mathematical connection with the at least two unimodal cut markers, is created;
6. Pour chacun desdits fichiers vidéo numériques analysés, on définit en fonction de la typologie dudit fichier vidéo numérique une borne inférieure et une borne supérieure pour la durée d’une séquence et on sélectionne de manière automatique parmi les marqueurs de séquence candidats des paires de marqueurs de séquence, dits marqueurs de début et de fin de séquence, chaque paire de marqueurs de séquence présentant un marqueur de début de séquence et un marqueur de fin de séquence, de sorte que la durée de chaque séquence retenue soit comprise entre lesdites bornes inférieure et supérieure,
ces paires de marqueurs de séquence étant associées aux descripteurs associés auxdits marqueurs temporels de séquence candidats sélectionnés, ces descripteurs étant dès lors dits « descripteurs endogènes secondaires » ; 6. For each of said analyzed digital video files, a lower limit and an upper limit are defined according to the type of said digital video file for the duration of a sequence and pairs of sequences are automatically selected from the candidate sequence markers. sequence markers, called start and end of sequence markers, each pair of sequence markers having a start of sequence marker and an end of sequence marker, such that the duration of each sequence retained is between said lower limits and superior, these pairs of sequence markers being associated with the descriptors associated with the said selected candidate sequence temporal markers, these descriptors therefore being referred to as “secondary endogenous descriptors”;
7. On indexe au moyen du module de séquençage dans un index secondaire qui est en relation d’héritage par rapport à l’index primaire, toutes les paires de marqueurs de séquence au moyen des descripteurs associés permettant l’identification de chaque séquence, les séquences étant identifiables et aptes à être recherchés au moins par les descripteurs endogènes secondaires et les descripteurs endogènes primaires ; 7. We index by means of the sequencing module in a secondary index which is in relation of inheritance compared to the primary index, all the pairs of sequence markers by means of the associated descriptors allowing the identification of each sequence, the sequences being identifiable and able to be searched at least by the secondary endogenous descriptors and the primary endogenous descriptors;
8. On formule une requête de recherche de séquences de fichiers vidéo numériques au moyen du module de recherche ; chacun des modules comprenant les moyens de calculs nécessaires, chacun des modules autres que le module répartiteur communiquant avec le module répartiteur et le module répartiteur gérant la répartition des calculs entre les autres modules. 8. A search query for sequences of digital video files is formulated using the search module; each of the modules comprising the necessary calculation means, each of the modules other than the dispatcher module communicating with the dispatcher module and the dispatcher module managing the distribution of the calculations between the other modules.
Selon un mode de réalisation du système informatisé, ce système comprend en outre au moins un module d’enrichissement des descripteurs primaires des fichiers vidéo numériques et/ou secondaires des séquences virtuelles de fichier vidéo numérique par des descripteurs complémentaires exogènes. According to one embodiment of the computerized system, this system further comprises at least one module for enriching the primary descriptors of the digital video files and/or the secondary descriptors of the virtual sequences of digital video files by exogenous complementary descriptors.
Selon un mode de réalisation du système informatisé, ce système comprend en outre module éditeur de vidéo communiquant avec le module de recherche. According to one embodiment of the computerized system, this system further comprises video editor module communicating with the research module.
BRÈVE DESCRIPTION DES DESSINS BRIEF DESCRIPTION OF DRAWINGS
Des modes de réalisation de l’invention seront décrits ci-dessous par référence aux dessins, décrits brièvement ci-dessous : Embodiments of the invention will be described below with reference to the drawings, briefly described below:
Fig. 1 représente un organigramme d’un dispositif permettant de mettre en œuvre le procédé d’analyse, de séquençage et d’indexation des séquences d’un fichier vidéo numérique. Fig. 1 represents a flowchart of a device making it possible to implement the method of analysis, sequencing and indexing of the sequences of a digital video file.
Fig. 2a représente une première étape de séquençage d’un fichier vidéo numérique selon les quatre modalités : image, audio, texte et action. Fig. 2a represents a first step in sequencing a digital video file according to the four modalities: image, audio, text and action.
Fig. 2b représente une deuxième étape de séquençage d’un fichier vidéo numérique selon les quatre modalités : image, audio, texte et action. Fig. 2b represents a second step of sequencing a digital video file according to the four modalities: image, audio, text and action.
Fig. 2c représente une troisième étape de séquençage d’un fichier vidéo numérique selon les quatre modalités : image, audio, texte et action. Fig. 2c represents a third step of sequencing a digital video file according to the four modalities: image, audio, text and action.
Fig. 3 représente les différentes interactions entre les modules et les services du procédé informatisé en lien avec les actions possibles de l’utilisateur. Fig. 3 represents the different interactions between the modules and the services of the computerized process in connection with the possible actions of the user.
Fig. 4 représente les étapes d’une itération du procédé de séquençage d’un fichier vidéo sur la bas de quatre modalités.
Fig. 5a représente une interface graphique 55 pour le montage ou le visionnage d’une playlist. Fig. 4 represents the steps of an iteration of the method for sequencing a video file on the basis of four modalities. Fig. 5a represents a graphical interface 55 for editing or viewing a playlist.
Fig. 5b représente un autre mode de réalisation d’une interface graphique pour le montage ou le visionnage d’une playlist. Fig. 5b shows another embodiment of a graphical interface for editing or viewing a playlist.
Fig. 6 représente de manière schématique l’effet de la manipulation de la télécommande virtuelle sur la playlist. Fig. 6 schematically represents the effect of the manipulation of the virtual remote control on the playlist.
Fig. 7a représente un troisième mode de réalisation d’une interface graphique 55. Fig. 7a shows a third embodiment of a graphical interface 55.
Fig. 7b représente un quatrième mode de réalisation d’une interface graphique 55. Fig. 7b shows a fourth embodiment of a graphical interface 55.
Fig. 8 représente un cinquième mode de réalisation d’une interface graphique 55. Fig. 8 shows a fifth embodiment of a graphical interface 55.
Fig. 9 représente un sixième mode de réalisation d’une interface graphique 55. Fig. 9 shows a sixth embodiment of a graphical interface 55.
Fig. 10 représente un septième mode de réalisation d’une interface graphique 55. Fig. 10 shows a seventh embodiment of a graphical interface 55.
Fig. 11 représente un huitième mode de réalisation d’une interface graphique 55. Fig. 11 shows an eighth embodiment of a graphical interface 55.
Fig. 12 représente un neuvième mode de réalisation d’une interface graphique 55. Fig. 12 shows a ninth embodiment of a graphical interface 55.
Sur les dessins, des références identiques désignent des objets identiques ou similaires. In the drawings, identical references designate identical or similar objects.
DESCRIPTION DÉTAILLÉE DETAILED DESCRIPTION
L’invention concerne un procédé d’analyse, de séquençage et d’indexation multimodale de données audiovisuelles numériques. Le format des données audiovisuelles n’est pas limité a priori. A titre d’exemple, les formats de fichiers vidéo numériques MPEG, MP4, AVI, WMV de la norme ISO/IEC peuvent être envisagés. The invention relates to a method for the analysis, sequencing and multimodal indexing of digital audiovisual data. The format of the audiovisual data is not limited a priori. By way of example, the digital video file formats MPEG, MP4, AVI, WMV of the ISO/IEC standard can be considered.
Les données audiovisuelles peuvent être disponibles sur internet, sur une vidéothèque numérique publique ou privée, ou encore fournies unitairement ou de manière groupée par un utilisateur particulier. The audiovisual data may be available on the Internet, on a public or private digital video library, or even provided individually or in a group by a particular user.
Des métadonnées sont intégrées au document audiovisuel, notamment des métadonnées techniques : niveau de compression, taille des fichiers, nombre de pixels, format, etc. de catalogage : titre, année de production, réalisateur, ... Metadata is integrated into the audiovisual document, in particular technical metadata: compression level, file size, number of pixels, format, etc. cataloging: title, year of production, director, ...
Ces métadonnées seront appelées métadonnées « globales » dans la mesure où elles sont associées au fichier vidéo numérique dans son ensemble. This metadata will be referred to as "global" metadata insofar as it is associated with the digital video file as a whole.
De manière générale, comme on le verra dans la suite, il n’est pas nécessaire que le fichier vidéo numérique soit structuré pour que le procédé de dé-linéarisation audiovisuelle suivant l’invention fonctionne. Un fichier vidéo numérique sans aucune métadonnée de catalogage peut tout-à-fait être séquencé automatiquement par le procédé suivant l’invention sans intervention humaine. C’est l’une des forces du procédé par rapport aux procédés de séquençage de l’art antérieur. In general, as will be seen below, it is not necessary for the digital video file to be structured for the audiovisual de-linearization method according to the invention to work. A digital video file without any cataloging metadata can be sequenced automatically by the method according to the invention without human intervention. This is one of the strengths of the method compared to the sequencing methods of the prior art.
Notamment, même si le procédé de dé-linéarisation audiovisuelle peut être mis en œuvre sur des fichiers vidéo numériques structurés, tels que ceux utilisés dans les procédés de diffusion de type « broadcast », il est particulièrement pertinent dans le cas d’un fichier vidéo
numérique non ou faiblement structuré, tels que ceux disponibles assez généralement su internet ou utilisés dans des procédés de diffusion de type « multicast », à titre d’exemple des vidéos YouTube®. In particular, even if the audiovisual de-linearization process can be implemented on structured digital video files, such as those used in "broadcast" type distribution processes, it is particularly relevant in the case of a video file unstructured or weakly structured digital material, such as those generally available on the Internet or used in "multicast" type broadcasting processes, for example YouTube® videos.
Le procédé comporte plusieurs étapes parcourues de manière non linéaire, nécessitant sa mise en œuvre sur un dispositif informatisé 8 de séquençage de fichier vidéo numérique, dont un mode de réalisation est représenté à la Fig. 1, comprenant plusieurs modules : The method comprises several steps traversed in a non-linear manner, requiring its implementation on a computerized device 8 for sequencing a digital video file, an embodiment of which is shown in FIG. 1, comprising several modules:
- Un module 1 d’acquisition, permettant la récupération d’un ou plusieurs fichiers vidéo à partir de sources variées et leur indexation au moyen de descripteurs dits primaires dans un index primaire ; - An acquisition module 1, allowing the recovery of one or more video files from various sources and their indexing by means of so-called primary descriptors in a primary index;
- Un module 2 répartiteur ; - A module 2 splitter;
- Un module 3 d’analyse multimodale ; - A module 3 of multimodal analysis;
- Un module 4 d’enrichissement des métadonnées, optionnel ; - An optional metadata enrichment module 4;
- Un module 5 de séquençage générant des séquences virtuelles (ou encore des fragments virtuels) du ou des fichiers vidéo numériques et les indexant dans un index secondaire au moyen de descripteurs secondaires ; - A sequencing module 5 generating virtual sequences (or even virtual fragments) of the digital video file(s) and indexing them in a secondary index by means of secondary descriptors;
- Un module 6 de recherche, comprenant le client permettant de procéder à une recherche sur les séquences générées par le module 5 pour un ou plusieurs fichiers vidéo numériques. - A research module 6, comprising the client making it possible to carry out a search on the sequences generated by the module 5 for one or more digital video files.
- Optionnellement un module 4 d’enrichissement. - Optionally an enrichment module 4.
- Optionnellement un module 7 éditeur de vidéo comprenant une interface graphique permettant de procéder à une manipulation de séquences virtuelles produites à la suite d’une recherche de séquences virtuelles par le module 5. - Optionally a module 7 video editor comprising a graphical interface allowing manipulation of virtual sequences produced following a search for virtual sequences by module 5.
On parlera de « séquence virtuelle » ou équivalemment de « fragment virtuel » de fichier vidéo numérique. Une séquence virtuelle de fichier vidéo numérique (pour simplifier dans la suite : séquence de fichier vidéo numérique, voire séquence) désigne un fragment virtuel du fichier vidéo numérique initial, de durée inférieure à celle du fichier initial, dans lequel la succession d’images entre le début et la fin du fragment est exactement la même que celle du fichier vidéo numérique initial (ou d’origine, ou encore dans lequel la séquence virtuelle a été identifiée) entre les deux instants correspondants, sans qu’un nouveau fichier vidéo numérique spécifique à la séquence ne soit constitué au niveau physique. We will speak of a “virtual sequence” or equivalently of a “virtual fragment” of a digital video file. A virtual sequence of digital video file (to simplify in the following: sequence of digital video file, even sequence) designates a virtual fragment of the initial digital video file, of shorter duration than that of the initial file, in which the succession of images between the beginning and the end of the fragment is exactly the same as that of the initial digital video file (or original, or in which the virtual sequence was identified) between the two corresponding instants, without a specific new digital video file to the sequence is constituted at the physical level.
Une séquence virtuelle de fichier vidéo numérique est donc constituée uniquement par la donnée d’une paire de marqueurs temporels de séquence, comprenant un marqueur de début de séquence et un marqueur de fin de séquence. A virtual sequence of a digital video file is therefore constituted solely by the data of a pair of sequence time markers, comprising a start of sequence marker and an end of sequence marker.
Chaque marqueur temporel correspond à un code temporel (en anglais, « timecode ») particulier dans le fichier vidéo numérique initial. Each time stamp corresponds to a particular timecode in the original digital video file.
Lorsqu’une séquence de fichier vidéo numérique virtuelle est identifiée, sont uniquement stockés en mémoire, par exemple dans une base de données documentaire, la paire de
marqueurs temporels de séquence correspondante ainsi que les descripteurs permettant son indexation et ainsi l’accès à la séquence virtuelle par une recherche dans l’index. When a virtual digital video file sequence is identified, are only stored in memory, for example in a documentary database, the pair of corresponding sequence time markers as well as the descriptors allowing its indexing and thus access to the virtual sequence by a search in the index.
Une séquence virtuelle de fichier vidéo numérique est donc indexée systématiquement au moyen d’un ou plusieurs descripteurs sémantiques, dits secondaires L’espace en mémoire de stockage utilisé pour mémoriser ces séquences « virtuelles » correspond à l’espace nécessaire pour stocker les paires de marqueurs temporels et les descripteurs secondaires associés. C’est en cela que le séquençage est dit virtuel. A virtual digital video file sequence is therefore systematically indexed by means of one or more semantic descriptors, called secondary descriptors. The space in storage memory used to memorize these "virtual" sequences corresponds to the space necessary to store the pairs of markers temporal and the associated secondary descriptors. This is what sequencing is called virtual.
En d’autres termes, il n’est pas nécessaire de créer un nouveau fichier vidéo numérique par séquence virtuelle, qui serait une copie d’un fragment du fichier vidéo numérique de départ, dans lequel a été identifiée la séquence. In other words, it is not necessary to create a new digital video file per virtual sequence, which would be a copy of a fragment of the original digital video file, in which the sequence was identified.
Le procédé de séquençage et d’indexation suivant l’invention est donc particulièrement peu coûteux en mémoire. The sequencing and indexing method according to the invention is therefore particularly inexpensive in terms of memory.
Une séquence virtuelle de fichier vidéo numérique permet dans un deuxième temps, notamment en fonction des besoins de l’utilisateur, l’extraction d’un fragment « réel » d’un fichier vidéo numérique, c’est-à-dire la constitution d’un « extrait vidéo » de fichier vidéo numérique. A virtual sequence of digital video file allows in a second time, in particular according to the needs of the user, the extraction of a "real" fragment of a digital video file, that is to say the constitution of a "video clip" of a digital video file.
La constitution d’un extrait vidéo de fichier vidéo numérique peut par exemple se matérialiser par des modifications dans la mémoire vive d’un processeur par la visualisation du contenu entre les deux marqueurs de séquence de la séquence virtuelle choisie, notamment en streaming, notamment après une étape de décompression. Cette visualisation de l’extrait vidéo ne nécessite pas la constitution d’un nouveau fichier vidéo numérique et appelle directement le passage ou le fragment du fichier vidéo numérique d’origine grâce à la séquence virtuelle. The constitution of a video extract from a digital video file can for example take the form of modifications in the random access memory of a processor by viewing the content between the two sequence markers of the chosen virtual sequence, in particular in streaming, in particular after a decompression stage. This visualization of the video extract does not require the constitution of a new digital video file and directly calls up the passage or the fragment of the original digital video file thanks to the virtual sequence.
La constitution d’un extrait vidéo peut éventuellement dans certains cas se matérialiser dans une mémoire de stockage par l’enregistrement du fragment de fichier vidéo numérique associé à la séquence virtuelle sous forme d’un nouveau fichier vidéo numérique pouvant être de taille inférieure à celui du fichier vidéo numérique dans lequel la séquence virtuelle correspondante a été identifiée. The constitution of a video extract can possibly in certain cases materialize in a storage memory by the recording of the fragment of digital video file associated with the virtual sequence in the form of a new digital video file which can be of smaller size than that of the digital video file in which the corresponding virtual sequence has been identified.
Le module 1 d’acquisition permet de copier à partir de sources de stockage variées et d’enregistrer sur un dispositif de stockage adéquat un ou plusieurs fichiers vidéo numériques que l’on souhaite analyser. The acquisition module 1 makes it possible to copy from various storage sources and to record on a suitable storage device one or more digital video files that one wishes to analyze.
Le dispositif de stockage contient éventuellement d’autres fichiers déjà acquis et son contenu est augmenté au fur et à mesure de Lutilisation du dispositif. De préférence, le dispositif de stockage permet l’accès au fichier vidéo en mode « streaming ». The storage device may contain other files already acquired and its content is increased as the device is used. Preferably, the storage device allows access to the video file in “streaming” mode.
Notamment, il est possible de télécharger des vidéos thématiques à analyser via des connecteurs Web, sur la base d’une requête de recherche formulée sur un moteur de
recherche internet. Il est aussi possible de copier tout ou partie des fichiers vidéo numériques d’un autre dispositif de stockage, tel qu’une clé USB ou un serveur d’archives par exemple. L’ensemble des fichiers vidéo numériques acquis par le module 1 peut être homogène d’un point de vue du contenu ou hétérogène. In particular, it is possible to download thematic videos to be analyzed via Web connectors, on the basis of a search query formulated on a Internet search. It is also possible to copy all or part of the digital video files from another storage device, such as a USB key or an archive server for example. The set of digital video files acquired by the module 1 can be homogeneous from a content point of view or heterogeneous.
On peut par exemple envisager d’acquérir des fichiers vidéo numériques sur un critère de date, comme tous les fichiers vidéo filmés un jour précis. Dans ce cas, l’ensemble de fichiers vidéo numériques n’aura aucune raison a priori d’être homogène du point de vue du contenu. Ou bien, un ou plusieurs fichiers vidéo numériques peuvent être acquis sur la base d’une combinaison de mots-clés. Par exemple, on peut envisager d’acquérir toutes les fichiers vidéo numériques correspondant aux matches de football de ligue 1 en France pour une année donnée. L’ensemble des fichiers présente alors un contenu en rapport avec le football. A titre d’exemple, le fonctionnement du procédé sera décrit à plusieurs reprises sur ce cas particulier du football. Il est important de noter que cet exemple, homogène dans le sens défini précédemment, n’est en rien limitatif et ne sert qu’à favoriser la compréhension du procédé. Le procédé peut être mis en œuvre dans tout domaine (sport, cours en ligne, conférences scientifiques, actualités télévisées, vidéos amateur, cinéma, ... ) ou bien sur plusieurs domaines à la fois. On parlera équivalemment de domaine ou de typologie du fichier vidéo numérique. Un domaine ou encore une typologie peuvent notamment être décrits à l’aide de descripteurs sémantiques. We can for example consider acquiring digital video files on a date criterion, like all video files filmed on a specific day. In this case, the set of digital video files will have no a priori reason to be homogeneous from the content point of view. Or, one or more digital video files can be acquired based on a combination of keywords. For example, one can consider acquiring all the digital video files corresponding to league 1 football matches in France for a given year. All the files then present content related to football. By way of example, the operation of the process will be described several times on this particular case of football. It is important to note that this example, homogeneous in the sense defined above, is in no way limiting and only serves to promote understanding of the process. The process can be implemented in any field (sport, online courses, scientific conferences, television news, amateur videos, cinema, etc.) or even in several fields at the same time. We will speak equivalently of domain or typology of the digital video file. A domain or even a typology can in particular be described using semantic descriptors.
Les différents modules sont constitués par des machines physiques ou virtuelles, donc par un ou plusieurs processeurs. Les machines sont organisées en fermes (« cluster » en anglais). Le dispositif comprend au moins un nœud maître (« master » en anglais) qui interagit avec une pluralité de nœuds « ouvriers » dits « workers ». Chacun des nœuds, maître et « workers », encapsule au moins les applications, ressources de stockage, moyens de calculs nécessaires pour la réalisation de la ou des tâches auxquelles il est dédié. The different modules are made up of physical or virtual machines, and therefore of one or more processors. The machines are organized into farms (“cluster” in English). The device comprises at least one master node (“master” in English) which interacts with a plurality of “worker” nodes called “workers”. Each of the nodes, master and "workers", encapsulates at least the applications, storage resources, means of calculation necessary for the realization of the task or tasks to which it is dedicated.
Toute solution d’orchestration de conteneurs permettant d’automatiser le déploiement, la mise à l’échelle de la gestion d’applications conteneurisées pourra être envisagée pour la réalisation de ce « cluster ». A titre d’exemple non limitatif, la technologie ElasticSearch®, disponible en Open Source pourra être employée. Any container orchestration solution that automates the deployment and scaling of the management of containerized applications can be considered for the creation of this “cluster”. By way of non-limiting example, the ElasticSearch® technology, available in Open Source, may be used.
Les fichiers vidéo numériques acquis par le module 1 sont donc stockés, par exemple dans une base de données documentaire, et ils sont de plus indexés dans un index dit « primaire », permettant de retrouver et d’accéder à chacun des fichiers vidéo numériques dans son ensemble. The digital video files acquired by the module 1 are therefore stored, for example in a documentary database, and they are further indexed in a so-called "primary" index, making it possible to find and access each of the digital video files in his outfit.
L’index primaire est par exemple contenu dans la base de données documentaire. L’indexation d’un fichier vidéo numérique donné dans l’index primaire se fait au moyen de descripteurs dits « primaires ». Il s’agit par exemple de tout ou partie des métadonnées du fichier vidéo numérique.
La base de données est de type documentaire, par opposition à relationnelle, en ce sens que la recherche dans la base de données n’est pas fondée sur un modèle relationnel ni limitée à un langage de type SQL fondé sur des opérateurs algébriques, comme cela sera décrit plus loin. The primary index is for example contained in the documentary database. The indexing of a given digital video file in the primary index is done by means of so-called “primary” descriptors. This is for example all or part of the metadata of the digital video file. The database is document-based, as opposed to relational, in the sense that searching the database is not based on a relational model or limited to an SQL-like language based on algebraic operators, such as this will be described later.
Chaque fichier vidéo numérique acquis par le module d’acquisition 1 est transmis au module répartiteur 2 qui est un nœud maître. Le module répartiteur 2 réceptionne et distribue les requêtes sur les nœuds « workers » adaptés pour l’exécution des requêtes et disponibles pour cette exécution. Each digital video file acquired by the acquisition module 1 is transmitted to the dispatcher module 2 which is a master node. The dispatcher module 2 receives and distributes the requests on the "worker" nodes suitable for the execution of the requests and available for this execution.
D’éventuelles redondances des nœuds « workers » pourront être envisagées mais ne seront pas décrites ici en détail. Possible redundancies of "worker" nodes may be considered but will not be described in detail here.
Après réception d’un fichier vidéo numérique, si les métadonnées du fichier vidéo numérique le permettent, le module répartiteur 2 peut lancer une étape préalable et optionnelle d’enrichissement des métadonnées au niveau du module 4 d’enrichissement.After receiving a digital video file, if the metadata of the digital video file allows it, the dispatcher module 2 can launch a preliminary and optional step of enriching the metadata at the level of the enrichment module 4.
Le module 4 d’enrichissement, qui est un nœud « worker », est notamment connecté à des bases de données externes, telles que des bases de données (4a) libres d’accès et d’exploitation (Open Data), des web services (4b) ou d’autres bases de données (4c), privées notamment. The enrichment module 4, which is a "worker" node, is in particular connected to external databases, such as databases (4a) that are free to access and use (Open Data), web services (4b) or other databases (4c), private in particular.
Par exemple, à partir des métadonnées d’un fichier vidéo numérique d’un match de football contenant des informations sur la date, le lieu et les équipes en présence, on peut imaginer de récupérer, grâce au module 4 d’enrichissement, des données telles que les noms des joueurs, les couleurs des maillots, ou encore un éventuel déroulé textuel du match s’il existe. Toutefois, cette étape préalable n’est pas indispensable pour la mise en œuvre du procédé et elle peut ne pas être exécutée ou n’aboutir à aucun enrichissement effectif des métadonnées initialement associées au fichier vidéo numérique. For example, from the metadata of a digital video file of a football match containing information on the date, the place and the teams present, one can imagine recovering, thanks to the enrichment module 4, data such as the names of the players, the colors of the jerseys, or even a possible textual sequence of the match if it exists. However, this preliminary step is not essential for the implementation of the method and it may not be executed or may not result in any effective enrichment of the metadata initially associated with the digital video file.
Le procédé se base sur des techniques de dé-linéarisation automatique du fichier vidéo numérique basées sur le contenu. On entend par dé-linéarisation la découverte et/ou la reconnaissance de structures sous-jacentes dans un fichier numérique, notamment un fichier vidéo numérique, sans intervention humaine. La dé-linéarisation est, dans le cadre de l’invention, basée sur le contenu du fichier numérique, y compris les métadonnées, enrichies ou non au préalable. The method is based on techniques of automatic de-linearization of the digital video file based on the content. By delinearization is meant the discovery and/or recognition of underlying structures in a digital file, in particular a digital video file, without human intervention. The de-linearization is, in the context of the invention, based on the content of the digital file, including the metadata, enriched or not beforehand.
Juste après l’acquisition du fichier vidéo numérique ou après l’étape préalable d’enrichissement, le module répartiteur 2 peut déclencher dans un premier temps quatre analyses au niveau du module 3 d’analyse multimodale. Just after the acquisition of the digital video file or after the preliminary enrichment step, the dispatcher module 2 can initially trigger four analyzes at the level of the multimodal analysis module 3.
Le module 3 d’analyse multimodale est un nœud « worker » sur lequel sont mis en œuvre quatre dispositifs informatisés différents mettant chacun en œuvre un algorithme d’apprentissage automatique.
Il s’agit par exemple de quatre réseaux de neurones différents. Ces réseaux de neurones analysent le fichier vidéo numérique avec des points de vue différents en parallèle. Multimodal analysis module 3 is a “worker” node on which four different computerized devices are implemented, each implementing an automatic learning algorithm. These are, for example, four different neural networks. These neural networks analyze the digital video file with different viewpoints in parallel.
Chacun de ces réseaux de neurones est choisi de manière adéquate pour extraire des marqueurs temporels de découpage potentiel du fichier vidéo numérique en séquences ayant une cohérence, c’est-à-dire un sens, par rapport à un point de vue d’analyse particulier.Each of these neural networks is chosen appropriately to extract temporal markers of potential cutting of the digital video file into sequences having coherence, i.e. meaning, with respect to a particular point of view of analysis .
Le flux image (équivalemment flux vidéo) du fichier vidéo numérique peut être considéré entre autres comme une collection ordonnée d’images. On peut donc attribuer un numéro d’ordre à chaque image, permettant de la retrouver au sein du fichier vidéo numérique.The image stream (equivalently video stream) of the digital video file can be considered, among other things, as an ordered collection of images. We can therefore assign a sequence number to each image, allowing it to be found within the digital video file.
Au sens de l’invention, un marqueur temporel de découpe correspond à un numéro d’ordre, ou équivalemment à un instant donné lors du visionnage de la vidéo, les dates pouvant être repérées par rapport à l’instant initial correspondant à la première image du fichier vidéo numérique. En particulier, un marqueur de découpe est associé à un code temporel (« timecode). Within the meaning of the invention, a cutting time marker corresponds to a sequence number, or equivalently to a given instant during the viewing of the video, the dates being able to be identified with respect to the initial instant corresponding to the first image digital video file. In particular, a cutting marker is associated with a time code (“timecode”).
Les réseaux de neurones utilisés peuvent notamment être des réseaux de neurones convolutifs (« Convolutional Neuronal Network », CNN) et/ou récurrents. The neural networks used may in particular be convolutional neural networks (“Convolutional Neuronal Network”, CNN) and/or recurrent.
Chacun de ces réseaux de neurones contient plusieurs couches successives de neurones, de manière à pouvoir subir une phase d’apprentissage de type apprentissage profond (« deep leaming »), non supervisé, semi-supervisé ou supervisé, de préférence pré-entraîné avant sa mise en œuvre dans le dispositif 8. Each of these neural networks contains several successive layers of neurons, so as to be able to undergo a learning phase of the deep learning type ("deep leaming"), unsupervised, semi-supervised or supervised, preferably pre-trained before its implemented in device 8.
Le rôle de la supervision pourra être plus ou moins important suivant la modalité d’analyse. Par exemple, l’analyse des flux texte et son pourra, dans un mode de réalisation non limitatif être effectué par un réseau de neurones ayant subi une phase d’apprentissage non supervisé, et l’analyse du flux image pourra mettre en œuvre un réseau de neurones ayant subi une phase d’apprentissage supervisé ou semi-supervisé. The role of supervision may be more or less important depending on the method of analysis. For example, the analysis of the text and sound streams may, in one non-limiting embodiment, be carried out by a neural network having undergone an unsupervised learning phase, and the analysis of the image stream may implement a network neurons that have undergone a supervised or semi-supervised learning phase.
Le nombre et le type de couches sont choisis en fonction du type d’analyse à effectuer.The number and type of layers are chosen according to the type of analysis to be performed.
Un fichier vidéo numérique comprend des composantes (encore appelées « flux ») images (ou équivalemment vidéo), son (ou équivalemment audio) et texte placées dans un conteneur. Un fichier vidéo numérique contient éventuellement plusieurs flux audio et/ou plusieurs flux images. A digital video file includes components (also called “flows”) images (or equivalently video), sound (or equivalently audio) and text placed in a container. A digital video file may contain several audio streams and/or several image streams.
Le flux de type texte comporte des éléments tels que des métadonnées, des sous-titres, la transcription du flux audio sous forme de texte lorsque cela est possible, etc. The text type stream has things like metadata, subtitles, transcription of the audio stream as text where possible, etc.
Il est possible d’analyser chacune de ces composantes, ou flux, du fichier séparément.It is possible to analyze each of these components, or streams, of the file separately.
Le premier réseau de neurones, dit analyseur suivant la modalité image (3a), est configuré pour réaliser une analyse du flux images, image par image. Il peut notamment procéder à des analyses de type : détection d’objets, de formes, de couleur, de texture, détection d’images similaires, océrisation.
L’analyseur suivant la modalité image (3a) analyse le contenu de chaque image du fichier à analyser pixel par pixel. Il est, entre autres, doté d’un algorithme détecteur d’objets, de préférence capable d’analyser en temps réel un flux vidéo tout en gardant une bonne performance prédictive (algorithme disponible sous le nom « Yolo3 » par exemple). L’analyseur suivant la modalité image (3a) extrait un ensemble de primitives qui prennent en compte certaines représentations comme le contour, la texture, la forme, la couleur, puis il agrège les résultats dans une seule signature permettant les calculs de similarité notamment à travers une hybridation entre des algorithmes de Deep Leaming et de clustering non supervisés (« K Nearest Neighbors », KNN). The first neural network, called an analyzer according to the image modality (3a), is configured to carry out an analysis of the image flow, image by image. It can in particular carry out analyzes of the type: detection of objects, shapes, color, texture, detection of similar images, ocerization. The analyzer according to the image modality (3a) analyzes the content of each image of the file to be analyzed pixel by pixel. It is, among other things, equipped with an object detection algorithm, preferably capable of analyzing a video stream in real time while maintaining good predictive performance (algorithm available under the name “Yolo3” for example). The analyzer following the image modality (3a) extracts a set of primitives which take into account certain representations such as the contour, the texture, the shape, the color, then it aggregates the results in a single signature allowing the calculations of similarity in particular to through a hybridization between Deep Leaming and unsupervised clustering algorithms (“K Nearest Neighbors”, KNN).
A partir d’un ensemble de primitives sur le contour, la texture, la forme, la couleur (reconnaissance de forme) l’algorithme agrège les résultats dans une signature permettant des calculs de similarité notamment à travers une hybridation entre des algorithmes de Deep Leaming et de clustering non supervisés (KNN) (agrégation de plans). From a set of primitives on the outline, the texture, the shape, the color (shape recognition) the algorithm aggregates the results in a signature allowing similarity calculations in particular through a hybridization between Deep Leaming algorithms and unsupervised clustering (KNN) (plane aggregation).
Il est également doté d’une fonctionnalité de recherche de symboles de type émoticônes par exemple, qui peuvent être ajoutés au fichier vidéo numérique avant son analyse par interaction avec l’utilisateur. It also has a feature to search for symbols such as emoticons, which can be added to the digital video file before it is analyzed by user interaction.
Dans un mode de réalisation particulier, la modalité image donne heu à une analyse suivant au moins trois sous-modalités : In a particular embodiment, the image modality gives rise to an analysis according to at least three sub-modalities:
- Détection d’objets, de formes - Detection of objects, shapes
- Reconnaissance de texte dans les images (chronomètres, scores, texte sur des maillots de joueurs, texte dans des diapositives de présentation d’un enseignement, ... ) et analyse de ce texte (« océrisation ») - Recognition of text in images (stopwatches, scores, text on players' shirts, text in teaching presentation slides, etc.) and analysis of this text ("ocerization")
- agrégation de plans : les plans similaires détectés dans des images analysées une par une sont regroupés. - shot aggregation: similar shots detected in images analyzed one by one are grouped together.
Le deuxième réseau de neurones est un réseau dit analyseur sonore (3b) ou équivalemment analyseur suivant la modalité audio ou suivant la modalité son. Il est doté d’un séparateur de pistes audio et d’un détecteur d’activité de paroles, de bruit, de musique, ... The second neural network is a so-called sound analyzer network (3b) or equivalently an analyzer according to the audio modality or according to the sound modality. It is equipped with an audio track separator and an activity detector for speech, noise, music, ...
Il permet l’analyse du flux audio en réalisant par exemple une détection de séquences musicales, de dialogues ou tout au moins de paroles, de bruit, de silence, ou encore une détection d’ambiances sonores ... It allows the analysis of the audio stream by carrying out, for example, a detection of musical sequences, dialogues or at least words, noise, silence, or even a detection of sound environments...
Le troisième réseau de neurones (3c) est un analyseur du flux texte ou équivalemment analyseur suivant la modalité texte, par exemple des métadonnées, des sous-titres lorsqu’ils sont disponibles, ou du texte obtenu après une extraction de texte de type « speech to text » sur la base de technologies de reconnaissance vocales connues, ou encore des informations « video tagging » décrit plus loin. The third neural network (3c) is a text flow analyzer or equivalent analyzer depending on the text modality, for example metadata, subtitles when available, or text obtained after a "speech" type text extraction to text” on the basis of known voice recognition technologies, or even “video tagging” information described later.
A partir d’algorithmes de NLP (« Natural Language Processing » - « Traitement de langage naturel ») mis en œuvre sur le texte (issu par exemple de la transcription « parole vers texte »
(« speech to text »)), l’analyseur suivant la modalité texte (3c) découpe des phrases, des paragraphes en unités de sens traduisant un changement de sujet, ou la suite d’une argumentation suivant des modèles de l’analyse du discours. Using NLP (Natural Language Processing) algorithms implemented on the text (e.g. from speech-to-text transcription) ("speech to text")), the analyzer following the text modality (3c) cuts sentences, paragraphs into units of meaning translating a change of subject, or the continuation of an argument according to models of the analysis of the speech.
L’analyseur suivant la modalité texte (3c) peut également, via une plateforme de traitement automatique des langues (T.A.L), éventuellement Open Source, extraire des métadonnées sémantiques pour alimenter des champs structurés à partir du texte intégral provenant du module 4, par exemple à partir de sources Web et/ou de réseaux sociaux. The analyzer following the text modality (3c) can also, via an automatic language processing (T.A.L) platform, possibly Open Source, extract semantic metadata to feed structured fields from the full text coming from module 4, for example from web sources and/or social networks.
Le quatrième réseau de neurones (3d) est un analyseur du flux vidéo dans son ensemble, afin de créer des marqueurs de découpage basés sur des notions dynamiques, telles que la notion d’action ou les changements de plan. Cette modalité d’analyse sera appelée équivalemment modalité action ou modalité évènement. The fourth neural network (3d) is an analyzer of the video stream as a whole, in order to create cutting markers based on dynamic notions, such as the notion of action or shot changes. This modality of analysis will be called equivalently action modality or event modality.
Le rôle de cet analyseur suivant la modalité action (3d) est de définir une typologie d’actions pour le fichier vidéo numérique à analyser, éventuellement sans connaissance a priori de ces actions. The role of this analyzer following the action modality (3d) is to define a typology of actions for the digital video file to be analyzed, possibly without prior knowledge of these actions.
Dans l’exemple du ping-pong, les actions pourraient inclure les phases de jeu effectif par opposition aux phases pendant lesquelles les joueurs ne jouent pas, par exemple : attendent le prochain service, ramassent la balle, ... In the table tennis example, the actions could include the phases of actual play as opposed to the phases during which the players are not playing, for example: waiting for the next serve, picking up the ball, ...
Des actions précises, telles qu’un coup-droit ou un revers offensif ou défensif peuvent être identifiées. Specific actions, such as a forehand or an offensive or defensive backhand can be identified.
L’analyseur suivant la modalité action (3d) détecte dans un premier temps les changements de plans. Il est à noter que les changements de plans ne sont en général pas faits au hasard par un monteur, donc peuvent être porteurs d’une information riche, que l’on retrouve au moins partiellement grâce à cette détection des changements de plans. Les images caractéristiques de chaque plan sont ensuite envoyées à l’analyseur suivant la modalité image (3a). Dans un second temps, les informations restituées par l’analyseur suivant la modalité image (3a) sont analysées dans l’analyseur suivant la modalité action (3d) par un algorithme de détection d’actions. The analyzer following the action modality (3d) first detects the changes of shots. It should be noted that the changes of shots are generally not made randomly by an editor, so they can carry rich information, which can be found at least partially thanks to this detection of the changes of shots. The characteristic images of each plane are then sent to the analyzer according to the image modality (3a). In a second step, the information returned by the analyzer according to the image modality (3a) is analyzed in the analyzer according to the action modality (3d) by an action detection algorithm.
Par exemple, un système d'estimation de pose dense (« dense pose » en anglais) peut être mis en œuvre, qui associe les pixels de deux images successives sur la base des intensités des différents pixels pour les mettre en correspondance l'une avec l'autre. For example, a dense pose estimation system can be implemented, which associates the pixels of two successive images based on the intensities of the different pixels to match them with each other. the other.
Un tel système peut faire du « video tracking » sans que des capteurs aient été positionnés sur les objets animés/sujets présents dans le contenu vidéo. Il est notamment possible de détecter des parties du corps humain et donc de suivre la trajectoire d’un joueur de football donné par exemple. Such a system can perform “video tracking” without sensors having been positioned on the animated objects/subjects present in the video content. In particular, it is possible to detect parts of the human body and therefore to follow the trajectory of a given football player, for example.
Une banque d’actions peut être constituée en vue d’une phase d’apprentissage supervisée, grâce notamment à cette estimation. Dans l’exemple du ping-pong, l’analyse du geste du bras d’un joueur sur un ensemble de fichiers vidéo numériques contenant chacun une
séquence de coup-droits offensifs bien identifiées permet au réseau de neurones de reconnaître sur la base des positions successives du bras d’un joueur un coup-droit offensif dans un fichier vidéo qui n’a pas servi à l’apprentissage. A stock bank can be set up with a view to a supervised learning phase, thanks in particular to this estimation. In the table tennis example, the analysis of a player's arm gesture on a set of digital video files each containing a sequence of well-identified offensive forehands allows the neural network to recognize, based on the successive positions of a player's arm, an offensive forehand in a video file that was not used for training.
Un coup-droit offensif (« lifté »), dont le geste se fait du bas vers le haut est par exemple différent d’un coup-droit défensif (« coupé »), dont le geste se fait du haut vers le bas. An offensive forehand ("topspin"), whose gesture is made from bottom to top, is for example different from a defensive forehand ("cut"), whose gesture is made from top to bottom.
Des actions peuvent être définies hors du contexte du sport. Dans le domaine des vidéos d’actualité politique, une poignée de mains entre deux sujets peut être une action au sens de l’invention, et un réseau de neurones peut apprendre à reconnaître une telle action. Actions can be defined outside the context of sport. In the field of political news videos, a handshake between two subjects can be an action in the sense of the invention, and a neural network can learn to recognize such an action.
Dans le domaine de l’éducation, le fait qu’un professeur écrive sur un tableau peut constituer une action. In the field of education, the fact that a teacher writes on a board can constitute an action.
L’analyseur suivant la modalité action (3d) peut aussi exploiter le son associé aux images. Ainsi, pour des vidéos éducatives, une interruption dans le débit de locuteur peut être indicative d’un changement d’action au sens de ces vidéos, c’est-à-dire le passage d’une séquence du cours à une autre séquence. The analyzer following the action modality (3d) can also exploit the sound associated with the images. Thus, for educational videos, an interruption in the flow of the speaker can be indicative of a change of action in the sense of these videos, that is to say the passage from one sequence of the course to another sequence.
L’analyseur suivant la modalité action (3d) peut aussi exploiter les informations de « video tagging », c’est-à-dire des métadonnées de type mots-clés ajoutés manuellement au fichier vidéo numérique, lorsqu’elles sont pertinentes du point de vue des actions qui ont été identifiées. The analyzer following the action modality (3d) can also exploit "video tagging" information, i.e. metadata of the keyword type added manually to the digital video file, when they are relevant from the point of view of view of the actions that have been identified.
Dans un mode de réalisation particulier, la modalité action donne heu à au moins deux sous- modalités : In a particular embodiment, the action modality gives way to at least two sub-modalities:
- La première sous-modalité est l’analyse (ou équivalemment la détection) des changements de plans - The first sub-modality is the analysis (or equivalently the detection) of shot changes
- La deuxième sous-modalité est la détection d’action au sens d’une typologie, telle qu’une typologie de fichiers vidéo numériques ou de geste ou de mouvement. - The second sub-modality is action detection in the sense of a typology, such as a typology of digital video files or gesture or motion.
Le procédé peut inclure la phase d’apprentissage des réseaux de neurones sur un jeu de fichiers vidéo associées à un domaine particulier, par exemple un ensemble de fichiers vidéo concernant un sport particulier, ou un domaine scientifique particulier. Il peut aussi être mis en œuvre sur des réseaux de neurones entraînés au préalable pour un domaine choisi par G utilisateur par exemple. The method can include the phase of training the neural networks on a set of video files associated with a particular domain, for example a set of video files relating to a particular sport, or a particular scientific field. It can also be implemented on neural networks previously trained for a domain chosen by G user for example.
En sortie du module 3 d’analyse multimodale, au moins quatre jeux de marqueurs temporels de découpe unimodaux, issus chacun d’une modalité, voire d’une sous-modalité d’une modalité, peuvent être fournis pour le fichier vidéo numérique, chacun des marqueurs temporels de découpe unimodaux étant associé à un jeu de descripteurs sémantiques, dits descripteurs endogènes unimodaux. At the output of the multimodal analysis module 3, at least four sets of unimodal cutting time markers, each originating from a modality, or even from a sub-modality of a modality, can be provided for the digital video file, each unimodal cutting time markers being associated with a set of semantic descriptors, called endogenous unimodal descriptors.
On rappelle qu’en particulier, les analyseurs suivant les modalités image (3a) et action (3d) peuvent fournir des jeux de marqueurs temporels de découpe unimodaux suivant plusieurs
sous-modalités. Par exemple, des marqueurs temporels de découpe unimodaux différents peuvent être identifiés suivant une ou plusieurs des sous-modalités : changement de plans, It is recalled that in particular, the analyzers according to the image (3a) and action (3d) modalities can provide sets of unimodal temporal markers according to several sub-modalities. For example, different unimodal cutting temporal markers can be identified according to one or more of the sub-modalities: change of planes,
- agrégation de plans (par similarité, par exemple issu d’une même caméra)- aggregation of shots (by similarity, for example from the same camera)
- détection d'objets, de formes, - detection of objects, shapes,
- océrisation. - ocerization.
Si on distingue les sous-modalités, il est donc possible d’obtenir plus de quatre jeux de marqueurs temporels de découpe unimodaux. If we distinguish the sub-modalities, it is therefore possible to obtain more than four sets of unimodal cutting time markers.
Il est aussi bien sûr possible de réduire le nombre de modalité ou de sous-modalité d’analyse pour fournir moins de quatre jeux de marqueurs temporels de découpe unimodaux. Dans ce cas, le séquençage sera moins fin. It is also of course possible to reduce the number of modality or sub-modality of analysis to provide less than four sets of unimodal cut-out time markers. In this case, the sequencing will be less fine.
Au sens de l’invention, un descripteur est un terme, qui peut être un nom commun ou un nom propre, un adjectif, un verbe, une locution, un mot composé ou un groupe de mots, et qui représente un concept. Seuls les descripteurs ou combinaisons de descripteurs peuvent être utilisés pour l’indexation. Les non-descripteurs pourront par contre être utilisés dans la formulation de la requête de recherche au niveau du module 6 de recherche et montage.Within the meaning of the invention, a descriptor is a term, which may be a common noun or a proper noun, an adjective, a verb, a phrase, a compound word or a group of words, and which represents a concept. Only descriptors or combinations of descriptors can be used for indexing. The non-descriptors may, however, be used in the formulation of the search request at the level of module 6 of research and assembly.
Les descripteurs peuvent optionnellement être définis dans un thésaurus propre au dispositif ou provenir de thésaurus existants. Un descripteur permet donc, dans un langage documentaire, de préciser le contenu du fichier vidéo numérique quand il est associé au fichier vidéo numérique dans sa globalité, ou d’une séquence de fichier vidéo numérique quand il est associé à cette dernière. The descriptors can optionally be defined in a thesaurus specific to the device or come from existing thesaurus. A descriptor therefore makes it possible, in documentary language, to specify the content of the digital video file when it is associated with the digital video file as a whole, or of a sequence of digital video file when it is associated with the latter.
L’étape d’analyse peut être réalisée sur la base de métadonnées minimales. L’exemple schématique suivant permet de comprendre les différentes étapes du procédé. Faisons l’hypothèse qu’un utilisateur du dispositif souhaite analyser une vidéo : The analysis step can be performed based on minimal metadata. The following schematic example helps to understand the different steps of the process. Let's assume that a user of the device wants to analyze a video:
- qu’il ne connaît pas a priori, qu’il ne souhaite pas visionner au préalable - that he does not know a priori, that he does not wish to view beforehand
- pour laquelle il ne dispose que d’un nom de fichier non signifiant - for which it only has a meaningless file name
- dont la piste audio ne permet pas l’extraction de contenu textuel signifiant. Par exemple, elle ne contient que du bruit sans paroles identifiables, ou un fond musical sans paroles et sans rapport avec le contenu images. - whose audio track does not allow the extraction of significant textual content. For example, it contains only noise without identifiable words, or background music without words and unrelated to the image content.
Typiquement, le fichier vidéo numérique exemple est un fichier vidéo amateur « exemple 1 », réalisé au cours d’un match de football et dans une ambiance sonore très bruyante de sorte que les éventuelles paroles ne peuvent pas être mises en évidence dans le bruit de fond. Une première analyse par le module 3 d’analyse multimodale permet de faire émerger quelques descripteurs de type ballon, foot, maillot (et leurs couleurs), noms de certains joueurs, ambiance sonore stade de foot, correspondant à un séquençage relativement grossier après traitement des résultats du module 3 d’analyse multimodale par le module 5 de séquençage qui sera décrit plus loin.
Le module répartiteur 2 peut optionnellement enrichir les descripteurs unimodaux identifiés et associés aux marqueurs temporels de découpe unimodaux par des descripteurs exogènes, soit en les transmettant au module 4 d’enrichissement, soit à partir des descripteurs déjà identifiés et stockés dans le dispositif lui -même, notamment dans les index primaire et secondaire. Typically, the example digital video file is an "example 1" amateur video file, made during a football match and in a very noisy sound environment so that any words cannot be highlighted in the noise of background. A first analysis by module 3 of multimodal analysis makes it possible to bring out a few descriptors of the ball, football, jersey type (and their colors), names of certain players, football stadium soundscape, corresponding to a relatively coarse sequencing after processing of the results of module 3 of multimodal analysis by module 5 of sequencing which will be described later. The dispatcher module 2 can optionally enrich the unimodal descriptors identified and associated with the unimodal cutting time markers by exogenous descriptors, either by transmitting them to the enrichment module 4, or from the descriptors already identified and stored in the device itself. , especially in the primary and secondary indexes.
Dans le cas de « l’exemple 1 », par une recherche internet de données contenant les mots clés « ballon, foot, noms des joueurs », des descripteurs complémentaires, ou équivalemment descripteurs exogènes, comme « match, but, mi-temps, ... » pourront être ajoutés. De tels descripteurs exogènes peuvent aussi être retrouvés sur la base de données du dispositif s’il a déjà analysé d’autres fichiers vidéo du type match de football. In the case of "Example 1", by searching the Internet for data containing the keywords "ball, football, players' names", additional descriptors, or equivalent exogenous descriptors, such as "match, goal, half-time, ...” may be added. Such exogenous descriptors can also be found on the device's database if it has already analyzed other video files such as football matches.
Si le module 4 d’enrichissement est intervenu, le répartiteur relance une étape d’analyse par le module 3 d’analyse multimodale sur la base de ces descripteurs enrichis. Cette nouvelle étape génère des marqueurs temporels de découpe unimodaux plus nombreux et/ou plus adaptés à la vidéo analysée. Par exemple, une seconde étape d’analyse de la vidéo « exemple 1 » suite à l’enrichissement des descripteurs par le module 4 d’enrichissement permettra d’obtenir un séquençage sur la base des deux mi-temps et des buts marqués si ces évènements sont identifiés. If the enrichment module 4 has intervened, the dispatcher restarts an analysis step by the multimodal analysis module 3 on the basis of these enriched descriptors. This new step generates more unimodal cut-out time markers and/or more adapted to the analyzed video. For example, a second stage of analysis of the "example 1" video following the enrichment of the descriptors by the enrichment module 4 will make it possible to obtain a sequencing on the basis of the two halves and the goals scored if these events are identified.
Le module 3 d’analyse multimodale utilisé a priori peut être « généraliste » c’est-à-dire adapté à des fichiers vidéo numériques dont le contenu est aussi varié que possible, ou encore spécialisé par apprentissage sur un jeu de vidéos ad hoc. Module 3 of multimodal analysis used a priori can be "generalist", i.e. adapted to digital video files whose content is as varied as possible, or even specialized by learning on an ad hoc video game.
Si on souhaite analyser des vidéos du point de vue du sport, un module 3 d’analyse multimodale dédié à et entraîné sur ce domaine, voire sur un sport précis, pourra être mis en œuvre. Mais il est possible d’analyser une même vidéo avec plusieurs modules 3 d’analyse multimodale dédiés à plusieurs domaines différents pour obtenir différents séquençages, ou encore d’utiliser un ensemble de modules 3 pour faire évoluer le choix du module 3 d’analyse multimodale au fur et à mesure de l’enrichissement des métadonnées pour aller vers un module 3 d’analyse multimodale de plus en plus adapté au contenu du fichier vidéo numérique, sur lequel le dispositif n’avait pas de connaissance du domaine du contenu a priori. If you want to analyze videos from a sports point of view, a multimodal analysis module 3 dedicated to and trained in this area, or even in a specific sport, can be implemented. But it is possible to analyze the same video with several 3 multimodal analysis modules dedicated to several different domains to obtain different sequencing, or to use a set of 3 modules to change the choice of the 3 multimodal analysis module as the metadata are enriched to move towards a multimodal analysis module 3 increasingly adapted to the content of the digital video file, on which the device had no a priori knowledge of the domain of the content.
Dans ce dernier cas de figure, une redondance du module 3 d’analyse multimodale est donc nécessaire, chacun des modules 3 d’analyse multimodale étant adapté à un domaine particulier et/ou généraliste. In this last case, a redundancy of module 3 of multimodal analysis is therefore necessary, each of the modules 3 of multimodal analysis being adapted to a particular and/or general field.
Dans un mode de réalisation particulier, le module 3 d’analyse multimodale peut n’analyser le fichier que suivant deux modalités, par exemple si l’un des flux du fichier n’est pas exploitable, ou si l’on souhaite privilégier ces deux modalités. In a particular embodiment, the multimodal analysis module 3 can only analyze the file according to two methods, for example if one of the streams of the file is not usable, or if one wishes to favor these two modalities.
A l’issue d’une étape dans le module 3 d’analyse multimodale, et d’une éventuelle étape d’enrichissement intermédiaire dans le module 4 d’enrichissement, les marqueurs temporels
de découpe unimodaux et les descripteurs endogènes, et éventuellement exogènes, unimodaux associés sont transmis par le répartiteur au module 5 de séquençage. At the end of a step in module 3 of multimodal analysis, and of a possible step of intermediate enrichment in module 4 of enrichment, the temporal markers of unimodal cutting and the endogenous, and possibly exogenous, associated unimodal descriptors are transmitted by the dispatcher to the module 5 of sequencing.
Le module 5 de séquençage est lui aussi un module « worker ». Le séquenceur synthétise toutes les informations recueillies par le répartiteur pour créer des séquences homogènes, cohérentes et pertinentes, si possible suivant plusieurs des points de vue utilisés dans le module 3 d’analyse multimodale à la fois. Sequencing module 5 is also a “worker” module. The sequencer synthesizes all the information collected by the dispatcher to create homogeneous, coherent and relevant sequences, if possible according to several of the points of view used in module 3 of multimodal analysis at the same time.
Dans l’exemple représenté sur les Fig. 2a, Fig. 2b et Fig. 2c, l’axe horizontal représente l’axe des temps pour le fichier vidéo numérique c’est-à-dire l’ordre d’apparition des différentes images qui le constituent ; les marqueurs temporels de découpe unimodaux associés à la modalité image sont par exemple représentés sur la ligne du haut, les marqueurs temporels de découpe unimodaux associés à la modalité visuelle audio sur la ligne, juste en- dessous , puis encore en-dessous les marqueurs temporels de découpe unimodaux associés à la modalité textuelle, et enfin les marqueurs temporels de découpe unimodaux associés à la modalité action sont représentés sur celle du bas. In the example shown in Figs. 2a, Fig. 2b and Figs. 2c, the horizontal axis represents the time axis for the digital video file, that is to say the order of appearance of the various images which constitute it; the unimodal slice time markers associated with the image modality are for example represented on the top line, the unimodal slice time markers associated with the audio visual modality on the line, just below, then again below the time markers of unimodal cutouts associated with the textual modality, and finally the unimodal cutout temporal markers associated with the action modality are represented on the bottom one.
A l’issue du séquençage, le module 5 de séquençage propose des marqueurs temporels de séquence candidats. At the end of the sequencing, the sequencing module 5 proposes candidate sequence time markers.
Un marqueur temporel de séquence candidat est : A candidate sequence time stamp is:
- soit un marqueur temporel de séquence candidat plurimodal, - either a multimodal candidate sequence time marker,
- soit un marqueur de séquence candidat unimodal. - or a unimodal candidate sequence marker.
Pour créer un marqueur temporel de séquence candidat plurimodal, on procède comme suit : si au moins deux marqueurs temporels de découpe unimodaux issus modalités différentes sont identifiés comme proches temporellement, un marqueur temporel de séquence candidat plurimodal, en relation mathématique avec ces marqueurs temporels de découpe unimodaux, est créé. To create a plurimodal candidate sequence temporal marker, one proceeds as follows: if at least two unimodal cutting temporal markers from different modalities are identified as temporally close, a plurimodal candidate sequence temporal marker, in mathematical relation with these temporal cutting markers unimodal, is created.
La proximité temporelle est définie par rapport à un critère de temps T2 spécifié au préalable : deux (ou plus) de marqueurs temporels de découpe unimodaux sont considérés comme temporellement proches s’ils sont séparés deux-à-deux par une durée inférieure à une durée prédéterminée T2, dite principale. The temporal proximity is defined with respect to a time criterion T2 specified beforehand: two (or more) of unimodal cutting temporal markers are considered as temporally close if they are separated two-by-two by a duration less than a duration predetermined T2, called main.
Un marqueur temporel de séquence plurimodal est créé en lien mathématique avec les marqueurs de découpe unimodaux qui sous-tendent sa création suivant une règle fixée au préalable. A plurimodal sequence temporal marker is created in mathematical connection with the unimodal cutout markers which underlie its creation according to a rule fixed beforehand.
Par exemple, le marqueur temporel de séquence plurimodal candidat est identique au marqueur temporel de découpe unimodal issu de la modalité audio. Ou encore, il peut correspondre au marqueur temporel le plus proche de la moyenne des codes temporels des n marqueurs temporels de découpe unimodaux identifiés comme proches temporellement.
Un marqueur temporel de séquence candidat unimodal est quant à lui créé sur la base d’une seule modalité. Il est dans ce cas dit marqueur temporel de séquence candidat unimodal et identique au marqueur temporel de découpe unimodal identifié. For example, the candidate multimodal sequence time stamp is identical to the single-mode slice time stamp from the audio modality. Or again, it can correspond to the time marker closest to the mean of the time codes of the n unimodal cutting time markers identified as temporally close. A unimodal candidate sequence time stamp is created based on a single modality. In this case, it is said to be a unimodal candidate sequence time marker and identical to the identified unimodal cut-out time marker.
La figure 2a représente la décomposition d’un fichier vidéo numérique selon les quatre modalités : image, audio, texte et action. Figure 2a represents the decomposition of a digital video file according to the four modalities: image, audio, text and action.
Sur cette figure, deux marqueurs temporels de séquence candidats 21 plurimodaux sont détectés dans ce cas suivant quatre modalités. In this figure, two candidate sequence time markers 21 plurimodal are detected in this case according to four modalities.
Lorsque les quatre modalités possèdent des codes temporels identiques ou des codes temporels évalués comme proches, un marqueur de séquence candidat dit principal car issu de quatre modalités est détecté. Des marqueurs de séquence candidat sont donc dits « principaux » lorsqu’ils sont issus des quatre modalités. Les deux marqueurs temporels de séquence candidats 21 de la figure 2a sont donc plurimodaux principaux. When the four modalities have identical timecodes or timecodes evaluated as close, a candidate sequence marker called main because stemming from four modalities is detected. Candidate sequence markers are therefore said to be “main” when they come from the four modalities. The two candidate sequence temporal markers 21 of FIG. 2a are therefore principal multimodal.
Des descripteurs endogènes plurimodaux, dits « principaux » car issus des quatre modalités, sont associés à chacun des marqueurs temporels de séquence candidats 21 plurimodaux principaux identifiés. Endogenous plurimodal descriptors, called “main” because they come from the four modalities, are associated with each of the 21 main plurimodal candidate sequence temporal markers identified.
La figure 2b représente la décomposition du même fichier vidéo numérique que pour la figure 2a selon les quatre modalités : image, audio, texte et action. FIG. 2b represents the breakdown of the same digital video file as for FIG. 2a according to the four modalities: image, audio, text and action.
Cette décomposition aboutit dans un premier temps à la détection de trois marqueurs temporels de séquences candidats 21 principaux, issus de quatre modalités différentes.This decomposition leads initially to the detection of three main candidate sequence temporal markers 21 , resulting from four different modalities.
Des marqueurs temporels de séquence candidats 22 plurimodaux, mais issus seulement de trois modalités, peuvent être identifiés. Multi-modal, but only three-modality candidate sequence temporal markers 22 can be identified.
Lorsque trois modalités possèdent des codes temporels identiques ou des codes temporels évalués comme proches, un marqueur de séquence est identifié. Ce marqueur de séquence candidat plurimodal est dit secondaire, car plurimodal mais issu de moins de quatre modalités. Au marqueur de séquence candidat plurimodal secondaire sont associés des descripteurs endogènes plurimodaux, dits secondaires car plurimodaux mais issus de moins de quatre modalités. When three modalities have identical timecodes or timecodes rated as close, a sequence marker is identified. This plurimodal candidate sequence marker is said to be secondary because it is plurimodal but stems from less than four modalities. The secondary plurimodal candidate sequence marker is associated with endogenous plurimodal descriptors, called secondary because they are plurimodal but come from less than four modalities.
Dans tous les cas, un marqueur de séquence candidat plurimodal, qu’il soit principal ou secondaire, peut être associé à des descripteurs endogènes multimodaux (ou équivalemment plurimodaux), issus des descripteurs unimodaux associés aux marqueurs temporels de découpe unimodaux de toutes les modalités qui ont permis de sélectionner le marqueur plurimodal. In all cases, a multimodal candidate sequence marker, whether primary or secondary, can be associated with endogenous multimodal (or equivalently multimodal) descriptors, derived from the unimodal descriptors associated with the unimodal cut-off temporal markers of all the modalities which made it possible to select the multimodal marker.
Les descripteurs sont dits « endogènes » lorsqu’ils sont issus du séquençage du fichier vidéo numérique par le module (5) de séquençage mais pas d’une étape d’enrichissement par le module (4) à partir d’informations exogènes au fichier vidéo numérique. The descriptors are said to be "endogenous" when they come from the sequencing of the digital video file by the sequencing module (5) but not from an enrichment step by the module (4) from information exogenous to the video file digital.
Quatre marqueurs temporels de découpe candidats plurimodaux secondaires 22 issus de trois modalités peuvent être observés sur la figure 2b.
Lorsque seulement deux modalités possèdent des codes temporels identiques ou des codes temporels évalués comme proches, un seuil de proximité pouvant être prédéterminé, un marqueur de découpe candidat plurimodal dit « secondaire », car plurimodal mais issu de moins de quatre modalités, est identifié, auquel sont associés des descripteurs multimodaux endogènes, dits secondaires car plurimodaux mais issus de moins de quatre modalités, dans un deuxième temps. Four secondary candidate multimodal cut-out time markers 22 from three modalities can be seen in Figure 2b. When only two modalities have identical time codes or time codes evaluated as close, a proximity threshold being able to be predetermined, a multimodal candidate cutting marker called "secondary", because multimodal but resulting from less than four modalities, is identified, to which are associated endogenous multimodal descriptors, called secondary because multimodal but resulting from less than four modalities, in a second step.
Ce cas est représenté sur la figure 2c, toujours pour le même fichier vidéo numérique que sur la figure 2a. Le séquençage permet la détection dans un premier temps de marqueurs de séquence candidats plurimodaux principaux 21, dans un deuxième temps de marqueurs de séquence candidats plurimodaux secondaires 22 issus de trois modalités, puis dans un troisième temps de marqueurs de séquence candidats plurimodaux secondaires 23. This case is represented in FIG. 2c, still for the same digital video file as in FIG. 2a. The sequencing allows the detection in a first stage of main plurimodal candidate sequence markers 21, in a second stage of secondary plurimodal candidate sequence markers 22 resulting from three modalities, then in a third stage of secondary plurimodal candidate sequence markers 23.
De préférence, les marqueurs de découpe candidats plurimodaux sont donc dans un premier temps choisis par proximité temporelle sur quatre modalités, ce qui aboutit au choix des marqueurs de séquence candidats plurimodaux principaux 21. Preferably, the multimodal candidate cut markers are therefore initially chosen by temporal proximity out of four modalities, which leads to the choice of the main multimodal candidate sequence markers 21.
Si le critère de proximité temporelle sur au moins quatre modalités ou sous-modalités différentes aboutit à un séquençage insuffisant, des marqueurs de séquence plurimodaux secondaires 22 ou 23 peuvent être sélectionnés sur la base d’une association de deux ou trois modalités. If the criterion of temporal proximity over at least four different modalities or submodalities results in insufficient sequencing, secondary multimodal sequence markers 22 or 23 can be selected based on a combination of two or three modalities.
Le séquençage est considéré comme « insuffisant » sur des critères évaluables de manière automatique. Par exemple, si au moins un intervalle de temps séparant deux marqueurs de séquence candidats successifs a une durée supérieure à une durée, dite durée seuil Tl, prédéterminée, définie par exemple par rapport à la durée totale du fichier vidéo numérique ou de manière absolue, le séquençage est insuffisant. The sequencing is considered “insufficient” on automatically assessable criteria. For example, if at least one time interval separating two successive candidate sequence markers has a duration greater than a predetermined duration, called the threshold duration T1, defined for example in relation to the total duration of the digital video file or absolutely, the sequencing is insufficient.
Une fois, les marqueurs temporels de séquence candidats identifiés, une sélection est faite parmi ces marqueurs de séquence candidats pour constituer une ou plusieurs paires de marqueurs de séquence, comprenant chacune un marqueur de début de séquence et un marqueur de fin de séquence. Once the candidate sequence time markers have been identified, a selection is made from among these candidate sequence markers to constitute one or more pairs of sequence markers, each comprising a start of sequence marker and an end of sequence marker.
Dans un mode de réalisation, la durée d’une séquence est, pour ce faire, bornée par une durée minimale D 1 et par une durée maximale D2 qui dépendent de la typologie du fichier vidéo numérique à séquencer. In one embodiment, the duration of a sequence is, to do this, limited by a minimum duration D 1 and by a maximum duration D2 which depend on the type of digital video file to be sequenced.
Puis, un dernier marqueur de fin de séquence peut être, pour initialiser la constitution de paires de marqueurs de séquence, placé à partir de la fin du fichier vidéo numérique, soit exactement à la fin du fichier, soit par exemple au niveau d’un marqueur temporel de séquence candidat à condition qu’il soit séparé par un intervalle de temps inférieur à un seuil prédéterminé de la fin du fichier. Then, a last end of sequence marker can be, to initialize the constitution of pairs of sequence markers, placed from the end of the digital video file, either exactly at the end of the file, or for example at the level of a candidate sequence time stamp provided it is separated by a time interval less than a predetermined threshold from the end of the file.
Ensuite, il peut être envisagé de procéder à des itérations des étapes suivantes :
- On recherche un marqueur de séquence candidat plurimodal séparé d’une durée comprise entre les durées et DI et D2 du dernier marqueur de fin de séquence. S’il existe, il est effectivement retenu comme dernier marqueur de début de séquence et associé au dernier marqueur de fin de séquence pour constituer la dernière paire de marqueurs de séquence, qui délimite la dernière séquence virtuelle. Then, it can be considered to proceed with iterations of the following steps: - A multimodal candidate sequence marker separated by a duration between the durations and D1 and D2 of the last end-of-sequence marker is sought. If it exists, it is effectively retained as the last sequence start marker and associated with the last sequence end marker to constitute the last pair of sequence markers, which delimits the last virtual sequence.
Si un marqueur de séquence candidat plurimodal se trouve à une durée inférieure à D 1 du dernier marqueur de fin de séquence, il peut ainsi être décidé de ne pas le retenir parce que le séquençage aboutirait à des séquences trop courtes pour qu’elles soient réellement d’intérêt. If a multimodal candidate sequence marker is found at a duration less than D 1 from the last end-of-sequence marker, it can thus be decided not to retain it because the sequencing would result in sequences that are too short for them to be really of interest.
- Sinon, si aucun marqueur de séquence candidat plurimodal n’est identifié en-deçà de la durée D2, un marqueur de séquence candidat unimodal séparé d’une durée comprise entre les durées et DI et D2 du dernier marqueur de fin de séquence est recherché. S’il existe, il est sélectionné comme dernier marqueur de début de séquence et associé au dernier marqueur de fin de séquence pour constituer la dernière paire de marqueurs de séquence, qui délimite la dernière séquence virtuelle. - Otherwise, if no multimodal candidate sequence marker is identified below the D2 duration, a unimodal candidate sequence marker separated by a duration between the durations and DI and D2 of the last end-of-sequence marker is sought . If it exists, it is selected as the last start-of-sequence marker and combined with the last end-of-sequence marker to form the last pair of sequence markers, which delimits the last virtual sequence.
- A défaut, un dernier marqueur de début de séquence est créé, séparé d’une durée D2 du marqueur de découpe identifié, de manière à assurer la convergence du processus.- Failing this, a last sequence start marker is created, separated by a duration D2 from the identified cutting marker, so as to ensure the convergence of the process.
- Puis le processus de recherche est réitéré pour sélectionner l’avant-demier marqueur de de début de séquence, le dernier marqueur de début de séquence jouant le rôle d’avant-dernier marqueur de fin de séquence dans l’algorithme décrit juste au-dessus.- Then the search process is repeated to select the penultimate sequence start marker, the last sequence start marker playing the role of penultimate sequence end marker in the algorithm described just above. above.
- Et ainsi de suite jusqu’à ce que le début du fichier vidéo numérique soit atteint.- And so on until the beginning of the digital video file is reached.
A chaque fois qu’une paire de marqueurs de séquence comprenant un marqueur de début de séquence et un marqueur de fin de séquence est constituée, une séquence est donc virtuellement constituée. Each time a pair of sequence markers comprising a start of sequence marker and an end of sequence marker is formed, a sequence is therefore virtually formed.
Dans un mode de réalisation particulier, au moins un des marqueurs de séquence de chaque paire de marqueurs de séquence est plurimodal. Optionnellement, les deux marqueurs de séquence de chaque paire de marqueurs de séquence sont plurimodaux. In a particular embodiment, at least one of the sequence tags of each pair of sequence tags is multimodal. Optionally, the two sequence markers of each pair of sequence markers are multimodal.
Cette disposition permet d’assurer que les séquences identifiées ont une cohérence sémantique définie par plusieurs modalités. This arrangement makes it possible to ensure that the identified sequences have a semantic coherence defined by several modalities.
Dans un mode de réalisation particulier, toujours dans le but d’accroître la finesse du séquençage en conservant une cohérence sémantique élevée, au moins un des marqueurs de séquence de chaque paire de marqueurs de séquence est plurimodal principal. In a particular embodiment, still with the aim of increasing the fineness of the sequencing while maintaining high semantic consistency, at least one of the sequence markers of each pair of sequence markers is main multimodal.
Dans un mode de réalisation particulier, des poids peuvent être affectés aux différentes modalités en fonction de la typologie du fichier vidéo numérique. Par exemple, pour des vidéos de type « sport », la modalité action peut jouer un rôle plus important dans le séquençage si son poids est plus élevé.
Les poids des différentes modalités peuvent éventuellement être choisis en fonction de la nature du contenu analysé (connue a priori ou détectée au fur et à mesure des itérations) et/ou du critère de recherche de fichiers vidéo formulé par un utilisateur du dispositif 8. Chaque séquence virtuelle de fichier vidéo numérique peut être indexée dans un index secondaire au moyen des descripteurs endogènes, et le cas échéant exogènes, associés au marqueur de début de séquence, ainsi qu’à ceux associés au marqueur de fin de séquence. Les descripteurs associés au marqueur de début de séquence et/ou au marqueur de fin de séquence sont dits « secondaires » en ce sens qu’ils sont associés à une séquence de fichier vidéo numérique et non plus au fichier vidéo numérique dans son ensemble. Ils permettent l’indexation de la paire de marqueurs de séquence dans l’index secondaire. In a particular embodiment, weights can be assigned to the different modalities according to the typology of the digital video file. For example, for “sport” type videos, the action modality can play a more important role in the sequencing if its weight is higher. The weights of the different modalities can optionally be chosen according to the nature of the content analyzed (known a priori or detected as the iterations progress) and/or the video file search criterion formulated by a user of the device 8. Each virtual sequence of digital video file can be indexed in a secondary index by means of the endogenous descriptors, and if necessary exogenous, associated with the start of sequence marker, as well as those associated with the end of sequence marker. The descriptors associated with the start of sequence marker and/or with the end of sequence marker are said to be “secondary” in the sense that they are associated with a digital video file sequence and no longer with the digital video file as a whole. They allow the sequence marker pair to be indexed in the secondary index.
L’index secondaire est en relation d’héritage avec l’index primaire de sorte que les descripteurs endogènes primaires, associés au fichier vidéo numérique, sont aussi associés à la séquence identifiée. The secondary index is in a relationship of inheritance with the primary index so that the primary endogenous descriptors, associated with the digital video file, are also associated with the identified sequence.
La relation d’héritage est à comprendre au sens de l’informatique, notamment de la programmation orientée objet : les séquences d’un fichier vidéo numérique sont « filles » de ce fichier numérique en ce sens que si le fichier vidéo numérique est indexé au moyen de descripteurs endogènes et, le cas échéant exogènes, primaires, la séquence hérite de ces descripteurs primaires et peut donc être recherchée dans l’index non seulement sur la base des descripteurs secondaires qui la caractérisent mais aussi sur la base des descripteurs primaires qui caractérisent le fichier vidéo numérique dont elle est « fille ». The inheritance relationship is to be understood in the sense of computer science, in particular object-oriented programming: the sequences of a digital video file are "daughters" of this digital file in the sense that if the digital video file is indexed means of endogenous and, where appropriate exogenous, primary descriptors, the sequence inherits these primary descriptors and can therefore be searched in the index not only on the basis of the secondary descriptors which characterize it but also on the basis of the primary descriptors which characterize the digital video file of which it is a "daughter".
En variante, la durée minimale d’une séquence de fichier vidéo n’est pas fixée a priori mais une séquence de fichier vidéo (ou équivalemment une paire de marqueurs temporels de séquence) n’est retenue dans l’index secondaire que si elle est associée à un nombre de descripteurs suffisants, par exemple pour qu’il y ait une probabilité significative de retrouver cette séquence à l’issue d’une requête de recherche. Alternatively, the minimum duration of a video file sequence is not fixed a priori but a video file sequence (or equivalently a pair of sequence time stamps) is retained in the secondary index only if it is associated with a sufficient number of descriptors, for example for there to be a significant probability of finding this sequence at the end of a search query.
Comme on l’a vu plus haut, dans l’hypothèse où il n’est pas possible de trouver des marqueurs de séquence plurimodaux, des marqueurs de séquences unimodaux peuvent être sélectionnés, avant une étape d’enrichissement et une nouvelle itération du processus de séquençage par exemple. As we saw above, in the event that it is not possible to find plurimodal sequence markers, unimodal sequence markers can be selected, before an enrichment step and a new iteration of the process of sequencing for example.
Les marqueurs de séquence unimodaux jouent alors le même rôle que les marqueurs de séquence plurimodaux dans le processus d’indexation, c’est-à-dire que les séquences correspondantes sont indexées sur la base des descripteurs unimodaux associés. Ce cas de figure n’est pas recherché en soi, mais permet d’assurer la convergence du processus de séquençage. Unimodal sequence markers then play the same role as multimodal sequence markers in the indexing process, i.e. the corresponding sequences are indexed on the basis of the associated unimodal descriptors. This scenario is not sought in itself, but makes it possible to ensure the convergence of the sequencing process.
Selon un mode de réalisation, une information sur le caractère unimodal ou plurimodal d’un descripteur endogène secondaire donné est conservée au cours du processus d’indexation.
Grâce à cette disposition, il est possible de distinguer les descripteurs secondaires plurimodaux des descripteurs unimodaux, ce qui peut être utile lors d’une recherche de séquence de fichier vidéo dans laquelle on souhaite faire jouer des rôles différents à ces deux types de descripteurs. According to one embodiment, information on the unimodal or multimodal character of a given secondary endogenous descriptor is kept during the indexing process. Thanks to this arrangement, it is possible to distinguish the multimodal secondary descriptors from the unimodal descriptors, which can be useful when searching for a video file sequence in which it is desired to make these two types of descriptors play different roles.
Dans une variante, on procède à l’analyse d’un fichier vidéo numérique non pas à rebours, mais en commençant par sélectionner un premier marqueur de séquence initial, puis un premier marqueur de séquence de fin et ainsi de suite jusqu’à ce que le fichier ait été intégralement parcouru en partant du début du fichier. In a variant, the analysis of a digital video file is not carried out backwards, but by starting by selecting a first initial sequence marker, then a first end sequence marker and so on until the file has been completely scanned starting from the beginning of the file.
A la fin du processus de démontage vidéo, ou encore de dé-linéarisation, qu’il réalise, le séquenceur indexe donc dans un index secondaire toutes les séquences virtuelles validées, c’est-dire toutes les séquences virtuelles identifiées et délimitées par un marqueur de début de séquence et un marqueur de fin de séquence retenus par le module 5 de séquençage, à chacune desquelles est associé un jeu de descripteurs sémantiques secondaires endogènes et, le cas échéant, exogènes. At the end of the video dismantling process, or even of de-linearization, which it carries out, the sequencer therefore indexes in a secondary index all the validated virtual sequences, that is to say all the virtual sequences identified and delimited by a marker of sequence start and an end of sequence marker retained by the sequencing module 5, each of which is associated with a set of endogenous and, where appropriate, exogenous secondary semantic descriptors.
On notera qu’un marqueur temporel de séquence peut être associé par défaut à la première image et/ ou à la dernière image, de manière à assurer le séquençage de l’ensemble du fichier. It should be noted that a sequence time marker can be associated by default with the first image and/or the last image, so as to ensure the sequencing of the entire file.
On notera aussi qu’une étape préliminaire de réduction du fichier vidéo numérique peut être réalisée de manière à ne procéder au séquençage que sur les fragments de fichier vidéo numérique présentant de l’intérêt. It should also be noted that a preliminary step of reducing the digital video file can be carried out so as to proceed with the sequencing only on the fragments of digital video file of interest.
On peut par exemple imaginer d’éliminer de manière automatique, grâce à des réseaux de neurones spécialisés, les fragments correspondant à des séquences de publicité, ou des fragments d’un fichier vidéo numérique amateur trop sombres pour qu’ils méritent d’être conservés. Cette étape permet de réduire le temps de séquençage du fichier. One can for example imagine eliminating automatically, thanks to specialized neural networks, the fragments corresponding to advertising sequences, or fragments of an amateur digital video file too dark for them to deserve to be kept. . This step reduces the file sequencing time.
Les descripteurs secondaires sélectionnés à l’issue de l’étape de séquençage sont secondaires car associés non pas à un fichier vidéo numérique dans sa totalité, comme des métadonnées « globales » ou de manière général comme des descripteurs « primaires », mais ils sont associés à une séquence en particulier. The secondary descriptors selected at the end of the sequencing step are secondary because they are not associated with a digital video file in its entirety, like "global" metadata or generally like "primary" descriptors, but they are associated to a particular sequence.
Le module 5 de séquençage peut éventuellement être un cluster de séquenceurs, cette disposition permettant de répartir les requêtes sur les différents séquenceurs du cluster en fonction de la montée en charge du dispositif. The sequencing module 5 may optionally be a cluster of sequencers, this arrangement making it possible to distribute the requests to the various sequencers of the cluster according to the increase in load of the device.
Le processus est itératif, c’est-à-dire que les descripteurs secondaires associés à une séquence virtuelle peuvent être enrichis par une recherche de descripteurs secondaires dits « exogènes », tels que des descripteurs de séquence existant déjà dans la base de données de descripteurs du dispositif et/ou au travers du module 4 d’enrichissement, avant qu’un nouveau séquençage ne soit relancé pour aboutir à un séquençage plus fin, sur la base des descripteurs primaires et secondaires endogènes et exogènes identifiés.
Il est d’ailleurs possible de procéder, avant le séquençage d’un fichier vidéo numérique, à une étape d’enrichissement des descripteurs endogènes primaires de ce fichier vidéo numérique par des descripteurs exogènes, dits aussi primaires au moyen du module 4 d’enrichissement. Un fichier vidéo numérique est donc indexé dans l’index primaire au moyen de descripteurs primaires endogènes, et, le cas échéant, exogènes. The process is iterative, i.e. the secondary descriptors associated with a virtual sequence can be enriched by a search for so-called "exogenous" secondary descriptors, such as sequence descriptors already existing in the descriptor database. of the device and/or through the enrichment module 4, before a new sequencing is restarted in order to achieve finer sequencing, on the basis of the endogenous and exogenous primary and secondary descriptors identified. It is also possible to proceed, before the sequencing of a digital video file, to a step of enrichment of the primary endogenous descriptors of this digital video file by exogenous descriptors, also called primary by means of the enrichment module 4 . A digital video file is therefore indexed in the primary index by means of endogenous and, where appropriate, exogenous primary descriptors.
Selon un mode de réalisation, une information sur le caractère exogène ou endogène d’un descripteur primaire ou secondaire donné est conservée au cours du processus d’indexation. Grâce à cette disposition, il est possible de distinguer les descripteurs endogènes des descripteurs exogènes, ce qui peut être utile lors d’une recherche de séquence de fichier vidéo dans laquelle on souhaite faire jouer des rôles différents à ces deux types de descripteurs. According to one embodiment, information on the exogenous or endogenous character of a given primary or secondary descriptor is kept during the indexing process. Thanks to this arrangement, it is possible to distinguish the endogenous descriptors from the exogenous descriptors, which can be useful when searching for a video file sequence in which one wishes to make these two types of descriptors play different roles.
Dans le cas de « l’exemple 1 », si les séquences ont été définies à l’issue d’une première étape de séquençage sur la base de l’horaire repéré pour les buts et la mi-temps, il est possible par exemple de retrouver sur internet le match correspondant et d’enrichir les descripteurs secondaires endogènes de chaque séquence sur la base d’informations textuelles sur ce match. In the case of "example 1", if the sequences have been defined at the end of a first sequencing step on the basis of the schedule identified for the goals and half-time, it is possible for example to find the corresponding match on the Internet and to enrich the endogenous secondary descriptors of each sequence on the basis of textual information on this match.
Puis une nouvelle analyse par le module 3 d’analyse multimodale et un séquençage affiné par le module 5 de séquençage peuvent être effectués. Then a new analysis by module 3 of multimodal analysis and a refined sequencing by module 5 of sequencing can be carried out.
La Fig. 4 donne une représentation schématique des étapes d’une itération du procédé de séquençage d’un fichier vidéo sur la base de quatre modalités. Fig. 4 gives a schematic representation of the steps of an iteration of the sequencing process of a video file on the basis of four modalities.
Ces étapes de va-et-vient entre les modules 3 d’analyse multimodale et 5 de séquençage, orchestrées par le module 2 répartiteur, peuvent être réitérées de manière contrôlée soit sur la base d’une limitation du nombre d’itérations, soit sur la base d’un séquençage suffisamment fin du fichier vidéo numérique. On peut par exemple arrêter le processus lorsqu’au moins un marqueur de séquence candidat a été identifié pour tout intervalle de temps t spécifié, quelques secondes à titre d’exemple. On a vu que les fichiers vidéo numériques acquis par le module 1 étaient indexés dans un index dit « primaire », permettant l’accès au fichier vidéo numérique dans son ensemble. Le module 5 de séquençage indexe les séquences identifiées du fichier vidéo numérique dans un index dit « secondaire ». These back-and-forth steps between the multimodal analysis modules 3 and the sequencing modules 5, orchestrated by the dispatcher module 2, can be repeated in a controlled manner either on the basis of a limitation of the number of iterations, or on the basis of a sufficiently fine sequencing of the digital video file. One can for example stop the process when at least one candidate sequence marker has been identified for any specified time interval t, a few seconds as an example. We have seen that the digital video files acquired by module 1 were indexed in a so-called “primary” index, allowing access to the digital video file as a whole. The sequencing module 5 indexes the identified sequences of the digital video file in a so-called “secondary” index.
Le processus d’indexation des séquences de fichier vidéo numérique est de type parent/enfant : l’index du répartiteur pointe sur les informations générales du fichier vidéo numérique, donc sur l’index dit « primaire », alors que le séquenceur crée une indexation « secondaire » héritée. Dans un mode de réalisation, les index primaires et secondaires sont multi-champs et s’alimentent mutuellement à chaque itération.
Par exemple, une étape de séquençage de la vidéo d’un match de football peut faire émerger N séquences dont la k-ième est associée un descripteur est « mi-temps ». L’information « mi-temps » est pertinente à la fois pour la séquence k mais aussi pour l’ensemble du fichier vidéo. L’indexation primaire du fichier vidéo peut donc être enrichie de l’information mi- temps et de la date de cette mi-temps dans le fichier. The process of indexing digital video file sequences is of the parent/child type: the dispatcher's index points to the general information of the digital video file, therefore to the so-called "primary" index, while the sequencer creates an indexing "secondary" inherited. In one embodiment, the primary and secondary indexes are multi-field and mutually feed each iteration. For example, a step of sequencing the video of a football match can cause N sequences to emerge, the k-th of which is associated with a descriptor that is “half-time”. The “half-time” information is relevant both for the sequence k but also for the entire video file. The primary indexing of the video file can therefore be enriched with the half-time information and the date of this half-time in the file.
Dans une seconde itération du séquençage, si par exemple on sait que trois buts sont à rechercher et que ces quatre buts sont identifiés avant la première mi-temps dont l’information est contenue dans l’index primaire, il sera possible d’associer les séquences de la seconde mi-temps qui pourraient se rapprocher d’un but à des actions offensives sans but réalisé. L’index secondaire est alors enrichi avec ces informations. Et ainsi de suite. In a second iteration of the sequencing, if for example it is known that three goals are to be sought and that these four goals are identified before the first half, the information for which is contained in the primary index, it will be possible to associate the second half sequences that could come close to a goal to offensive actions with no goal achieved. The secondary index is then enriched with this information. And so on.
En résumé, des informations à caractère générique peuvent alimenter l’index primaire à partir de l’index secondaire et des informations à caractère au départ identifié comme générique et devenant particulièrement pertinentes pour une séquence particulière peuvent alimenter l’index secondaire à partir de l’index primaire. In summary, wildcard information can populate the primary index from the secondary index, and character information initially identified as generic and becoming particularly relevant to a particular sequence can populate the secondary index from the primary index.
L’invention permet donc de descendre, grâce à ce processus d’indexation, à une granulométrie bien plus fine dans une recherche de contenus dans des fichiers vidéo numériques que ce qui est permis par les processus d’indexation actuellement mis en œuvre pour ce type de fichiers, ainsi qu’à une possibilité de recherche de séquence à deux niveaux suivant les deux dimensions imbriquées créées par les deux index. The invention therefore makes it possible to go down, thanks to this indexing process, to a much finer grain size in a search for content in digital video files than what is permitted by the indexing processes currently implemented for this type of files, as well as a two-level sequence search possibility according to the two nested dimensions created by the two indexes.
On comprend qu’après au moins un passage dans les modules 3 d’analyse multimodale et 5 de séquençage suivie d’une étape d’enrichissement des descripteurs via le module 4 répartiteur, une indexation automatisée des séquences identifiées dans le fichier vidéo numérique - l’indexation « secondaire » - peut être obtenue en l’absence de toute connaissance préalable sur le contenu de ce fichier vidéo numérique, et même si les contenus audio et textuels ne permettent pas d’obtenir des descripteurs pertinents à l’origine. It is understood that after at least one passage in the modules 3 of multimodal analysis and 5 of sequencing followed by a stage of enrichment of the descriptors via the module 4 dispatcher, an automated indexing of the sequences identified in the digital video file - l "Secondary" indexing - can be obtained in the absence of any prior knowledge of the content of this digital video file, and even if the audio and textual contents do not make it possible to obtain relevant descriptors at the origin.
On comprend bien que cette indexation secondaire est dynamique, c’est-à-dire qu’elle peut être enrichie et affinée : au fur et à mesure que les analyses de vidéos d’un même domaine sont réalisées, le corpus de descripteurs pertinents associés à ce domaine sur la base duquel le module 3 d’analyse multimodale peut analyser un fichier vidéo numérique s’accroît. En conséquence, le premier fichier vidéo numérique analysé peut être ré-analysé après l’analyse de N autres fichiers vidéo numériques pour affiner son séquençage. It is well understood that this secondary indexing is dynamic, that is to say that it can be enriched and refined: as the analyzes of videos of the same domain are carried out, the corpus of relevant descriptors associated to this domain on the basis of which the multimodal analysis module 3 can analyze a digital video file increases. As a result, the first analyzed digital video file can be re-analyzed after analyzing N other digital video files to refine its sequencing.
On comprend aussi que l’indexation secondaire peut être réalisée suivant des points de vue variés en fonction des requêtes de recherche vidéo effectuées par l’utilisateur sur la vidéothèque déjà analysée. En d’autres termes, un point de vue initial choisi pour l’indexation secondaire n’est pas absolument limitatif et peut toujours être modifié sur la base d’une recherche particulière.
Par exemple, un fichier vidéo numérique pourrait avoir été constitué manuellement par l’agrégation de deux fichiers vidéo pour donner un fichier vidéo numérique contenant une séquence foot contenant entre autres un but de football spectaculaire suivie d’une séquence rugby contenant entre autres un essai de rugby spectaculaire. L’analyse de ce fichier vidéo numérique en mode sport donnerait deux séquences, une séquence (a) pour le foot et une séquence (b) pour le rugby, mais il n’y a aucune raison pour que le séquençage soit adapté au football plutôt qu’au rugby ou réciproquement. It is also understood that the secondary indexing can be carried out according to various points of view according to the video search requests carried out by the user on the video library already analyzed. In other words, an initial point of view chosen for secondary indexing is not absolutely limiting and can always be modified on the basis of a particular search. For example, a digital video file could have been created manually by aggregating two video files to give a digital video file containing a football sequence containing, among other things, a spectacular football goal followed by a rugby sequence containing, among other things, a spectacular rugby. Analyzing this digital video file in sports mode would yield two sequences, one sequence (a) for football and one sequence (b) for rugby, but there is no reason why the sequencing should be suitable for football rather than in rugby or vice versa.
Si lors d’une recherche via le module 6 de recherche décrit plus loin, sur la base de mots clés associés au football, la séquence (a) est présentée parmi les résultats de recherche parmi d’autres vidéos, le répartiteur peut relancer une analyse de la vidéo (a) sur des descripteurs adaptés au football, pour obtenir un séquençage et une indexation plus adaptée à ce sport particulier. Mais il peut refaire le même processus à un autre instant dans le cadre du rugby.If during a search via the search module 6 described below, on the basis of keywords associated with football, the sequence (a) is presented among the search results among other videos, the dispatcher can relaunch an analysis of the video (a) on descriptors adapted to football, to obtain a sequencing and an indexing more adapted to this particular sport. But he can repeat the same process at another time in the context of rugby.
Il s’agit donc d’une indexation dynamique, ne nécessitant pas de connaissance a priori du contenu du fichier vidéo numérique et s’affinant et s’enrichissant au fur et à mesure de G utilisation du dispositif. It is therefore a dynamic indexing, not requiring a priori knowledge of the content of the digital video file and being refined and enriched as the device is used.
Une fois le critère d’arrêt des itérations rempli pour au moins un fichier vidéo numérique, le module 6 de recherche contient un « client », qui permet à un utilisateur d’accéder aux différentes séquences des fichiers vidéo analysés en formulant une requête de recherche.Once the criterion for stopping the iterations has been fulfilled for at least one digital video file, the search module 6 contains a “client”, which allows a user to access the various sequences of the video files analyzed by formulating a search query .
Le module 6 de recherche constitue donc le niveau dit « front-end » du dispositif, c’est-à- dire par lequel l’utilisateur final interagit avec le dispositif, alors que les modules 1 à 5 en constituent le niveau dit « back-end », c’est-à-dire non visible par l’utilisateur final du dispositif. The research module 6 therefore constitutes the so-called “front-end” level of the device, that is to say through which the end user interacts with the device, while modules 1 to 5 constitute the so-called “back-end” level. -end”, i.e. not visible to the end user of the device.
Le module 6 de recherche peut communiquer avec un module 7 éditeur de vidéo, comprenant une interface de création, de montage et de visionnage d’extraits vidéo correspondant à des séquences virtuelles. The research module 6 can communicate with a video editor module 7, comprising an interface for creating, editing and viewing video extracts corresponding to virtual sequences.
Le module 6 de recherche permet au moins à l’utilisateur de formuler une requête de recherche et d’en visualiser le résultat. The search module 6 allows the user at least to formulate a search query and to visualize the result.
Lorsque le serveur de la base de données documentaire reçoit la requête ainsi formulée dans le client, une recherche, par mots-clés notamment, est effectuée sur les séquences de fichiers vidéo grâce à l’association {index primaire, index secondaire} fondée sur un lien d’héritage et grâce aux jeux de descripteurs qui ont été associés à chaque séquence de chaque fichier vidéo numérique lors de l’indexation secondaire. When the server of the documentary database receives the request thus formulated in the client, a search, by keywords in particular, is carried out on the sequences of video files thanks to the association {primary index, secondary index} based on a inheritance link and thanks to the sets of descriptors that have been associated with each sequence of each digital video file during secondary indexing.
La requête n’est pas une requête a priori basée sur un langage de base de données relationnelle, bien que cette possibilité puisse être envisagée. Il s’agit d’un requêtage du type utilisé par les moteurs de recherche, à savoir que la requête peut combiner une recherche en texte intégral, à facettes basée sur les descripteurs présents dans les index primaire et
secondaire et numérique (par exemple, des tris peuvent être faits sur des critères de type chronologiques). The query is not an a priori query based on a relational database language, although this possibility could be envisaged. This is a query of the type used by search engines, i.e. the query can combine a full-text, faceted search based on the descriptors present in the primary and secondary and numerical (for example, sorting can be done on chronological type criteria).
La requête de recherche peut être formulée par un utilisateur dans une interface utilisateur ou bien par un robot conversationnel (« chatbot » en anglais). The search query can be formulated by a user in a user interface or else by a conversational robot (“chatbot” in English).
Le résultat de la recherche est alors affiché dans l’interface graphique du module 6 de recherche et montage et il se présente non pas sous forme d’une liste de fichiers vidéo mais d’une liste de séquences de fichiers vidéo, classées par ordre de pertinence. The search result is then displayed in the graphical interface of the search and editing module 6 and it does not appear in the form of a list of video files but of a list of sequences of video files, classified in order of relevance.
La Fig. 3 représente les différentes interactions entre les modules et les services du procédé informatisé en lien avec les actions possibles de l’utilisateur. Fig. 3 represents the different interactions between the modules and the services of the computerized process in connection with the possible actions of the user.
Le principe est donc celui mis en œuvre pour les moteurs de recherche de sites web, qui permettent d’accéder directement aux pages qui composent les sites web, ou pour la constitution de playlists à partir d’un ensemble de fichiers audio dans lesquels des pistes ou chapitres sont prédéfinis. Toutefois, si ce principe est naturel pour ces deux types de médias, hautement structurés et conçus pour être indexés, il n’est pas utilisé pour tout type de fichier vidéo numérique en général, pour lesquels le choix a été fait historiquement de les indexer dans leur globalité du fait de la complexité de leur séquençage. The principle is therefore that implemented for website search engines, which allow direct access to the pages that make up the websites, or for the constitution of playlists from a set of audio files in which tracks or chapters are predefined. However, if this principle is natural for these two types of media, highly structured and designed to be indexed, it is not used for any type of digital video file in general, for which the choice has historically been made to index them in their globality due to the complexity of their sequencing.
Le dispositif permet en résumé de constituer un moteur de recherche de séquences de fichier vidéo numérique, le séquençage de fichiers vidéo sur laquelle la recherche est effectué étant dynamique, c’est-à-dire être créé ou modifié ou adapté à l’issue de la formulation d’une nouvelle requête de recherche. The device makes it possible in summary to constitute a search engine for digital video file sequences, the sequencing of video files on which the search is carried out being dynamic, that is to say to be created or modified or adapted at the end of formulating a new search query.
Ainsi, si l’on reprend l’exemple des matches de football, si l’utilisateur souhaite obtenir une vidéo composée de tous les buts marqués par le numéro 11 de l’équipe qui a gagné la Ligue 1 une année donnée en France, cela est possible grâce au procédé décrit ici, à partir de la seule donnée des fichiers vidéo complets des matches de ligue 1 en France et sans aucune intervention manuelle de sélection de séquence dans chacun des fichiers vidéo. Thus, if we take the example of football matches again, if the user wishes to obtain a video made up of all the goals scored by the number 11 of the team which won Ligue 1 in a given year in France, this is possible thanks to the process described here, from the only data of the complete video files of the league 1 matches in France and without any manual intervention of sequence selection in each of the video files.
Dans le domaine des cours en ligne, il est de même possible de composer une vidéo composée de séquences de vidéos issues de fichiers vidéo différents, traitant chacune du sujet des développements limités, mais en ne sélectionnant que les portions de fichiers vidéo qui traitent du développement de Taylor-Lagrange. Cela représente un gain de temps considérable, puisqu’il n’est plus nécessaire de visionner l’ensemble des fichiers vidéo pertinents alors que seules des portions (séquences) de ces fichiers vidéo sont réellement adaptées à la requête de recherche formulée. In the field of online courses, it is also possible to compose a video made up of sequences of videos from different video files, each dealing with the subject of limited developments, but by selecting only the portions of video files that deal with development. of Taylor-Lagrange. This represents a considerable time saving, since it is no longer necessary to view all the relevant video files when only portions (sequences) of these video files are really suitable for the search query formulated.
Le résultat de la recherche peut comprendre plusieurs séquences issues de plusieurs fichiers vidéo différents et/ou plusieurs séquences issues du même fichier vidéo numérique. The search result may include several sequences from several different video files and/or several sequences from the same digital video file.
On notera d’ailleurs qu’au moins dans le premier cas de figure, la notion de cohérence temporelle entre les séquences de fichiers vidéo issues de la recherche est absente, ce qui va
bien au-delà des possibilités des moteurs de recherche de vidéos actuels. Le chapitrage est alors un chapitrage à cheval sur plusieurs fichiers vidéo numériques. It should also be noted that at least in the first case, the notion of temporal coherence between the sequences of video files resulting from the search is absent, which goes far beyond the capabilities of current video search engines. The chaptering is then a chaptering straddling several digital video files.
La cohérence temporelle des séquences d’origine peut ne pas être respectée, même dans le cas où les séquences formant la liste retournée en réponse à la requête de recherche sont issues d’un même fichier vidéo numérique d’origine, puisque c’est la pertinence des séquences par rapport au critère de recherche qui fixe leur ordre d’apparition dans cette liste. La pertinence des séquences par rapport au critère de recherche est par exemple évaluée suivant des critères logiques et mathématiques, qui permettent d’attribuer un score à chaque séquence en fonction d’une requête. Les séquences sont alors présentées par ordre de score décroissant. Des étapes de filtrage préalables (langue, origine géographique, dates, ...) peuvent être prévues. The temporal consistency of the original sequences may not be respected, even in the case where the sequences forming the list returned in response to the search query come from the same original digital video file, since this is the relevance of the sequences with respect to the search criterion which fixes their order of appearance in this list. The relevance of the sequences in relation to the search criterion is for example evaluated according to logical and mathematical criteria, which make it possible to assign a score to each sequence according to a query. The sequences are then presented in descending order of score. Prior filtering steps (language, geographical origin, dates, etc.) may be provided.
Dans un mode de réalisation particulier, lors de l’indexation, un poids plus élevé est affecté aux descripteurs secondaires qu’aux descripteurs primaires pour que le résultat de la recherche se base plus sur le contenu de la séquence que sur le contenu du fichier vidéo numérique dans sa globalité. In a particular embodiment, during indexing, a higher weight is assigned to the secondary descriptors than to the primary descriptors so that the search result is based more on the content of the sequence than on the content of the video file digital as a whole.
Grâce à l’architecture d’indexation (primaire et secondaire), un utilisateur peut donc réaliser plusieurs tâches dynamiquement à partir de fonctionnalités de recherche en texte intégral, de concepts sémantiques, de thématiques ou de filtres/facettes multicritères. Thanks to the indexing architecture (primary and secondary), a user can therefore perform several tasks dynamically from full-text search functionalities, semantic concepts, themes or multi-criteria filters/facets.
Le module 6 de recherche peut comprendre une interface utilisateur, telle qu’un ordinateur, une tablette, un smartphone par exemple. The research module 6 can comprise a user interface, such as a computer, a tablet, a smartphone for example.
Le module 7 éditeur de vidéo peut comprendre une interface utilisateur, telle qu’un ordinateur, une tablette, un smartphone par exemple. The video editor module 7 can include a user interface, such as a computer, a tablet, a smartphone for example.
L’interface utilisateur peut être commune aux modules 6 et 7. The user interface can be common to modules 6 and 7.
L’utilisateur peut notamment, via l’une ou l’autre de ces interfaces : à partir de chaque séquence virtuelle, procéder à l’extraction de la séquence virtuelle à partir du fichier vidéo numérique pour produire un extrait vidéo qu’il peut visualiser, par exemple en streaming, ou enregistrer sous forme d’un nouveau fichier vidéo numérique. Dans le cas où un extrait vidéo est visualisé, il peut optionnellement visualiser simultanément les descripteurs, endogènes et/ou, le cas échéant exogènes, secondaires et/ou primaires associés à la séquence extraite. The user can in particular, via one or other of these interfaces: from each virtual sequence, extract the virtual sequence from the digital video file to produce a video extract that he can view , such as streaming, or saving as a new digital video file. In the case where a video extract is displayed, it can optionally simultaneously display the endogenous and/or, where appropriate exogenous, secondary and/or primary descriptors associated with the extracted sequence.
- Faire un résumé à partir d’un fichier vidéo (soit par le « natural language Processing » pour des cours en lignes, soit par la reconnaissance d’images pour résumé de séquences sportives) ; - Make a summary from a video file (either by "natural language Processing" for online courses, or by image recognition to summarize sports sequences);
Constituer des playlists en associant des séquences similaires et/ou des séquences réponses à une requête, ces séquences étant potentiellement issues de différents fichiers vidéo d’origine et organisées dans la playlist suivant un critère autre qu’un critère temporel ;
- Faire un montage virtuel en associant des séquences similaires et/ou des séquences réponses à une requête, ces séquences étant potentiellement issues de différents fichiers vidéo d’origine et organisées dans la playlist suivant un critère autre qu’un critère temporel ; Build playlists by associating similar sequences and/or sequences responding to a query, these sequences potentially coming from different original video files and organized in the playlist according to a criterion other than a temporal criterion; - Create a virtual edit by associating similar sequences and/or response sequences to a request, these sequences potentially being from different original video files and organized in the playlist according to a criterion other than a temporal criterion;
- Naviguer au sein de la playlist ou de la nouvelle vidéo ainsi montée, puisque ces dernières sont automatiquement chapitrées grâce au système d’indexation secondaire. Il est notamment possible de déclencher la lecture d’un chapitre au choix ou encore d’interrompre et de reprendre le défilement dynamique des extraits vidéo à partir d’une interface graphique adéquate. - Navigate within the playlist or the new video thus edited, since the latter are automatically chaptered thanks to the secondary indexing system. In particular, it is possible to trigger the playback of a chapter of your choice or even to interrupt and resume the dynamic scrolling of the video extracts from an appropriate graphical interface.
- Synchroniser les extraits vidéo avec un "second écran" de type tableau de bord présentant des informations enrichies provenant de métriques ou de statistiques, issues d’un calcul d’indicateurs extraits des extraits vidéo. L’analyse des données peut alors éventuellement être couplée avec l’analyse vidéo. Le tableau de bord peut aussi présenter d’autres informations, telles que des définitions ou des "en savoir plus" issu du web encyclopédique, des cartes géographiques, des graphes ... - Synchronize the video extracts with a "second screen" of the dashboard type presenting enriched information from metrics or statistics, resulting from a calculation of indicators extracted from the video extracts. Data analysis can then possibly be coupled with video analysis. The dashboard can also present other information, such as definitions or "find out more" from the encyclopedic web, geographical maps, graphs...
L’interface utilisateur peut comprendre une interface graphique 55 comprenant une zone 52 dédiée à la formulation de la requête de recherche et à l’affichage de ses résultats, une zone de visionnage des extraits vidéo (écran 1, référence 53), une seconde zone d’affichage (ou encore écran 2, référence 54), synchronisée avec l’écran 1 et une zone de télécommande virtuelle 51. The user interface can comprise a graphical interface 55 comprising a zone 52 dedicated to formulating the search query and displaying its results, a zone for viewing video extracts (screen 1, reference 53), a second zone display (or even screen 2, reference 54), synchronized with screen 1 and a virtual remote control zone 51.
Lorsqu’une playlist est obtenue, dans un mode de réalisation particulier, chaque marqueur de fin de séquence de chaque séquence virtuelle associée à un extrait de la playlist est : plurimodal principal ou When a playlist is obtained, in a particular embodiment, each end of sequence marker of each virtual sequence associated with an extract from the playlist is: main plurimodal or
- plurimodal secondaire et issu de trois modalités. - secondary multimodal and resulting from three modalities.
Cette disposition permet d’accroître la cohérence sémantique de la playlist dans son ensemble et sa cohérence par rapport au critère de recherche formulée. This arrangement makes it possible to increase the semantic consistency of the playlist as a whole and its consistency with respect to the search criterion formulated.
La navigation peut grâce au système d’indexation primaire et secondaire peut être étendue en-dehors de la playlist sélectionnée : il est par exemple possible, à partir d’une séquence donnée de la playlist, de prolonger la lecture du fichier vidéo numérique duquel est issu la séquence au-delà de cette séquence en déplaçant les marqueurs de début et/ou de fin de séquence. Navigation can, thanks to the primary and secondary indexing system, be extended outside the selected playlist: it is for example possible, from a given sequence of the playlist, to extend the playback of the digital video file from which from the sequence beyond this sequence by moving the start and/or end of sequence markers.
Des effets visuels, tels que, de manière non exhaustive, des ralentis, des agrandissements, des répétitions, peuvent être appliqués sur la playlist, soit au cours du visionnage, un ajout de texte, un arrêt sur image, etc., soit pour le montage d’un nouveau fichier vidéo numérique. Des effets sonores, tels qu’à titre non limitatif, la modification d’un fond sonore, un ajout de commentaire ou d’un autre son, peuvent être appliqués sur la playlist, soit au cours du visionnage, soit pour le montage d’un nouveau fichier vidéo numérique.
La constitution d’une playlist ou le montage d’une nouvelle vidéo peut être entièrement automatisée à partir de la formulation de la requête de recherche. Toutefois, comme le système se comporte comme une tête de lecture virtuelle qui se déplace dynamiquement de séquence en séquence, à tout moment, si l’interface graphique du module 6 lui en donne la possibilité, l’utilisateur peut agir sur la playlist ou la nouvelle vidéo. Visual effects, such as, in a non-exhaustive way, slow motions, enlargements, repetitions, can be applied to the playlist, either during viewing, an addition of text, a freeze frame, etc., or for the editing a new digital video file. Sound effects, such as, but not limited to, modifying a background sound, adding a commentary or another sound, can be applied to the playlist, either during viewing or for editing. a new digital video file. Building a playlist or editing a new video can be fully automated from the formulation of the search query. However, as the system behaves like a virtual playhead which moves dynamically from sequence to sequence, at any time, if the graphic interface of module 6 gives it the possibility, the user can act on the playlist or the new video.
Dans un mode de réalisation, l’interface graphique du module 7 éditeur de vidéo propose ainsi des options de navigation sous forme de lecteur vidéo amélioré permet d’accéder au résumé quand le résultat de la recherche est une vidéo entière ou d’un zapping interactif au sein des séquences sélectionnées et agrégées. Un mode de réalisation d’une telle interface graphique 55, pour le montage ou le visionnage d’une playlist, peut être visualisé sur la Fig. 5a. Des descripteurs sélectionnables sont positionnés à gauche de l’écran 1 de visionnage de la playlist, la playlist peut être affichée au-dessus de l’écran 1, les descripteurs liés à la recherche de l’utilisateur sont affichés au- dessus de la playlist. La télécommande virtuelle 51 se situe en dessous de la playlist. Un second écran en lien avec l’extrait vidéo correspondant à la séquence virtuelle en cours de visionnage se situe à droite de la playlist et permet d’afficher des graphiques ou d’autres informations utiles en lien avec la playlist. In one embodiment, the graphical interface of the video editor module 7 thus offers navigation options in the form of an improved video player allows access to the summary when the search result is an entire video or an interactive zapping within the selected and aggregated sequences. One embodiment of such a graphical interface 55, for editing or viewing a playlist, can be viewed in FIG. 5a. Selectable descriptors are positioned to the left of playlist viewing screen 1, the playlist can be displayed above screen 1, the descriptors related to the user's search are displayed above the playlist . Virtual remote control 51 is located below the playlist. A second screen linked to the video extract corresponding to the virtual sequence being viewed is located to the right of the playlist and allows you to display graphics or other useful information linked to the playlist.
La Fig. 5b représente un autre mode de réalisation de l’interface graphique du dispositif 8 dans lequel des descripteurs sélectionnables sont positionné à gauche de l’écran de visionnage de la playlist, la playlist est visionnée dans l’écran 1 (référence 53), les descripteurs liés à la recherche de l’utilisateur sont situés au-dessus de la playlist et la télécommande virtuelle 51 se situe en dessous de la playlist Fig. 5b shows another embodiment of the graphical interface of the device 8 in which selectable descriptors are positioned to the left of the screen for viewing the playlist, the playlist is viewed in screen 1 (reference 53), the descriptors related to the user's search are located above the playlist and the virtual remote 51 is located below the playlist
La Fig. 6 représente les actions effectuées lors de Futilisation de chaque bouton de la télécommande virtuelle sur un exemple de playlist créé à partir de trois fichiers vidéo numériques, la playlist étant composé à titre d’exemple de trois extraits différents. Fig. 6 represents the actions performed when using each button of the virtual remote control on an example of a playlist created from three digital video files, the playlist being composed by way of example of three different extracts.
La télécommande virtuelle comprend par exemple au moins 5 boutons virtuels. The virtual remote control comprises for example at least 5 virtual buttons.
Le bouton al permet le visionnage de l’extrait vidéo correspondant à la séquence en cours et l’arrêt du visionnage. The al button allows viewing of the video extract corresponding to the current sequence and stopping viewing.
Lors de la pression du bouton a2, la lecture de l’extrait vidéo correspondant à la séquence en cours de visionnage sera prolongée dans le fichier vidéo numérique d’origine au-delà de la durée prévue pour cette séquence, une seconde pression du bouton a2 alors que le visionnage n’a pas encore dépassé la limite temporelle prévue pour la séquence annule la pression première du bouton a2, une seconde pression du bouton a2 lors du visionnage du fichier vidéo numérique en dehors de la limite temporelle prévue, arrête le visionnage du fichier vidéo numérique d’origine et reprend la playlist à la séquence suivante. When button a2 is pressed, the playback of the video extract corresponding to the sequence being viewed will be extended in the original digital video file beyond the duration provided for this sequence, a second press of button a2 while viewing has not yet exceeded the time limit provided for the sequence cancels the first press of button a2, a second press of button a2 when viewing the digital video file outside the time limit provided, stops viewing of the original digital video file and resumes the playlist at the next sequence.
Le bouton a3 permet de revenir au début de la séquence précédant la séquence en cours de visionnage.
Le bouton a4 permet de revenir au début (au timecode du marqueur de début) de la séquence en cours de visionnage. Button a3 allows you to return to the start of the sequence preceding the sequence currently being viewed. The a4 button allows you to return to the start (at the timecode of the start marker) of the sequence currently being viewed.
Le bouton a5 permet d’arrêter le visionnage de la séquence en cours et lance la lecture de la séquence suivante. Button a5 stops viewing the current sequence and starts playing the next sequence.
D’autres boutons virtuels sont susceptibles d’être rajoutés : Other virtual buttons are likely to be added:
- Un bouton (« -N s »), qui permet de revenir N secondes en arrière du fichier vidéo numérique de la séquence en cours permettant de revoir une séquence ou de voir N secondes avant le marqueur de début de la séquence virtuelle en cours ; - A button (“-N s”), which allows you to go back N seconds in the digital video file of the current sequence, allowing you to review a sequence or to see N seconds before the start marker of the current virtual sequence;
- Un bouton virtuel (« + Ns »), ce bouton permet d’avancer de N secondes en avant du fichier vidéo numérique de la séquence en cours permettant de sauter une séquence ou de voir 10 secondes après le marqueur de fin de la séquence virtuelle en cours. - A virtual button ("+ Ns"), this button allows you to advance N seconds ahead of the digital video file of the current sequence allowing you to skip a sequence or see 10 seconds after the end marker of the virtual sequence In progress.
Les boutons virtuels permettent d’interagir avec les marqueurs de début et de fin de séquence en arrière-plan. Virtual buttons allow you to interact with the sequence start and end markers in the background.
La télécommande virtuelle permet donc une navigation souple au sein de la playlist automatique d’extraits vidéo de fichiers numériques, l’utilisateur pouvant à volonté visionner les extraits sélectionnés dans l’ordre de la playlist ou dans un ordre qui lui convient mieux voire étendre le visionnage d’un extrait avant ou après les marqueurs de découpe, et ce sans que des fichiers associés à chaque extrait ne soient créées et ne doivent être ouverts et/ou fermés pour passer d’un extrait à l’autre. Le confort et les potentialités de la navigation sont donc considérablement améliorées par rapport à ce qui est possible avec une playlist « statique » au sens de l’art antérieur. The virtual remote control therefore allows flexible navigation within the automatic playlist of video extracts from digital files, the user being able to view the selected extracts at will in the order of the playlist or in an order that suits him better or even extending the viewing an extract before or after the cut markers, without the files associated with each extract being created and having to be opened and/or closed to switch from one extract to another. The comfort and browsing potential are therefore considerably improved compared to what is possible with a “static” playlist within the meaning of the prior art.
Les Fig. 7a et Fig. 7b représentent deux exemples d’interface graphique 55. Figs. 7a and Figs. 7b represent two examples of graphical interface 55.
La figure 7a représente une interface graphique du procédé informatisé, comprenant un premier écran 53 pour le visionnage de la playlist, un second écran 54 pour un graphique en lien avec la séquence en cours de visionnage et une télécommande virtuelle 51 située en dessous des deux écrans pour naviguer dans la playlist (dans laquelle les extraits vidéos sont disposés à la suite les uns des autres), ainsi qu’un bouton servant à mettre en plein écran la playlist. FIG. 7a represents a graphic interface of the computerized method, comprising a first screen 53 for viewing the playlist, a second screen 54 for a graphic linked to the sequence being viewed and a virtual remote control 51 located below the two screens to navigate in the playlist (in which the video extracts are arranged one after the other), as well as a button used to put the playlist in full screen.
La figure 7b représente une interface graphique 56 du procédé informatisé, comprenant un premier écran 53 pour le visionnage de la playlist, un second écran 54 pour mettre des messages en lien avec la vidéo ou pour communiquer avec d’autres utilisateurs, une télécommande virtuelle 51 située en dessous des deux écrans pour naviguer dans la playlist et un bouton servant à mettre en plein écran la playlist. FIG. 7b represents a graphic interface 56 of the computerized method, comprising a first screen 53 for viewing the playlist, a second screen 54 for putting messages in connection with the video or for communicating with other users, a virtual remote control 51 located below the two screens to navigate in the playlist and a button used to put the playlist in full screen.
Lorsqu’un résultat de recherche ne comprend que des séquences virtuelles identifiées dans un seul et même fichier vidéo numérique, la playlist constituée d’extraits sur la base de ce résultat de recherche peut être exhaustive.
Elle peut aussi ne contenir que les extraits considérés comme essentiels par rapport à des critères de recherche spécifiés par Eutilisateur. When a search result includes only virtual sequences identified in one and the same digital video file, the playlist made up of extracts based on this search result can be exhaustive. It may also contain only extracts considered essential with respect to search criteria specified by the user.
Un score peut notamment être défini pour classer les séquences virtuelles de fichiers vidéo numériques en deux catégories : « essentiels » et « d’ornement » en fonction du nombre de descripteurs trouvés. In particular, a score can be defined to classify the virtual sequences of digital video files into two categories: "essential" and "ornamental" according to the number of descriptors found.
Lorsqu’un résultat de recherche comprend des séquences virtuelles issues de fichiers vidéo numériques différents, la playlist constituée d’extraits sur la base de ce résultat de recherche peut ne contenir que les extraits associés à des séquences virtuelles identifiées comme essentielles par rapport à des critères de recherche spécifiés par futilisateur. When a search result includes virtual sequences from different digital video files, the playlist made up of extracts based on this search result may contain only the extracts associated with virtual sequences identified as essential with respect to criteria user-specified searches.
La notion de résumé peut être définie par rapport à un domaine particulier. Dans le cas du sport, et en particulier du football, le résumé peut être construit à partir de mots-clés fournis par l’utilisateur ou définis au préalable, par exemple {but, carton jaune, carton rouge, changement de joueur, mi-temps}, les séquences pertinentes étant présentées dans l’ordre temporel du fichier vidéo numérique initiale dont elles sont issues. The concept of summary can be defined in relation to a particular domain. In the case of sport, and in particular football, the summary can be built from keywords provided by the user or defined beforehand, for example {goal, yellow card, red card, change of player, mid- time}, the relevant sequences being presented in the temporal order of the initial digital video file from which they originate.
Il est possible de naviguer dans cette playlist ou la nouvelle vidéo en sélectionnant ou désélectionnant certaines scènes, en vue d’un montage vidéo en temps réel, par exemple au travers d’une interface graphique comprenant une barre de menu et des boutons de contrôle activables par un clic souris, tels que « marche », « avance rapide », « arrêt », « sélection chapitre », ... It is possible to navigate in this playlist or the new video by selecting or deselecting certain scenes, with a view to real-time video editing, for example through a graphical interface comprising a menu bar and control buttons that can be activated by a mouse click, such as "start", "fast forward", "stop", "select chapter", ...
La recherche est possible en mode « plein texte » (ou encore « texte intégral ») et en mode recherche « à facettes », avec éventuellement une saisie semi-automatique. Les réponses facettées permettent d’affiner les critères de recherche et sont combinées avec des mots en texte intégral. The search is possible in "full text" mode (or even "full text") and in "faceted" search mode, with optional semi-automatic completion. Faceted answers help refine search criteria and are combined with full-text words.
Par exemple, pour l’exemple du domaine du football, il est possible de réaliser une playlist comportant des buts sur corners de toutes les équipes de ligue 1 en Lrance sur un an à domicile dans le dernier 1/4 d’heure de match en une durée de l’ordre de 10 fois inférieure à celle nécessaire sur une plateforme professionnelle (Instat/Dartfish/Sportscode couplés aux data providers Opta/Bombstats), et la playlist n’est composée que des séquences de matches pertinentes et non de la totalité des matches. For example, for the example of the field of football, it is possible to create a playlist including goals from corners of all the league 1 teams in France over a year at home in the last 1/4 hour of a match in a duration of around 10 times less than that required on a professional platform (Instat/Dartfish/Sportscode coupled with Opta/Bombstats data providers), and the playlist is only made up of relevant match sequences and not all of them matches.
Grâce au système d’indexation par héritage, les fichiers vidéo (dans l’exemple précédent, les matches) dont sont issues les séquences sont connues. Il est donc possible de prévoir une option permettant de visionner en partie ou en totalité les fichiers vidéo d’origine des séquences si nécessaire. Thanks to the inheritance indexing system, the video files (in the previous example, the matches) from which the sequences originate are known. It is therefore possible to provide an option to view all or part of the original video files of the sequences if necessary.
L’interfaçage entre le module 6 « front-end » et le niveau « back-end » composé des modules 1 à 5 peut se faire quel que soit le support du module 6 (ordinateur, tablette, smartphone, ... ) éventuellement sans recourir à une application propriétaire. Cela est
notamment réalisable avec des technologies accessibles en Open Source, telles que la bibliothèque React du JavaScript. The interfacing between module 6 "front-end" and the "back-end" level composed of modules 1 to 5 can be done whatever the support of module 6 (computer, tablet, smartphone, etc.) possibly without use a proprietary application. That is in particular achievable with technologies accessible in Open Source, such as the React JavaScript library.
Optionnellement, le dispositif peut être intégré à un réseau social, et proposer deux profils d’utilisation : les créateurs de fichiers vidéo par montage au moyen du module 7 éditeur de vidéo et les visionneurs (« followers ») qui suivent ces créateurs. Optionally, the device can be integrated into a social network, and offer two user profiles: the creators of video files by editing using the video editor module 7 and the viewers (“followers”) who follow these creators.
L’historique de navigation sur une playlist d’extraits de fichiers vidéo numériques obtenue suivant l’invention peut être enregistré. Il peut ensuite être partagé dans un réseau social ou utilisé pour monter de manière semi-automatique un nouveau fichier vidéo numérique.The browsing history on a playlist of excerpts from digital video files obtained according to the invention can be recorded. It can then be shared in a social network or used to semi-automatically edit a new digital video file.
La Fig. 8 représente une interface graphique du dispositif 8 comprenant un écran pour la représentation d’une carte mentale (« mindmap » en anglais) d’un répertoire de séquences ou de listes automatiques ou d’extraits ou de playlist enregistrés par l’utilisateur, une partie des sauvegardes étant publique et l’autre partie privée, en dessous de cet écran plusieurs onglets sont sélectionnables : Mindmap, Chatbot, Recherche par facette, Réseau social et éditeur vidéo. Fig. 8 represents a graphic interface of the device 8 comprising a screen for the representation of a mental map ("mindmap" in English) of a directory of sequences or automatic lists or extracts or playlist recorded by the user, a part of the backups being public and the other part private, below this screen several tabs are selectable: Mindmap, Chatbot, Search by facet, Social network and video editor.
La Fig. 9 représente une interface graphique 56 du dispositif 8, comprenant un écran pour la représentation du Chatbot interactif permettant d’effectuer une recherche de playlist ou de séquences au travers d’une discussion par mot clé, en dessous de cet écran plusieurs onglets sont sélectionnables : Mindmap, Chatbot, Recherche par facette, Réseau social et éditeur vidéo. Fig. 9 represents a graphic interface 56 of the device 8, comprising a screen for the representation of the interactive Chatbot making it possible to carry out a search for playlists or sequences through a discussion by keyword, below this screen several tabs are selectable: Mindmap, Chatbot, Facet Search, Social Network and Video Editor.
La Fig. 10 représente une interface graphique du dispositif 8, comprenant un écran pour la représentation de la recherche par facette, regroupant des descripteurs sous d’autres descripteurs plus généraux, permettant de rechercher par arborescence, en dessous de cet écran plusieurs onglets sont sélectionnables : Mindmap, Chatbot, Recherche par facette, Réseau social et éditeur vidéo. Fig. 10 represents a graphic interface of the device 8, comprising a screen for the representation of the search by facet, grouping descriptors under other more general descriptors, making it possible to search by tree structure, below this screen several tabs are selectable: Mindmap, Chatbot, Facet Search, Social Network and Video Editor.
La Fig. 11 représente une interface graphique du dispositif 8, comprenant un écran pour le réseau social intégré à l’invention, les utilisateurs partagent les playlists trouvées ou créées, en dessous de cet écran plusieurs onglets sont sélectionnables : Mindmap, Chatbot, Recherche par facette, Réseau social et éditeur vidéo. Fig. 11 represents a graphic interface of the device 8, comprising a screen for the social network integrated into the invention, the users share the playlists found or created, below this screen several tabs are selectable: Mindmap, Chatbot, Search by facet, Network social and video editor.
La Fig. 12 représente une interface graphique du dispositif informatisé 8, comprenant un écran pour l’édition de vidéo, l’utilisateur peut modifier l’ordre des extraits et intégrer les extraits qu’il souhaite dans une playlist, en dessous de cet écran plusieurs onglets sont sélectionnables : Mindmap, Chatbot, Recherche par facette, Réseau social et éditeur vidéo. Fig. 12 represents a graphic interface of the computerized device 8, comprising a screen for editing video, the user can modify the order of the extracts and integrate the extracts he wishes into a playlist, below this screen several tabs are selectable: Mindmap, Chatbot, Facet Search, Social Network and Video Editor.
LISTE DES SIGNES DE RÉFÉRENCE LIST OF REFERENCE SIGNS
1 : module d’acquisition 1: acquisition module
2 : module répartiteur 2: splitter module
3 : module d’analyse multimodale
3 a : analyseur suivant la modalité image 3b : analyseur suivant la modalité audio 3 c : analyseur suivant la modalité texte 3d : analyseur suivant la modalité action 4 : module d’enrichissement 3: multimodal analysis module 3 a: analyzer according to the image modality 3b: analyzer according to the audio modality 3 c: analyzer according to the text modality 3d: analyzer according to the action modality 4: enrichment module
4a : base de données libre d’accès et d’exploitation 4b : web services 4c : autre type de base de données 5 : module séquenceur 6 : client 4a: database free to access and use 4b: web services 4c: other type of database 5: sequencer module 6: client
7 : module éditeur vidéo 7: video editor module
8 : dispositif informatisé de séquençage de fichiers vidéo numériques 8: computerized device for sequencing digital video files
21 : marqueur de séquence candidat plurimodal principal 21: main multimodal candidate sequence marker
22 : marqueur de séquence candidat plurimodal secondaire tri-modalités 23 : marqueur de séquence candidat plurimodal secondaire bi-modalités 22: tri-modality secondary multimodal candidate sequence marker 23: bi-modality secondary multimodal candidate sequence marker
51 : télécommande virtuelle 51: virtual remote control
52 : zone dédiée à la formulation de la requête de recherche et à l’affichage de ses résultats52: area dedicated to formulating the search query and displaying its results
53 : zone de visionnage des extraits vidéo (écran 1) 53: viewing area for video extracts (screen 1)
54 : zone d’affichage synchronisée avec l’écran 1 55 : interface graphique utilisateur
54: display area synchronized with screen 1 55: graphical user interface
Claims
1. Procédé informatisé de dé-linéarisation audiovisuelle permettant un séquençage d’un ou plusieurs fichiers vidéo numériques et une indexation des séquences issues du séquençage, en découpant virtuellement par marquage temporel le ou les fichiers vidéo numériques en des séquences virtuelles, chaque séquence virtuelle étant définie par deux marqueurs temporels de séquence et des descripteurs associés, le procédé comprenant les étapes suivantes : a. réception d’un ou plusieurs fichiers vidéo numériques à analyser ; b. indexation de chacun desdits fichiers vidéo numériques dans un index primaire au moyen de descripteurs endogènes, dits primaires, associés permettant d’identifier chaque fichier vidéo numérique ; c. extraction automatique des flux de données audio, image, et texte de chacun desdits fichiers vidéo numériques ; d. au moyen d’une pluralité de dispositifs informatisés mettant en œuvre un algorithme d’apprentissage automatique choisis et/ou entraînés pour une typologie de fichiers vidéo numériques définie au préalable, analyse automatique, fichier par fichier de chacun desdits un ou plusieurs fichiers vidéo numériques, selon les quatre modalités : modalité image, modalité audio, modalité texte, modalité action permettant d’identifier les groupes d’images successives formant une action donnée, l’analyse produisant de manière automatique un ou plusieurs marqueurs temporels de découpe unimodaux pour chacune des modalités, un ou plusieurs descripteurs étant associés à chacun des marqueurs temporels de découpe unimodaux, e. production automatique, à l’issue de l’analyse de chacun desdits un ou plusieurs fichiers vidéo numériques, de marqueurs temporels de séquence candidats, dans le but de délimiter des séquences virtuelles, et des descripteurs associés à ces marqueurs temporels de séquence candidats, qui sont : 1. Computerized process of audiovisual de-linearization allowing sequencing of one or more digital video files and indexing of the sequences resulting from the sequencing, by virtually cutting by time stamping the digital video file(s) into virtual sequences, each virtual sequence being defined by two sequence time stamps and associated descriptors, the method comprising the following steps: a. receipt of one or more digital video files for analysis; b. indexing of each of said digital video files in a primary index by means of endogenous, so-called primary, associated descriptors making it possible to identify each digital video file; vs. automatically extracting audio, image, and text data streams from each of said digital video files; d. by means of a plurality of computerized devices implementing an automatic learning algorithm chosen and/or trained for a typology of digital video files defined beforehand, automatic analysis, file by file, of each of said one or more digital video files, according to the four modalities: image modality, audio modality, text modality, action modality making it possible to identify the groups of successive images forming a given action, the analysis automatically producing one or more unimodal cut-out temporal markers for each of the modalities , one or more descriptors being associated with each of the unimodal cutting time markers, e. automatic production, following the analysis of each of said one or more digital video files, of candidate sequence time markers, with the aim of delimiting virtual sequences, and descriptors associated with these candidate sequence time markers, which are :
- soit des marqueurs temporels de découpe unimodaux desdits fichiers vidéo numériques, et qui sont appelés à l’issue de cette étape marqueurs temporels de séquence candidats unimodaux ; - either unimodal cutting time markers of said digital video files, and which are called at the end of this step unimodal candidate sequence time markers;
- soit, pour chacun desdits fichiers vidéo numériques pris isolément, les codes temporels correspondants auxdits marqueurs temporels de découpe unimodaux sont comparés et, à chaque fois qu’au moins deux marqueurs temporels de découpe unimodaux issus de modalités d’analyse différentes sont séparés par un intervalle de temps inférieur à une durée
prédéterminée principale (T2), un marqueur temporel de séquence candidat plurimodal, en lien mathématique avec les au moins deux marqueurs de découpe unimodaux, est créé ; f. pour chacun desdits fichiers vidéo numériques analysés, en fonction d’une borne inférieure et d’une borne supérieure définies pour déterminer la durée minimale et la durée maximale de chaque séquence, par rapport à la typologie du ou des fichiers vidéo numériques, - either, for each of said digital video files taken in isolation, the time codes corresponding to said unimodal cutting time markers are compared and, each time that at least two unimodal cutting time markers resulting from different analysis modalities are separated by a time interval less than a duration predetermined principal (T2), a multimodal candidate sequence temporal marker, in mathematical connection with the at least two unimodal cut markers, is created; f. for each of said digital video files analyzed, according to a lower limit and an upper limit defined to determine the minimum duration and the maximum duration of each sequence, with respect to the typology of the digital video file(s),
- sélection automatique, parmi les marqueurs temporels de séquence candidats unimodaux ou plurimodaux, de paires de marqueurs de séquence, - automatic selection, among the unimodal or plurimodal candidate sequence temporal markers, of pairs of sequence markers,
- chaque paire de marqueurs de séquence présentant un marqueur de début de séquence et un marqueur de fin de séquence, de sorte que la durée de chaque séquence retenue soit comprise entre lesdites bornes inférieure et supérieure, - each pair of sequence markers having a start of sequence marker and an end of sequence marker, such that the duration of each sequence retained is between said lower and upper limits,
- ces paires de marqueurs de séquence étant associées aux descripteurs associés auxdits marqueurs temporels de séquence candidats sélectionnés, ces descripteurs étant dès lors dits « descripteurs endogènes secondaires » ; g. indexation, dans un index secondaire qui est en relation d’héritage par rapport audit index primaire, de toutes les paires de marqueurs de séquence au moyen des descripteurs associés permettant l’identification de chaque séquence, les séquences virtuelles étant identifiables et aptes à être recherchées au moins par les descripteurs endogènes secondaires et les descripteurs endogènes primaires. these pairs of sequence markers being associated with the descriptors associated with the said selected candidate sequence temporal markers, these descriptors therefore being referred to as “secondary endogenous descriptors”; g. indexing, in a secondary index which is in a relationship of inheritance with respect to said primary index, of all the pairs of sequence markers by means of the associated descriptors allowing the identification of each sequence, the virtual sequences being identifiable and able to be searched at least by the secondary endogenous descriptors and the primary endogenous descriptors.
2. Procédé informatisé de dé-linéarisation audiovisuelle suivant la revendication 1 caractérisé en ce qu’un extrait vidéo associé à une séquence virtuelle, obtenu par visualisation du fragment de fichier délimité par les deux marqueurs de séquence de la séquence virtuelle présente une unité de sens qui résulte de l’analyse automatique de chaque fichier vidéo numérique selon les quatre modalités et de la découpe virtuelle par rapport à cette analyse. 2. Computerized method of audiovisual de-linearization according to claim 1 characterized in that a video extract associated with a virtual sequence, obtained by viewing the file fragment delimited by the two sequence markers of the virtual sequence has a unit of meaning which results from the automatic analysis of each digital video file according to the four modalities and from the virtual cutting in relation to this analysis.
3. Procédé informatisé de dé-linéarisation audiovisuelle suivant la revendication 1 ou la revendication 2, dans lequel au moins un des deux marqueurs de séquence de chaque paire de marqueurs de séquence sélectionnée à l’étape f, est un marqueur temporel de séquence candidat plurimodal et est alors dit marqueur de séquence plurimodal, et avantageusement chaque marqueur de séquence de chaque paire de marqueurs de séquence sélectionnée est un marqueur de séquence plurimodal. 3. A computerized audio-visual de-linearization method according to claim 1 or claim 2, wherein at least one of the two sequence markers of each pair of sequence markers selected in step f, is a multimodal candidate sequence time marker and is then said to be a plurimodal sequence marker, and advantageously each sequence marker of each pair of sequence markers selected is a plurimodal sequence marker.
4. Procédé informatisé de dé-linéarisation audiovisuelle selon l’une des revendications 1 à 3, dans lequel à l’étape f, on distingue deux types de marqueurs de séquence plurimodaux :4. Computerized method of audiovisual de-linearization according to one of claims 1 to 3, in which in step f, two types of plurimodal sequence markers are distinguished:
- un marqueur de séquence plurimodal créé à partir de quatre marqueurs temporels de découpe unimodaux issus des quatre modalités différentes séparés deux-à-deux par un
intervalle de temps inférieur à ladite durée prédéterminée principale (T2) est dit marqueur de séquence plurimodal principal et - a multimodal sequence marker created from four unimodal cut-out temporal markers from the four different modalities separated two-by-two by one time interval less than said main predetermined duration (T2) is said to be the main plurimodal sequence marker and
- un marqueur de séquence plurimodal créé à partir de deux ou trois marqueurs temporels de découpe unimodaux issus d’autant de modalités parmi les quatre modalités, séparés deux-à- deux par un intervalle de temps inférieur à ladite durée prédéterminée principale (T2) est dit marqueur de séquence plurimodal secondaire. - a multimodal sequence marker created from two or three unimodal cutting temporal markers resulting from as many modalities among the four modalities, separated two-by-two by a time interval less than said main predetermined duration (T2) is said secondary multimodal sequence marker.
5. Procédé informatisé de dé-linéarisation audiovisuelle selon l’une des revendications 1 à 4, dans lequel au moins l’un des marqueurs de chaque paire de marqueurs de séquence est un marqueur de séquence plurimodal principal. 5. Computerized method of audiovisual de-linearization according to one of claims 1 to 4, in which at least one of the markers of each pair of sequence markers is a main multimodal sequence marker.
6. Procédé informatisé de dé-linéarisation audiovisuelle selon l’une des revendications 1 à 5, dans lequel la modalité action est une modalité d’au moins un des deux marqueurs de séquence de la paire de marqueurs de séquence sélectionnée. 6. Computerized method of audiovisual de-linearization according to one of claims 1 to 5, in which the action modality is a modality of at least one of the two sequence markers of the pair of sequence markers selected.
7. Procédé informatisé de dé-linéarisation audiovisuelle selon l’une des revendications 1 à 6, dans lequel des poids sont affectés à chacune des modalités pour la production des marqueurs de séquence candidats à l’étape e et/ou la sélection des marqueurs de séquence à l’étape f. 7. Computerized process for audiovisual de-linearization according to one of claims 1 to 6, in which weights are assigned to each of the modalities for the production of the candidate sequence markers in step e and/or the selection of the markers of sequence in step f.
8. Procédé informatisé de dé-linéarisation audiovisuelle suivant la revendication 7, dans lequel : 8. Computerized method of audiovisual de-linearization according to claim 7, in which:
- pour des fichiers vidéo numériques dans le domaine du sport, le poids de la modalité action est supérieur à celui de la modalité image, lui-même supérieur aux poids des modalités texte et audio, - for digital video files in the field of sport, the weight of the action modality is greater than that of the image modality, itself greater than the weight of the text and audio modalities,
- pour des fichiers vidéo à fort contenu informationnel par la parole, le poids de la modalité texte est supérieur à celui des trois autres modalités. - for video files with high informational content via speech, the weight of the text modality is greater than that of the other three modalities.
9. Procédé informatisé de dé-linéarisation audiovisuelle suivant l’une quelconque des revendications 1 à 8, dans lequel on affecte un poids aux descripteurs endogènes secondaires ainsi qu’aux descripteurs endogènes primaires pour caractériser leur importance dans les séquences, et ce poids est plus grand pour les descripteurs endogènes secondaires que celui des descripteurs endogènes primaires. 9. Computerized method of audiovisual de-linearization according to any one of claims 1 to 8, in which a weight is assigned to the secondary endogenous descriptors as well as to the primary endogenous descriptors to characterize their importance in the sequences, and this weight is more larger for secondary endogenous descriptors than for primary endogenous descriptors.
10. Procédé informatisé de dé-linéarisation audiovisuelle suivant l’une quelconque des revendications 1 à 9, dans lequel les descripteurs endogènes secondaires sont dits
« unimodaux » lorsqu’ils correspondent à une seule modalité et sont dits « plurimodaux » lorsqu’ils sont détectés pour plusieurs modalités. 10. Computerized method of audiovisual de-linearization according to any one of claims 1 to 9, in which the secondary endogenous descriptors are said "unimodal" when they correspond to a single modality and are said to be "multimodal" when they are detected for several modalities.
11. Procédé informatisé de dé-linéarisation audiovisuelle suivant l’une quelconque des revendications 1 à 10, dans lequel l’étape f présente ces sous étapes, pour chaque fichier vidéo numérique, pour réaliser les séquences virtuelles : i) - sélection d’un dernier marqueur de fin de séquence, notamment plurimodal, à partir de la fin du fichier vidéo numérique, 11. Computerized method of audiovisual de-linearization according to any one of claims 1 to 10, in which step f presents these sub-steps, for each digital video file, to produce the virtual sequences: i) - selection of a last end-of-sequence marker, in particular multimodal, from the end of the digital video file,
- et détermination de la présence d’un marqueur de séquence plurimodal à un code temporel compris entre deux codes temporels extrêmes, calculés par soustraction de la borne inférieure au code temporel du marqueur de fin sélectionné et par soustraction de la borne supérieure au code temporel du marqueur de fin sélectionné, - and determination of the presence of a multimodal sequence marker at a time code between two extreme time codes, calculated by subtracting the lower limit from the time code of the selected end marker and by subtracting the upper limit from the time code of the selected end marker,
- sélection du marqueur plurimodal comme dernier marqueur de début de séquence si la présence est confirmée, - selection of the plurimodal marker as the last sequence start marker if the presence is confirmed,
- sinon, détermination de la présence d’un marqueur unimodal dont la modalité est fonction de la typologie du fichier vidéo numérique entre les deux codes temporels extrêmes - otherwise, determination of the presence of a unimodal marker whose modality depends on the typology of the digital video file between the two extreme time codes
- sélection du marqueur unimodal comme dernier marqueur de début de séquence si la présence est confirmée, - selection of the unimodal marker as the last sequence start marker if the presence is confirmed,
- sinon, le dernier marqueur de début de séquence est désigné par la soustraction au code temporel du dernier marqueur de fin sélectionné de la borne supérieure ; ii) on réitère l’étape i) pour sélectionner un avant-dernier marqueur de début de séquence, le marqueur de début de séquence sélectionné à l’issue de l’étape i précédente jouant le rôle de dernier marqueur de fin de séquence sélectionné au début de l’étape i précédente ; iii) on réitère ainsi de suite la sous-étape ii) jusqu’au début du fichier vidéo numérique.otherwise, the last sequence start marker is designated by subtracting the last selected end marker from the upper limit from the time code; ii) step i) is repeated to select a penultimate sequence start marker, the sequence start marker selected at the end of the previous step i playing the role of last sequence end marker selected at beginning of the previous step i; iii) sub-step ii) is repeated in this way until the start of the digital video file.
12. Procédé informatisé de dé-linéarisation audiovisuelle suivant l’une quelconque des revendications 1 à 11, dans lequel ladite durée prédéterminée principale (T2) est inférieure à 5 secondes, et optionnellement ladite durée maximale de chaque séquence sélectionnée est égale à deux minutes. 12. Computerized method of audiovisual de-linearization according to any one of claims 1 to 11, in which said main predetermined duration (T2) is less than 5 seconds, and optionally said maximum duration of each selected sequence is equal to two minutes.
13. Procédé informatisé de dé-linéarisation audiovisuelle suivant l’une quelconque des revendications 1 à 12, dans lequel au moins une étape supplémentaire d’enrichissement de l’indexation des séquences virtuelles par des descripteurs secondaires exogènes est effectuée à l’étape g.
13. Computerized method of audiovisual de-linearization according to any one of claims 1 to 12, in which at least one additional step of enriching the indexing of the virtual sequences by exogenous secondary descriptors is carried out in step g.
14. Procédé informatisé de dé-linéarisation audiovisuelle selon l’une des revendications précédentes, dans lequel les descripteurs secondaires au moyen desquels les séquences identifiées sont indexées sont enrichis d’un indicateur chiffré ou lettré, tel qu’un score global d’une carte de collection numérique, calculé pour chaque séquence virtuelle à partir des descripteurs secondaires de la séquence et/ou des descripteurs primaires du fichier vidéo numérique dans lequel la séquence a été identifiée. 14. Computerized method of audiovisual de-linearization according to one of the preceding claims, in which the secondary descriptors by means of which the identified sequences are indexed are enriched with a numerical or lettered indicator, such as an overall score of a card of digital collection, calculated for each virtual sequence from the secondary descriptors of the sequence and/or the primary descriptors of the digital video file in which the sequence was identified.
15. Procédé informatisé de dé-linéarisation audiovisuelle suivant l’une quelconque des revendications 1 à 14, dans lequel la modalité action comprend les sous- modalités {détection de changement de plans, détection d’action suivant une typologie de fichiers vidéo numérique}, et en ce que chacune des sous-modalités de la modalité action permet de générer un jeu particulier de marqueurs temporels de découpe unimodaux. 15. Computerized method of audiovisual de-linearization according to any one of claims 1 to 14, in which the action modality comprises the sub-modalities {detection of change of shots, detection of action according to a typology of digital video files}, and in that each of the sub-modalities of the action modality makes it possible to generate a particular set of unimodal cutting time markers.
16. Procédé informatisé de séquençage et d’indexation suivant l’une quelconque des revendications précédentes, dans lequel l’analyse suivant la modalité audio comprend la détection de bruit, la détection de musique et/ou la transcription de la parole en un flux texte. 16. A computerized sequencing and indexing method according to any preceding claim, wherein the analysis according to the audio modality comprises noise detection, music detection and/or transcription of speech into a text stream .
17. Procédé informatisé de séquençage et d’indexation suivant l’une quelconque des revendications précédentes, dans lequel l’analyse suivant la modalité image comprend les sous-modalités { reconnaissance de forme ou d’objets ; agrégation de plans ; reconnaissance optique de caractères}, et en ce que chacune des sous-modalités de la modalité image permet de générer un jeu particulier de descripteurs unimodaux. 17. Computerized sequencing and indexing method according to any one of the preceding claims, in which the analysis according to the image modality comprises the sub-modalities { shape or object recognition; plan aggregation; optical character recognition}, and in that each of the sub-modalities of the image modality makes it possible to generate a particular set of unimodal descriptors.
18. Procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques, avec un flux de transmission de données, les fichiers vidéo numériques étant indexés dans un index primaire stocké dans une base de données documentaire contenant les fichiers vidéo numériques, avec des descripteurs primaires, les fichiers vidéo numériques ayant, au préalable et au moyen du procédé informatisé de dé linéarisation audiovisuelle suivant l’une quelconque des revendications 1 à 17, été découpés virtuellement par marquage temporel en des séquences virtuelles qui sont définies par deux marqueurs temporels de séquence formant une paire de marqueurs de séquence et par des descripteurs secondaires associés, les paires de marqueurs de séquence virtuelle et les descripteurs secondaires associés étant mémorisés dans un index secondaire stocké dans une base de données documentaire,
l’index secondaire étant en relation d’héritage avec l’index primaire, ces index étant accessibles via une interface graphique, le procédé comprenant : 18. Computerized method for automatically producing an ordered playlist of video extracts from digital video files, with a data transmission stream, the digital video files being indexed in a primary index stored in a documentary database containing the video files digital, with primary descriptors, the digital video files having, beforehand and by means of the computerized process of audiovisual delinearization according to any one of Claims 1 to 17, been cut virtually by time stamping into virtual sequences which are defined by two sequence time markers forming a pair of sequence markers and by associated secondary descriptors, the pairs of virtual sequence markers and the associated secondary descriptors being stored in a secondary index stored in a documentary database, the secondary index being in an inheritance relationship with the primary index, these indexes being accessible via a graphical interface, the method comprising:
1. la formulation d’au moins une requête de recherche ; 1. the formulation of at least one search query;
2. la transmission de ladite requête de recherche à un serveur de recherche associé à ladite base de données ; 2. transmitting said search query to a search server associated with said database;
3. la détermination et la réception à partir de la base de données documentaire dudit serveur, en réponse à ladite requête de recherche transmise, du résultat de recherche qui est une liste automatique de paires de marqueurs temporels de séquences et des descripteurs associés, suivant un ordre qui est fonction des descripteurs associés à chaque séquence virtuelle et de la formulation de la requête de la recherche, les séquences virtuelles étant identifiables et aptes à être recherchées par les descripteurs secondaires et les descripteurs primaires ;3. determining and receiving from the documentary database of said server, in response to said transmitted search request, the search result which is an automatic list of pairs of time stamps of sequences and associated descriptors, according to a order which is a function of the descriptors associated with each virtual sequence and of the formulation of the search query, the virtual sequences being identifiable and able to be searched by the secondary descriptors and the primary descriptors;
4. l’affichage et le visionnage à partir d’une télécommande virtuelle de la playlist qui présente tous les extraits vidéo associés à la liste automatique ordonnée de paires de marqueurs temporels et reçue lors de l’étape 3, sans création de nouveau fichier vidéo numérique, la télécommande virtuelle permettant la navigation sur la playlist, chaque extrait vidéo de la playlist : 4. the display and viewing from a virtual remote control of the playlist which presents all the video extracts associated with the ordered automatic list of pairs of time markers and received during step 3, without creating a new video file digital, the virtual remote control allowing navigation on the playlist, each video extract from the playlist:
- étant associé à une séquence virtuelle, et - being associated with a virtual sequence, and
- étant appelé lors du visionnage de la playlist, via le flux de transmission de données à partir du fichier vidéo numérique indexé dans l’index primaire, dans lequel a été identifiée ladite séquence virtuelle indexée dans l’index secondaire.- being called when viewing the playlist, via the data transmission stream from the digital video file indexed in the primary index, in which said virtual sequence indexed in the secondary index has been identified.
19. Procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon la revendication 18, dans lequel : 19. A computerized method for automatically producing an ordered playlist of video extracts from digital video files according to claim 18, in which:
-lorsque les paires de marqueurs temporels de séquence virtuelle constituant la liste automatique sont identifiés dans un seul fichier vidéo numérique, le procédé produit via le flux de transmission une playlist résumé avec une sélection d’extraits vidéo de ce fichier vidéo numérique en fonction de critères spécifiés par l’utilisateur lors de sa recherche, - when the pairs of virtual sequence time markers constituting the automatic list are identified in a single digital video file, the method produces via the transmission stream a summary playlist with a selection of video extracts from this digital video file according to criteria specified by the user during his search,
-lorsque les paires de marqueurs temporels de séquence virtuelle constituant la liste automatique sont identifiés dans plusieurs fichiers vidéo numériques, le procédé produit via le flux de transmission une playlist d’extraits vidéo associés aux séquences virtuelles dite « zapping », de ces fichiers numériques avec une sélection des extraits vidéo en fonction de critères spécifiés par l’utilisateur lors de sa recherche. when the pairs of virtual sequence time markers constituting the automatic list are identified in several digital video files, the method produces via the transmission stream a playlist of video extracts associated with the so-called “zapping” virtual sequences, of these digital files with a selection of video extracts according to criteria specified by the user during his search.
20. Procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon la revendication 18 ou la revendication 19, dans lequel le
procédé permet les opérations suivantes de navigation à partir de la télécommande virtuelle et du flux de transmission de données : a. lecture, arrêt et reprise de l’extrait en cours de visionnage de la playlist qui comporte tous les extraits vidéo associés à la liste automatique obtenue à l’étape 3; b. pointage d’un extrait dans la playlist qui comporte tous les extraits vidéo, par avance rapide ou retour rapide ; c. sortie temporaire de l’extrait de la playlist qui comporte tous les extraits vidéo, pour visionner le fichier vidéo numérique d’origine de l’extrait, sans contraintes temporelles liées aux marqueurs temporels de début et de fin de la séquence virtuelle associée à l’extrait vidéo. 20. A computerized method for automatically producing an ordered playlist of video extracts from digital video files according to claim 18 or claim 19, in which the method allows the following navigation operations from the virtual remote control and the data transmission stream: a. playing, stopping and resuming the current extract of the playlist which comprises all the video extracts associated with the automatic list obtained in step 3; b. pointing to an extract in the playlist that includes all the video extracts, by fast forward or fast reverse; vs. temporary output of the extract from the playlist which includes all the video extracts, to view the original digital video file of the extract, without temporal constraints linked to the start and end time markers of the virtual sequence associated with the video extract.
21. Procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon la revendication 20, dans lequel le procédé permet l’opération additionnelle suivante : d. nouvelle sortie temporaire du visionnage du fichier vidéo numérique d’origine de l’extrait en cours de lecture depuis l’opération c), pour visionner lors de l’étape d) un résumé créé automatiquement et préalablement à ce visionnage à partir de ce seul fichier numérique d’origine. 21. A computerized method for automatically generating an ordered playlist of video clips from digital video files according to claim 20, wherein the method allows the following additional operation: d. new temporary output from the viewing of the original digital video file of the extract being played from operation c), to view during step d) a summary created automatically and prior to this viewing from this single original digital file.
22. Procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon l’une des revendications 20 et 21, dans lequel le procédé permet l’opération additionnelle suivante : e. enregistrement de l’historique de navigation sur la playlist des séquences vidéo et création d’un nouveau fichier numérique qui est cet historique de navigation. 22. Computerized process for the automatic production of an ordered playlist of video extracts from digital video files according to one of claims 20 and 21, in which the process allows the following additional operation: e. recording of browsing history on the playlist of video sequences and creation of a new digital file which is this browsing history.
23. Procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon l’une des revendications 18 à 22, dans lequel ladite requête de recherche formulée à l’étape 1 est multicritères, et combine une recherche sur le texte intégral, une recherche à facettes et en ce que les critères pour réaliser l’ordre pour ladite playlist automatique comprennent des critères chronologiques et/ou sémantiques et/ou de pertinence. 23. Computerized method for the automatic production of an ordered playlist of video extracts from digital video files according to one of claims 18 to 22, in which said search query formulated in step 1 is multi-criteria, and combines a search on the full text, a faceted search and in that the criteria for achieving the order for said automatic playlist include chronological and/or semantic and/or relevance criteria.
24. Procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon l’une des revendications 18 à 23, dans lequel ladite requête de recherche formulée à l’étape 1 est effectuée de manière automatique à partir d’un ou plusieurs critères spécifiés par l’utilisateur choisis dans une liste comprenant : la durée souhaitée d’une playlist automatique ainsi que des critères sémantiques.
24. Computerized method for the automatic production of an ordered playlist of video extracts from digital video files according to one of claims 18 to 23, in which said search query formulated in step 1 is carried out automatically from one or more user-specified criteria chosen from a list comprising: the desired duration of an automatic playlist as well as semantic criteria.
25. Procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon l’une des revendications 18 à 24, dans lequel ladite requête de recherche formulée à l’étape 1 est réalisée par un robot conversationnel. 25. Computerized method for the automatic production of an ordered playlist of video extracts from digital video files according to one of claims 18 to 24, in which the said search query formulated in step 1 is carried out by a conversational robot.
26. Procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon l’une des revendications 18 à 25, comprenant une étape de visualisation dans laquelle l’utilisateur visualise sur un premier écran un extrait vidéo de la playlist, et des descripteurs de la séquence virtuelle associée à l’extrait vidéo sur un deuxième écran synchronisé avec l’extrait vidéo. 26. Computerized method for the automatic production of an ordered playlist of video extracts from digital video files according to one of claims 18 to 25, comprising a viewing step in which the user displays on a first screen a video extract from the playlist, and descriptors of the virtual sequence associated with the video extract on a second screen synchronized with the video extract.
27. Procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon l’une des revendications 18 à 26, comprenant une étape de visualisation dans laquelle les descripteurs associés aux séquences virtuelles sont visualisés sur les extraits. 27. Computerized method for the automatic production of an ordered playlist of video extracts from digital video files according to one of claims 18 to 26, comprising a viewing step in which the descriptors associated with the virtual sequences are displayed on the extracts.
28. Procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon l’une des revendications 18 à 27, dans lequel la technologie utilisée est ElasticSearch. 28. Computerized process for the automatic production of an ordered playlist of video extracts from digital video files according to one of claims 18 to 27, in which the technology used is ElasticSearch.
29. Procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon l’une des revendications 18 à 28, dans lequel le procédé accède aux fichiers vidéos en mode « streaming ». 29. Computerized process for the automatic production of an ordered playlist of video extracts from digital video files according to one of claims 18 to 28, in which the process accesses the video files in “streaming” mode.
30. Liste automatique de paires de marqueurs de séquence et des descripteurs associés issus du procédé de procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon l’une des revendications 18 à 29, présentant des descripteurs endogènes et exogènes cohérents avec la requête de recherche. 30. Automatic list of pairs of sequence markers and associated descriptors resulting from the method of computerized process for the automatic production of an ordered playlist of video extracts from digital video files according to one of claims 18 to 29, presenting endogenous descriptors and exogenous consistent with the search query.
31. Liste automatique de paires de marqueurs de séquence et des descripteurs associés selon la revendication 30, dans laquelle les marqueurs temporels de séquence sont déterminés par une approche multimodale par analyse automatique, fichier par fichier de chacun desdits un ou plusieurs fichiers vidéo numériques, selon au moins deux des quatre modalités : modalité image, modalité audio, modalité texte, modalité action.
31. An automatic list of sequence marker pairs and associated descriptors according to claim 30, in which the sequence time markers are determined by a multimodal approach by automatic analysis, file by file of each of said one or more digital video files, according to at least two of the four modalities: image modality, audio modality, text modality, action modality.
32. Liste automatique de paires de marqueurs de séquence et des descripteurs associés selon l’une des revendications 30 et 31, dans laquelle au moins deux marqueurs temporels de séquence sont déterminés de façon aléatoire ou unimodale. 32. Automatic list of pairs of sequence markers and associated descriptors according to one of claims 30 and 31, in which at least two sequence time markers are determined randomly or unimodally.
33. Procédé informatisé de montage avec découpe virtuelle sans création de fichier vidéo numérique, à partir du procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon l’une des revendications 18 à 29, comprenant les étapes suivantes : 33. Computerized method of editing with virtual cutting without creating a digital video file, from the computerized method for the automatic production of an ordered playlist of video extracts from digital video files according to one of claims 18 to 29, comprising the steps following:
I. production automatique d’au moins une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques et enregistrement de l’au moins une liste automatique ordonnée de paires de marqueurs temporels de séquence et des descripteurs associés issus de cette production, sans création de fichier vidéo numérique ; I. automatic production of at least one ordered playlist of video extracts from digital video files and recording of the at least one automatic ordered list of sequence time stamp pairs and associated descriptors resulting from this production, without file creation digital video;
II. navigation sur l’au moins une playlist automatique d’extraits vidéo de fichiers vidéo numériques par flux de transmission des données ; II. navigation on the at least one automatic playlist of video extracts from digital video files per data transmission stream;
III. sélection par l’utilisateur d’une ou plusieurs séquences virtuelles associée à l’au moins une playlist automatique d’extraits vidéo de fichiers vidéo numériques, pour réaliser une nouvelle playlist d’extraits vidéo dont l’ordre est modifiable par l’utilisateur. III. selection by the user of one or more virtual sequences associated with at least one automatic playlist of video extracts from digital video files, to create a new playlist of video extracts whose order can be modified by the user.
34. Procédé informatisé de montage avec découpe virtuelle selon la revendication précédente 33, comprenant l’une des étapes suivantes : 34. Computerized method of assembly with virtual cutting according to the preceding claim 33, comprising one of the following steps:
- modification de ladite nouvelle playlist automatique d’extraits vidéo par ajout et/ou retrait d’extraits vidéo à ladite nouvelle playlist ; - modification of said new automatic playlist of video extracts by adding and/or removing video extracts to said new playlist;
- modification d’un ou de plusieurs extraits vidéo par prolongation ou réduction de la durée des séquences virtuelles associées aux extraits vidéo de ladite nouvelle playlist, par déplacement des marqueurs de début et de fin de chaque séquence virtuelle ; - modification of one or more video extracts by extending or reducing the duration of the virtual sequences associated with the video extracts of the said new playlist, by moving the start and end markers of each virtual sequence;
- modification des extraits vidéo par un effet visuel ou un effet sonore. - modification of the video extracts by a visual effect or a sound effect.
35. Utilisation des extraits vidéo ou d’une playlist d’extraits vidéo obtenue par le procédé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon l’une des revendications 18 à 29, ou par le procédé de montage avec découpe virtuelle selon l’une quelconque des revendications 33 à 34, dans un réseau social ou dans un moteur de recherche. 35. Use of the video extracts or of a playlist of video extracts obtained by the method for automatically producing an ordered playlist of video extracts from digital video files according to one of claims 18 to 29, or by the method of assembly with virtual cutout according to any one of Claims 33 to 34, in a social network or in a search engine.
36. Système informatisé comprenant : i. Au moins un module (1) d’acquisition d’un ou plusieurs fichiers vidéo numériques ; ii. Au moins un module (2) répartiteur ; iii. Au moins un module (3) d’analyse multimodale ;
iv. Au moins un module (5) de séquençage générant des séquences de fichiers vidéo numériques indexées ; v. Au moins un module (6) de recherche comprenant un client permettant de formuler une requête de recherche, pour la mise en œuvre des étapes : 36. Computerized system including: i. At least one module (1) for acquiring one or more digital video files; ii. At least one dispatcher module (2); iii. At least one multimodal analysis module (3); iv. At least one sequencing module (5) generating sequences of indexed digital video files; v. At least one search module (6) comprising a client making it possible to formulate a search query, for the implementation of the steps:
1. On reçoit par l’intermédiaire du module (1) d’acquisition un ou plusieurs fichiers vidéo numériques à analyser ; 1. One or more digital video files to be analyzed are received via the acquisition module (1);
2. On indexe de manière automatique chacun desdits fichiers vidéo numériques dans un index primaire, à partir des descripteurs endogènes, dits primaires, dudit fichier vidéo numérique ; 2. Each of said digital video files is automatically indexed in a primary index, based on the endogenous, so-called primary, descriptors of said digital video file;
3. On extrait les flux de données audio, images et texte de chacun desdits un ou plusieurs fichiers vidéo numériques ; 3. The audio, image and text data streams are extracted from each of said one or more digital video files;
4. Au moyen d’une pluralité de réseaux de neurones choisis et/ou entraînés pour une typologie de fichiers vidéo définie au préalable et contenus dans le module (3) d’analyse multimodale, on réalise une analyse fichier par fichier de chacun desdits un ou plusieurs fichiers vidéo numériques selon les quatre modalités : modalité image, modalité audio, modalité texte, modalité action, l’analyse produisant de manière automatique un ou plusieurs marqueurs temporels de découpe unimodaux pour chacune des modalités, un ou plusieurs descripteurs étant associés à chacun des marqueurs temporels de découpe unimodaux; 4. By means of a plurality of neural networks chosen and/or trained for a typology of video files defined beforehand and contained in the multimodal analysis module (3), a file-by-file analysis is carried out of each of said one or several digital video files according to the four modalities: image modality, audio modality, text modality, action modality, the analysis automatically producing one or more unimodal cutting time markers for each of the modalities, one or more descriptors being associated with each unimodal cut-out time markers;
5. On fournit, à l’issue de l’analyse de chacun desdits un ou plusieurs fichiers vidéo numériques, des marqueurs temporels de séquence candidats, dans le but de déterminer des séquences virtuelles, et les descripteurs associés à ces marqueurs temporels de séquence candidats, qui sont : 5. At the end of the analysis of each of said one or more digital video files, candidate sequence time markers are provided, with the aim of determining virtual sequences, and the descriptors associated with these candidate sequence time markers , which are :
- soit des marqueurs temporels de découpe unimodaux desdits fichiers vidéo numériques, qui sont appelés à l’issue de cette étape marqueurs temporels de séquence candidats unimodaux ; - either unimodal cutting time markers of said digital video files, which are called at the end of this step unimodal candidate sequence time markers;
- soit pour chacun desdits fichiers vidéo numériques pris isolément, on compare les codes temporels correspondant auxdits marqueurs temporels de découpe unimodaux et, à chaque fois qu’au moins deux marqueurs de découpe unimodaux issus de modalités d’analyse différentes sont séparés par un intervalle de temps inférieur à une durée prédéterminée principale (T2), on crée un marqueur de séquence candidat plurimodal en lien mathématique avec les au moins deux marqueurs temporels de découpe unimodaux ; - either for each of said digital video files taken in isolation, the time codes corresponding to said unimodal cut-out time markers are compared and, each time that at least two unimodal cut-out markers from different analysis modalities are separated by an interval of time less than a main predetermined duration (T2), a multimodal candidate sequence marker is created in mathematical connection with the at least two unimodal cut-out temporal markers;
6. Pour chacun desdits fichiers vidéo numériques analysés, on définit en fonction de la typologie dudit fichier vidéo numérique une borne inférieure et une borne supérieure pour la durée d’une séquence et on sélectionne de manière automatique parmi les marqueurs de
séquence candidats des paires de marqueurs de séquence, dits marqueurs de début et de fin de séquence, chaque paire de marqueurs de séquence présentant un marqueur de début de séquence et un marqueur de fin de séquence, de sorte que la durée de chaque séquence retenue soit comprise entre lesdites bornes inférieure et supérieure, ces paires de marqueurs de séquence étant associées aux descripteurs associés auxdits marqueurs temporels de séquence candidats sélectionnés, ces descripteurs étant dès lors dits « descripteurs endogènes secondaires »; 6. For each of said analyzed digital video files, a lower limit and an upper limit are defined according to the type of said digital video file for the duration of a sequence and an automatic selection is made from among the markers of candidate sequence of the pairs of sequence markers, called start and end of sequence markers, each pair of sequence markers presenting a start of sequence marker and an end of sequence marker, so that the duration of each sequence retained is between said lower and upper limits, these pairs of sequence markers being associated with the descriptors associated with the said selected candidate sequence temporal markers, these descriptors therefore being called “secondary endogenous descriptors”;
7. On indexe au moyen du module (5) de séquençage dans un index secondaire qui est en relation d’héritage par rapport audit index primaire, toutes les paires de marqueurs de séquence au moyen des descripteurs associés permettant G identification de chaque séquence, les séquences étant identifiables et aptes à être recherchés au moins par les descripteurs endogènes secondaires et les descripteurs endogènes primaires ; 8. On formule une requête de recherche de séquences de fichiers vidéo numériques au moyen du module de recherche (6) ; chacun desdits modules (1) à (6) comprenant les moyens de calculs nécessaires, chacun desdits modules (1), (3), (5) et (6) communiquant avec ledit module (2) répartiteur et ledit module (2) répartiteur gérant la répartition des calculs entre lesdits modules (1), (3), (5) et (6). 7. By means of the sequencing module (5), in a secondary index which is in a relationship of inheritance with respect to said primary index, all the pairs of sequence markers are indexed by means of the associated descriptors allowing G identification of each sequence, the sequences being identifiable and able to be searched at least by the secondary endogenous descriptors and the primary endogenous descriptors; 8. A search query for sequences of digital video files is formulated by means of the search module (6); each of said modules (1) to (6) comprising the necessary calculation means, each of said modules (1), (3), (5) and (6) communicating with said dispatcher module (2) and said dispatcher module (2) managing the distribution of calculations between said modules (1), (3), (5) and (6).
37. Système suivant la revendication 36 comprenant en outre au moins un module (4) d’enrichissement des descripteurs primaires des fichiers vidéo et/ou secondaires des séquences virtuelles de fichier vidéo numérique par des descripteurs complémentaires exogènes. 37. System according to claim 36 further comprising at least one module (4) for enriching the primary descriptors of the video files and/or secondary descriptors of the virtual sequences of digital video files by exogenous complementary descriptors.
38. Système suivant la revendication 36 ou la revendication 37 comprenant en outre un module (7) éditeur de vidéo communiquant avec le module (6) de recherche.
38. A system according to claim 36 or claim 37 further comprising a video editor module (7) communicating with the search module (6).
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR2107439A FR3125193A1 (en) | 2021-07-08 | 2021-07-08 | Computerized process of audiovisual de-linearization |
PCT/EP2022/068798 WO2023280946A1 (en) | 2021-07-08 | 2022-07-06 | Computer-implemented method for delivering audio-visual media on-demand |
Publications (1)
Publication Number | Publication Date |
---|---|
EP4335111A1 true EP4335111A1 (en) | 2024-03-13 |
Family
ID=78649350
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP22748259.3A Pending EP4335111A1 (en) | 2021-07-08 | 2022-07-06 | Computer-implemented method for delivering audio-visual media on-demand |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP4335111A1 (en) |
FR (1) | FR3125193A1 (en) |
WO (1) | WO2023280946A1 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116233104B (en) * | 2023-05-10 | 2023-07-21 | 广州耐奇电气科技有限公司 | Internet of things big data thermal monitoring system based on elastic search and monitoring device thereof |
CN116646911B (en) * | 2023-07-27 | 2023-10-24 | 成都华普电器有限公司 | Current sharing distribution method and system applied to digital power supply parallel mode |
CN117478824B (en) * | 2023-12-27 | 2024-03-22 | 苏州元脑智能科技有限公司 | Conference video generation method and device, electronic equipment and storage medium |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6714909B1 (en) | 1998-08-13 | 2004-03-30 | At&T Corp. | System and method for automated multimedia content indexing and retrieval |
ATE423354T1 (en) * | 2002-04-02 | 2009-03-15 | Verizon Business Global Llc | MESSAGE RESPONSE SYSTEM |
US10331661B2 (en) * | 2013-10-23 | 2019-06-25 | At&T Intellectual Property I, L.P. | Video content search using captioning data |
US9253511B2 (en) * | 2014-04-14 | 2016-02-02 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and methods for performing multi-modal video datastream segmentation |
BE1023431B1 (en) | 2016-06-01 | 2017-03-17 | Limecraft Nv | AUTOMATIC IDENTIFICATION AND PROCESSING OF AUDIOVISUAL MEDIA |
-
2021
- 2021-07-08 FR FR2107439A patent/FR3125193A1/en active Pending
-
2022
- 2022-07-06 WO PCT/EP2022/068798 patent/WO2023280946A1/en active Application Filing
- 2022-07-06 EP EP22748259.3A patent/EP4335111A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
FR3125193A1 (en) | 2023-01-13 |
WO2023280946A1 (en) | 2023-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Amato et al. | AI in the media and creative industries | |
EP1859614B1 (en) | Method for selecting parts of an audiovisual programme and device therefor | |
US8799253B2 (en) | Presenting an assembled sequence of preview videos | |
US9342596B2 (en) | System and method for generating media bookmarks | |
WO2023280946A1 (en) | Computer-implemented method for delivering audio-visual media on-demand | |
US8156114B2 (en) | System and method for searching and analyzing media content | |
US8219513B2 (en) | System and method for generating a context enhanced work of communication | |
Lokoč et al. | Is the reign of interactive search eternal? findings from the video browser showdown 2020 | |
US20060122984A1 (en) | System and method for searching text-based media content | |
US20120239690A1 (en) | Utilizing time-localized metadata | |
WO2002075591A1 (en) | Method for navigation by computation of groups, receiver for carrying out said method and graphical interface for presenting said method | |
EP2104937B1 (en) | Method for creating a new summary of an audiovisual document that already includes a summary and reports and a receiver that can implement said method | |
US20140115622A1 (en) | Interactive Video/Image-relevant Information Embedding Technology | |
EP2524324A1 (en) | Method for navigating identifiers placed in areas and receiver implementing the method | |
US20100281046A1 (en) | Method and web server of processing a dynamic picture for searching purpose | |
Saravanan | Segment based indexing technique for video data file | |
Knauf et al. | Produce. annotate. archive. repurpose-- accelerating the composition and metadata accumulation of tv content | |
Bailer et al. | A video browsing tool for content management in postproduction | |
TWI780333B (en) | Method for dynamically processing and playing multimedia files and multimedia play apparatus | |
Reboud | Towards automatic understanding of narrative audiovisual content | |
Zavesky et al. | Searching visual semantic spaces with concept filters | |
Anilkumar et al. | Sangati—a social event web approach to index videos | |
Smeaton et al. | Interactive searching and browsing of video archives: Using text and using image matching | |
Peronikolis et al. | Personalized Video Summarization: A Comprehensive Survey of Methods and Datasets | |
WO2024120646A1 (en) | Device and method for multimodal video analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: UNKNOWN |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE |
|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE |
|
17P | Request for examination filed |
Effective date: 20231208 |
|
AK | Designated contracting states |
Kind code of ref document: A1 Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR |