EP2394246A1 - Procède de fusion de segments de programmes audiovisuels, dispositif, et produit programme d'ordinateur correspondant - Google Patents

Procède de fusion de segments de programmes audiovisuels, dispositif, et produit programme d'ordinateur correspondant

Info

Publication number
EP2394246A1
EP2394246A1 EP10707578A EP10707578A EP2394246A1 EP 2394246 A1 EP2394246 A1 EP 2394246A1 EP 10707578 A EP10707578 A EP 10707578A EP 10707578 A EP10707578 A EP 10707578A EP 2394246 A1 EP2394246 A1 EP 2394246A1
Authority
EP
European Patent Office
Prior art keywords
segment
descriptors
segments
program
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
EP10707578A
Other languages
German (de)
English (en)
Inventor
Gael Manson
Sid Ahmed Berrani
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of EP2394246A1 publication Critical patent/EP2394246A1/fr
Ceased legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording

Definitions

  • the present invention relates to the field of audiovisual content analysis.
  • the present invention relates more particularly to a method for fusing previously segmented audiovisual contents.
  • the background of the National Audiovisual Institute (INA) responsible for archiving French broadcasts increases by five hundred and forty thousand hours each year and in the end more than four million hours of programs are available .
  • INA National Audiovisual Institute
  • a current French viewer can choose between more than four hundred hours of content per day on the only digital terrestrial television channels.
  • new needs and services have emerged such as the archiving of these data, carried out in France by the INA, the control of the broadcasts, in particular for the Superior Council of the Audiovisual, the freelance advertising or non-linear access to the desired content, that is to say without constraint of the broadcast time.
  • All these services are based on an indexing of audiovisual streams, consisting of a segmentation of the streams to extract programs and inter-programs (advertising sequences in particular) broadcast continuously. These treatments are extremely expensive when done manually. Automatic techniques are needed to exploit the large number of audiovisual streams available. These automatic segmentation techniques use an analysis of the contents of the audiovisual streams or use the information on the programs provided by the television channels, which information may take the form of electronic program guides. Many different methods have been proposed for segmenting audiovisual streams. The invention uses segmented audiovisual streams.
  • an audiovisual stream represents audio and video content broadcast continuously by a television channel or broadcaster of this type;
  • a program is a program broadcast in the audiovisual stream. It may consist of several parts separated by advertising breaks.
  • a program can be a movie, an episode of a series, a game, a newspaper, the weather, a clip, a magazine or other categories.
  • an inter-program is an element diffused between two programs or in an advertising break. This can be an advertisement, a trailer for an upcoming program, a pub “jingle” (generic ad and end of commercial breaks), a channel or broadcaster logo, or a sponsor preceding the beginning or following the end of a program.
  • Segmentation techniques have the particularity of segmenting a program into several segments. This poses a problem when one wishes to reconstitute the program in question for the needs of the aforementioned services.
  • Segmentation techniques are generally based on the detection (step 101) of the inter-program areas 13 because the inter-programs are short sequences that share many common properties.
  • the inter-programs are broadcast several times in the stream. These properties make cross programs much easier to detect than long programs (A, B, and C). These are heterogeneous (series, film, emissions, etc.) and do not generally share common properties.
  • the portions of the stream (A, B, C) that separate the interspecific detected areas thus form segments that correspond to segments of program parts also referred to hereinafter as program segments.
  • the audiovisual stream is then segmented (etapelO2) into three segments (A, B and C).
  • the invention does not have these disadvantages of the prior art. Indeed, the invention relates to a method for merging segments of an audiovisual stream previously cut into a plurality of program segments to be merged. According to the invention, such a method comprises, for at least a first and at least a second segment of said plurality of segments, a step of calculating a set of descriptors and a step of obtaining at least one representative information a membership of said at least one first and at least one second segment to the same audiovisual program based on data representative of said previously calculated descriptors.
  • the invention makes it possible to solve the problems that are not solved by the solutions of the prior art.
  • the invention does not use the data provided by the electronic program guide to decide on the merger of two segments belonging to the audiovisual stream.
  • the method of the invention calculates descriptors of segments. From these descriptors extracted from the two segments, the method of the invention comprises a step of obtaining the representative information of membership.
  • the method of the invention comprises a step of obtaining the representative information of membership.
  • said at least one first and at least one second segment are consecutive segments.
  • said set of descriptors comprises: a first subset of at least one descriptor specific to said at least one first segment; a second subset of at least one descriptor specific to said at least one second segment.
  • the invention makes it possible to take into account the similarities of the segments.
  • the method of the invention makes it possible to maximize the probabilities of fusion between two segments of the same program.
  • the invention makes it possible to somehow determine particular characteristics of these segments. These particular features can then be used to determine a difference between segments.
  • a subset contains a defined number of descriptors that correspond to a determined number of characteristic measures of a segment.
  • said set of descriptors comprises a subset of descriptors calculated using data belonging to said at least one first segment and auditing at least a second segment, said common descriptors.
  • the invention makes it possible to take into account the similarities of the segments.
  • the invention introduces specific descriptors, called common descriptors, which result from a calculation carried out on the data of the first and second segment.
  • a common descriptor is the number of images or of a plane common to the two segments.
  • said method comprises at least one step of calculating a distance separating a descriptor from said first subset of eigen descriptors and a corresponding descriptor of the same type from said second subset of eigen descriptors, delivering a vector of at least one distance.
  • the invention makes it possible to create a set of distances between the descriptors of the same types of the first and second segments. These distances constitute a vector of distances. The smaller the distance between two descriptors, the more the characteristics of the two segments relating to this descriptor will be similar.
  • said descriptors are of different types, said types belonging to the group comprising: the ratio between a number of key images of a segment and a duration of this segment; a three-dimensional color histogram in the RGB color space of the average color on all keyframes of a segment; a three-dimensional color histogram in the color space
  • RGB of the intersection of colors on all keyframes of a segment the ratio of the number of faces detected on the segment and a duration of a segment; the average and standard deviation of the number of faces detected by keyframes of a segment; the maximum size of the faces detected on all the keyframes of a segment; - average and standard deviation of face size detected by keyframes a segment; the number of similar keyframe groups in a segment; the number of similar keyframe groups containing keyframes belonging to the at least one first segment and the at least one second segment audit; the average and standard deviation of the number of similar images in groups of similar images.
  • said distances separating said descriptors belong to the group comprising: the absolute value of the difference; the Euclidean distance; the correlation distance according to the Pearson correlation coefficient; the distance from Chi-Square; the intersection distance which is the sum of the respective minimums between the respective values of two distributions; the distance from Bhattacharyya.
  • said method comprises, prior to the merger, a learning phase during which a classifier learns to differentiate different membership classes of audiovisual programs.
  • said obtaining step comprises: a step of transmitting said distance vector and / or said descriptors common to a classifier previously trained; a supervised classification step of said at least one first and at least one second segment as a function of said distances of said distance vector and / or said common descriptors.
  • the invention makes it possible to merge the segments in an automated and simple manner while ensuring that the segments are correctly merged.
  • the classifier can be a binary classifier SVM type to provide a decision of membership of said segments to the same audiovisual program.
  • the invention also relates to a device for merging segments of an audiovisual stream previously cut into a plurality of program segments to be merged.
  • such a device comprises, for at least a first and at least a second segment of said plurality of segments, means for calculating a set of descriptors and means for obtaining at least one representative information. a membership of said at least one first and at least one second segment to an identical audiovisual program based on data representative of said previously calculated descriptors.
  • the invention also relates to a computer program product downloadable from a communication network and / or stored on a computer-readable medium and / or executable by a microprocessor, and comprising program code instructions for the computer. execution of the fusion process as described above. 4. LIST OF FIGURES
  • FIG. 1 presents a synoptic of the general techniques of segmentation of an audiovisual flow
  • Figure 2 generally illustrates the method of fusion of the invention
  • FIG. 3 illustrates a mode of implementation of the fusion method of the invention for three consecutive segments
  • FIG. 4 illustrates another mode of implementation of the fusion method according to the invention
  • FIG. 5 illustrates another embodiment of the fusion process according to the invention
  • FIG. 6 describes a fusion device according to the invention. 5.
  • the invention proposes to merge the different segments forming a program using descriptors of these segments.
  • these descriptors do not depend on data external to the stream or stream metadata, but on audiovisual data comprising the stream.
  • the descriptors can therefore relate to both the video content of the stream and the audio content thereof.
  • the invention does not exclude the use of metadata provided by the EPG or ETI when such data exist.
  • the invention fully combines these techniques using EPG or ETI to significantly improve the accuracy of the fusions and to reduce the time required for the fusion.
  • the general principle of the The invention thus relies on the calculation of descriptors for the segments that compose the stream, on the calculation of data associated with these descriptors and on the provision of these data and descriptors to a particular component that will provide a response as to the membership two segments to the same program.
  • the steps of the method of the invention are presented. It is considered that the audiovisual stream has been segmented beforehand according to an approach for detecting suitable inter-program areas.
  • the method of the invention uses a stream segmented into a plurality of program segments 20 consisting for example of segments A, B, and following.
  • the method of the invention then performs a merging of the segments by: calculating 201 a set of descriptors 21.
  • descriptors 21 are calculated for at least two segments of the audiovisual stream, said first and second segments. As is explained later, the calculated descriptors are of different types; - estimating 203 the belonging of the first and second segments to the same program using the data from these descriptors 21. This estimation step 203 can be performed using automatic classification means, such as classifiers. Other appropriate means can also be used to obtain an estimate of this membership.
  • the descriptors that are implemented in the context of the invention are of two kinds: the clean descriptors and the common descriptors.
  • a clean descriptor is a value, or a data structure comprising several values representing the result of a calculation carried out on a segment: it can for example be the duration of the segment, the number of images of this segment, the sound volume of the segment, a number of plans, a spectral analysis of this segment, etc. This is segment-specific data.
  • the proper descriptors are therefore of different types. According to the invention, a specific number of eigen descriptors per segment is calculated, each own descriptor being of a particular type.
  • a common descriptor is a value, or a data structure comprising several values representing the result of a calculation carried out on the two (or more) segments which one wishes to know if they belong to the same program. This is for example a number of identical images between the two segments, an estimate of an identity of a background sound, etc.
  • the common descriptors are therefore also of different types. According to the invention, a determined number of common descriptors are calculated on the two (or more) segments which one wishes to know if they belong to the same program, each common descriptor being of a particular type. In at least one embodiment of the invention, the eigen descriptors of each of the two segments whose membership in the same program is to be tested are then used to determine distances. These are distances between two descriptors belonging to two given segments, for example consecutive. These distances make it possible to establish a proximity of the two segments with respect to a given type of descriptor, such as for example a color distribution. These distances can be expressed in the form of integer values, real values or vectors comprising several dimensions.
  • a certain number of distances are calculated.
  • the number of distances calculated between two segments may be greater or less than the number of descriptors calculated for these two segments.
  • Distances separating the descriptors include: the absolute value of the difference; the Euclidean distance; the correlation distance according to the Pearson correlation coefficient (used for example between two color histograms); the Chi-Square distance (used for example between two color histograms); the intersection distance which is the sum of the respective minimums between the respective values of two distributions (used for example between two color histograms); the distance of Bhattacharyya (used for example between two histograms of colors).
  • FIG. 3 shows the implementation of the method of the invention for three segments of an audiovisual stream: segments A, B and C are extracted from the audiovisual stream by a segmentation method. Descriptors (Ds ⁇ A, B ⁇ , Ds ⁇ B, C ⁇ ) are then calculated (steps 201, 202) for the segments: they can be descriptors specific to the segment (for example descriptors of A, B or C) or common descriptors (i.e., descriptors that use both A and B or A and C data).
  • the descriptors (Ds ⁇ A, B ⁇ , Ds ⁇ B, C ⁇ ) are then provided to a classifier C1 which estimates (steps 203 and 204) the membership of the segments in the same program and decides on the separation (N) or the fusion (Y) of the two segments.
  • the segments are consecutive and are compared in pairs, that is to say that the segment A is compared with the segment B (step 203) and the segment B with the segment C (step 204).
  • classifier C1 with non-consecutive segment descriptors. For example, it would be quite relevant to provide the classifier C1 with data from the descriptors of A and C. If the classifier C1 concludes that A and C belong to the same program, then it will be easy to conclude that B also belongs to the same program as A and C. This reduces the calculation time needed to determine the membership of the segments to the programs.
  • the classifier C1 uses the data from the descriptors to estimate the membership of the two segments in the same program and to decide on the separation (N) or the merger (Y) of the two segments to which these data belong.
  • N separation
  • Y merger
  • step 201 descriptors for these three or four segments (Ds ⁇ A, B, C ⁇ ) and provide them together to the classifier.
  • the classifier uses (step 203 ') for its part the data from the descriptors to decide on the separation (N) or the merger (Y) of the two segments to which these data belong.
  • the two segments are not necessarily consecutive.
  • the method of the invention is implemented in the same manner as above.
  • Descriptors for segments A and C (Ds (A, C)) are calculated (step 201 ") and the classifier used (step 203") for its part the data from the descriptors to decide the separation (N) or the merger (Y) of the two segments to which these data belong. If, in the case of FIG. 5, classifier C1 decides to merge segments A and C, then it can be concluded that segments A, B and C belong to the same program.
  • Such an approach makes it possible, in certain cases, to reduce the number of calculations required and therefore to increase the processing speed.
  • the invention proposes a method for deciding whether two program segments, for example consecutive segments of an audiovisual stream, must or must not merge to form the same program.
  • the method chooses to merge the segments by analyzing only the audiovisual content and the properties of the segments.
  • an implementation of the method of the invention is presented by using several descriptors that make it possible to determine whether two consecutive segments of the same audiovisual stream belong to the same program.
  • a binary classifier SVM type (of the English "Support Vector Machine") is used. Any other type of classifier can however be used.
  • the binary classifier has the advantage of being simple and of being adapted to decision-making in the context of the invention since it renders a binary type response.
  • a classifier is a mathematical function that associates a class of membership based on input data. Learning a classifier is a method of estimating mathematical function from a sample of examples of membership class associations. A classifier is said to be binary when it allows the determination of a binary result (of the yes / no type).
  • the binary classifier makes it possible, from the data derived from the descriptors, to determine whether the two segments whose data from the descriptors are analyzed belong to the same audiovisual program. This determination is possible because, in a previous phase, using a set of segments for which the merger decision was manually taken, the binary classifier was trained to determine on the basis of the descriptors whether two consecutive segments should be or do not merge to form the same program. In one embodiment of the invention, it is also possible to use several classifiers. This type of approach may be of interest in a wide variety of program types that require differential analysis by classifiers with different learning outcomes.
  • the descriptors considered for each segment are selected from their ability to characterize an audiovisual stream segment.
  • the following clean descriptors are used.
  • keyframes are identified for each segment using a keyframe detection method.
  • a first descriptor is used for each segment: it is the number of key images of a segment divided by the duration of the segment.
  • the main colors of the video segments make it possible to roughly differentiate the video segments. For example, parts of a dark film will differentiate from sporting events such as football matches or the green color of the lawn will predominate.
  • two color histograms are used to characterize the segments: a histogram of the average colors is calculated by accumulating all the colors of each key image of a segment and is then normalized by the duration of the segment. This is the second descriptor of its own; a color intersection histogram is calculated by calculating the colors common to all key images in a segment. It is also normalized by the duration of the segment. This is the third descriptor of its own.
  • the histogram correlation distance the "Chi-Square" distance and the histogram intersection distance are used. .
  • the size and number of faces in a segment also makes it possible to distinguish short segments such as the weather containing only one person from longer segments such as the newspaper involving many people.
  • This detection is performed on key images of the segment.
  • the result of this detection provides, for a keyframe of a segment, enclosing rectangles for each detected face.
  • An enclosing rectangle is a part of an image. For a given image, the number the position, and the size of the enclosing rectangles present on this image indicates the number, position and size of the faces detected.
  • the segments are then described by the following four descriptors: the total number of faces detected divided by the duration of the segment; the mean and standard deviation of the average number of faces detected by key segment images; the maximum size of a face detected on all keyframes of the segment, ie the largest face size in the keyframes of the segment; the mean and standard deviation of the maximum face size detected by key frames of the segment;
  • an identification of common points in two segments is carried out. For example, the repetition of many nearly identical pieces of a segment in another segment characterizes important common points between two segments. For example, the repetition of the shots with the presenter characterizes the game shows. This embodiment of the invention uses the identification of these repetitions to provide additional data to the classifier.
  • the segments are described by the following values relating to the specific and common descriptors: - the total number of groups calculated on a segment; the average number of keyframes per group on a segment; the total number of groups containing images of both a first and a second segment; the average number of keyframes per group containing images of a first segment and a second segment.
  • the method of the invention has been presented in the context of the implementation of a single binary classifier which makes it possible to determine whether segments belong to the same program.
  • Other approaches are of course possible. They can be based on a general implementation of perceptron, of which the classifiers are part. They can also be based on any other approach that makes it possible to obtain information relating to the membership of the segments in the same audiovisual program according to the data of the previously calculated descriptors.
  • Other optional features and benefits are possible. They can be based on a general implementation of perceptron, of which the classifiers are part. They can also be based on any other approach that makes it possible to obtain information relating to the membership of the segments in the same audiovisual program according to the data of the previously calculated descriptors.
  • FIG. 6 an embodiment of a fusion device according to the invention is presented.
  • Such a melting device comprises a memory 61, a processing unit 62 equipped for example with a microprocessor, and driven by the computer program 63, implementing the method according to the invention.
  • the code instructions of the computer program 63 are for example loaded into a RAM memory before being executed by the processor of the processing unit 62.
  • the processing unit 62 receives as input the stream audio visual cut into several segments.
  • the microprocessor of the processing unit 62 implements the steps of the merger process, according to the instructions of the computer program 61 to decide on the membership of the different segments in the same program.
  • the merging device comprises, in addition to the memory 61, for at least a first and at least a second segment of the plurality of segments, means for calculating a set of descriptors of different types and means for obtaining information representative of a membership segments to the same audiovisual program based on data representative of said previously calculated descriptors. These means are controlled by the microprocessor of the processing unit 62.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

L'invention concerne un procédé de fusion de segments d'un flux audiovisuel préalablement découpé en une pluralité de segments de programmes à fusionner. Selon l'invention, un tel procédé comprend, pour au moins un premier et au moins un deuxième segment de ladite pluralité de segments, une étape de calcul d'un ensemble de descripteurs et comprend une étape d'obtention d'au moins une information représentative d'une appartenance desdits au moins un premier et au moins un deuxième segment à un même programme audiovisuel en fonction de données représentatives desdits descripteurs préalablement calculés.

Description

Procédé de fusion de segments de programmes audiovisuels, dispositif, et produit programme d'ordinateur correspondant. 1. DOMAINE DE L'INVENTION
La présente invention se rapporte au domaine de l'analyse des contenus audiovisuels.
La présente invention se rapporte plus particulièrement à un procédé de fusion de contenus audiovisuels préalablement segmentés.
Les chaînes de télévision fournissent aujourd'hui du contenu en continu et leur nombre ne cesse de croître. En France par exemple, le fond de l'Institut National de l'Audiovisuel (INA) chargé d'archiver les diffusions françaises augmente de cinq cent quarante mille heures chaque année et au final plus de quatre millions d'heures de programmes y sont consultables. Par ailleurs, un téléspectateur français actuel peut choisir entre plus de quatre cent heures de contenu par jour sur les seules chaînes de la télévision numérique terrestre. Face à ce volume gigantesque de données audiovisuelles, de nouveaux besoins et services sont apparus tels que l'archivage de ces données, effectué en France par l'INA, le contrôle des diffusions, notamment pour le Conseil Supérieur de l'Audiovisuel, la pige de publicités ou encore l'accès de façon non linéaire au contenu souhaité, c'est-à-dire sans contrainte de l'heure de diffusion. L'ensemble de ces services repose sur une indexation des flux audiovisuels, composée d'une segmentation des flux pour en extraire les programmes et les inter-programmes (séquences de publicité en particulier) diffusés en continu. Ces traitements sont extrêmement coûteux lorsqu'ils sont réalisés manuellement. Des techniques automatiques sont nécessaires afin d'exploiter le grand nombre de flux audiovisuels disponibles. Ces techniques de segmentation automatique font appel à une analyse des contenus des flux audiovisuels ou utilisent les informations sur les programmes fournies par les chaînes de télévision, informations qui peuvent prendre la forme de guides électroniques de programmes. De nombreux procédés différents ont été proposés pour segmenter les flux audiovisuels. L'invention utilise les flux audiovisuels segmentés.
Par la suite, un vocabulaire technique particulier est employé. Afin qu'il n'y ait pas d'ambiguïté, il est précisé que : - un flux audiovisuel représente le contenu audio et vidéo diffusé en continu par une chaîne de télévision ou un diffuseur de ce type ; un programme est une émission diffusée dans le flux audiovisuel. Il peut être constitué de plusieurs parties séparées par des coupures publicitaires.
Un programme peut être un film, un épisode d'une série, un jeu, un journal, la météo, un clip, un magazine ou encore d'autres catégories. un inter-pr o gramme est un élément diffusé entre deux programmes ou dans une coupure publicitaire. Cela peut être une publicité, une bande annonce pour un programme à venir, un «jingle » de pub (générique d'annonce et de fin des coupures publicitaires), un logo de la chaîne ou du diffuseur, ou un sponsor précédant le début ou suivant la fin d'un programme.
Les techniques de segmentation ont la particularité de segmenter un programme en plusieurs segments. Ceci pose un problème lorsque l'on souhaite reconstituer le programme en question pour les besoins des services préalablement mentionnés.
2. ART ANTERIEUR
On présente, en relation avec la figure 1, un schéma général de techniques automatiques de segmentation d'un flux audiovisuel.
Les techniques de segmentation reposent en général sur la détection (étape 101) des zones d'inter- programmes 13 car les inter-programmes sont des séquences courtes qui partagent de nombreuses propriétés communes. En particuliers, les inter-programmes sont diffusés plusieurs fois dans le flux. Ces propriétés font que les inter-programmes sont beaucoup plus faciles à détecter que les programmes longs (A, B et C). Ceux-ci sont quant à eux hétérogènes (séries, film, émissions...) et ne partagent en général pas de propriétés communes. Les portions du flux (A, B, C) qui séparent les zones d'inter-programmes détectées forment ainsi des segments qui correspondent à des segments de parties de programme désignés aussi par la suite comme segments de programme. Le flux audiovisuel est alors segmenté (étapelO2) en trois segments (A, B et C). Le problème qui se pose est alors de décider quels segments du flux audiovisuel doivent fusionner pour former un même programme afin de retrouver la structure originale du flux audiovisuel diffusé. Dans la figure 1, par exemple, les segments de programme B et C doivent fusionner (ce sont deux segments d'un même programme, en l'occurrence un film) alors que les segments de programme A et B doivent rester séparés (le segment A représente un journal télévisé). Une solution de reconstitution automatique de programme à partir de segments a été proposée. Cette solution est basée sur l'utilisation des métadonnées associées au flux audiovisuel.
Selon cette méthode, quand les métadonnées sur la grille de programmation sont disponibles (le Guide Electronique des Programmes (EPG) ou les « Event Information Table » (EIT), l'anglais pour « Table d'Information Evénementielle »), des procédures de mise en correspondances entre les horaires mentionnés dans l'EPG ou dans l'EIT et les horaires détectés des segments de programme peuvent être utilisées pour l'étiquetage des segments et ainsi pour la reconstitution des programmes. Cette approche a été utilisée à travers un étiquetage basé sur l'étude de recouvrement entre les segments de programme du flux et les horaires de programmes inscrits dans l'EPG.
Une approche plus élaborée, qui suit cependant le même principe général que celui évoqué ci dessus, a été également utilisée dans les travaux de thèse de X. Naturel (« Structuration automatique de flux vidéo de télévisions ». Thèse de doctorat. Université de Rennes I, 2007). Elle repose sur l'utilisation d'une procédure dite DTW (Dynamic Time Warping) qui recherche la meilleure correspondance entre les segments du flux et les informations contenues dans l'EPG (ou l'EIT). Il s'agit d'une optimisation globale qui attribue un coût aux ajustements nécessaires pour trouver une correspondance entre les segments et 1ΕPG (OU l'EIT). La correspondance retenue est celle qui induit le coût le moins élevé.
L'inconvénient de ces approches est leur dépendance vis-à-vis des métadonnées. D'une part ces dernières ne sont pas toujours disponibles et d'autre part elles sont peu fiables et leur imprécision peut avoisiner quelques minutes. En particulier, les programmes courts indiqués dans l'EPG sont régulièrement absents et souvent décalés de plus de cinq minutes.
De plus, quand aucune métadonnée sur la grille de programmation n'est disponible, le problème est encore plus complexe et aucune technique n'a été proposée pour identifier et fusionner les différents segments par exemple consécutifs d'un même programme.
3. RESUME DE L'INVENTION
L'invention ne présente pas ces inconvénients de l'art antérieur. En effet, l'invention concerne un procédé de fusion de segments d'un flux audiovisuel préalablement découpé en une pluralité de segments de programmes à fusionner. Selon l'invention, un tel procédé comprend, pour au moins un premier et au moins un deuxième segment de ladite pluralité de segments, une étape de calcul d'un ensemble de descripteurs et une étape d'obtention d'au moins une information représentative d'une appartenance desdits au moins un premier et au moins un deuxième segment à un même programme audiovisuel en fonction de données représentatives desdits descripteurs préalablement calculés.
Ainsi, l'invention permet de résoudre les problèmes non résolus par les solutions de l'art antérieur. En effet, à la différence du procédé de fusion de l'art antérieur, l'invention n'utilise pas les données fournies par le guide électronique des programmes pour décider de la fusion de deux segments appartenant au flux audiovisuel. Au contraire, le procédé de l'invention calcule des descripteurs de segments. À partir de ces descripteurs extraits des deux segments le procédé de l'invention comprend une étape d'obtention de l'information représentative d'appartenance. Ainsi il n'est plus nécessaire d'utiliser le guide électronique des programmes pour pouvoir fusionner deux segments du programme audiovisuel. Seules les informations contenues dans les segments sont utilisées pour définir l'appartenance de ces segments à un même programme audiovisuel.
Selon une caractéristique particulière de l'invention, lesdits au moins un premier et au moins un deuxième segment sont des segments consécutifs.
Selon un mode de réalisation particulier de l'invention, ledit ensemble de descripteurs comprend : un premier sous-ensemble d'au moins un descripteur propre audit au moins un premier segment ; un deuxième sous-ensemble d'au moins un descripteur propre audit au moins un deuxième segment. Ainsi, l'invention permet de prendre en compte les similarités des segments. Ainsi, le procédé de l'invention permet de maximiser les probabilités de fusion entre deux segments d'un même programme. En se basant sur les ensembles de descripteurs propres aux segments, l'invention permet de déterminer en quelque sorte des caractéristiques particulières de ces segments. Ces caractéristiques particulières peuvent ensuite être utilisées pour déterminer une différence entre segments. Un sous-ensemble contient un nombre déterminé de descripteurs qui correspondent à nombre déterminé de mesures de caractéristiques d'un segment.
Selon une caractéristique particulière de l'invention ledit ensemble de descripteurs comprend un sous-ensemble de descripteurs calculés en utilisant des données appartenant audit au moins un premier segment et audit au moins un deuxième segment, dits descripteurs communs.
Ainsi, l'invention permet de prendre en compte les similarités des segments. Pour ce faire l'invention introduit des descripteurs spécifiques, appelés descripteurs communs, qui résultent d'un calcul effectué sur les données du premier et du deuxième segment. A titre illustratif, un exemple de descripteur commun est le nombre d'images ou de plan commun aux deux segments. Ainsi, les probabilités de reconnaissance de deux segments appartenants à un même programme sont améliorées. Selon un mode de réalisation particulier de l'invention, ledit procédé comprend au moins une étape de calcul d'une distance séparant un descripteur dudit premier sous-ensemble de descripteurs propres et un descripteur de même type correspondant dudit deuxième sous ensemble de descripteurs propres, délivrant un vecteur d'au moins une distance. Ainsi, l'invention permet de créer un ensemble de distance entre les descripteurs de mêmes types du premier et du deuxième segment. Ces distances constituent un vecteur de distances. Plus la distance entre deux descripteurs est faible, plus les caractéristiques des deux segments relatives à ce descripteur seront similaires. Selon une caractéristique particulière de l'invention, lesdits descripteurs sont de différents types, lesdits types appartenant au groupe comprenant : le rapport entre un nombre d'images clés d'un segment et une durée de ce segment ; un histogramme de couleurs en trois dimensions dans l'espace des couleurs RVB de la moyenne des couleurs sur toutes les images clés d'un segment ; un histogramme de couleurs en trois dimensions dans l'espace des couleurs
RVB de l'intersection des couleurs sur toutes les images clés d'un segment ; le rapport du nombre de visages détectés sur le segment et une durée d'un segment ; la moyenne et l'écart type du nombre de visages détectés par images clés d'un segment ; la taille maximale des visages détectés sur toutes les images clés d'un segment ; - la moyenne et l'écart type de la taille des visages détectés par images clés d'un segment ; le nombre de groupes d'images clés similaires d'un segment ; le nombre de groupes d'images clés similaires contenant des images clés appartenant audit au moins un premier segment et audit au moins deuxième segment ; la moyenne et l'écart type du nombre d'images similaires par groupes d'images similaires.
Selon un mode de réalisation particulier de l'invention, lesdites distances séparant lesdits descripteurs appartiennent au groupe comprenant : - la valeur absolue de la différence ; la distance euclidienne ; la distance de corrélation selon le coefficient de corrélation de Pearson ; la distance du Chi-Square ; la distance d'intersection qui est la somme des minimums respectifs entre les valeurs respectives de deux distributions ; la distance de Bhattacharyya.
Selon un mode de réalisation particulier de l'invention, ledit procédé comprend, préalablement à la fusion, une phase d'apprentissage au cours de laquelle un classifieur apprend à différentier différentes classes d'appartenance de programmes audiovisuels.
Selon une caractéristique particulière de l'invention, ladite étape d'obtention comprend : une étape de transmission dudit vecteur de distances et/ou desdits descripteurs communs à un classifieur préalablement entraîné ; - une étape de classification supervisée desdits au moins un premier et au moins un deuxième segment en fonction desdites distances dudit vecteur de distances et/ou desdits descripteurs communs.
Ainsi l'invention permet de réaliser une fusion des segments de manière automatisée et simple tout en assurant que les segments soient correctement fusionnés. Dans un mode de réalisation spécifique de l'invention, le classifieur peut être un classifieur binaire de type SVM permettant de fournir une décision d'appartenance desdits segments à un même programme audiovisuel.
L'invention concerne également un dispositif de fusion de segments d'un flux audiovisuel préalablement découpé en une pluralité de segments de programmes à fusionner.
Selon l'invention, un tel dispositif comprend, pour au moins un premier et au moins un deuxième segment de ladite pluralité de segments, des moyens de calcul d'un ensemble de descripteurs et des moyens d'obtention d'au moins une information représentative d'une appartenance desdits au moins un premier et au moins un deuxième segment à un programme audiovisuel identique en fonction de données représentatives desdits descripteurs préalablement calculés.
Selon un autre aspect, l'invention concerne également un produit programme d'ordinateur téléchargeable depuis un réseau de communication et/ou stocké sur un support lisible par ordinateur et/ou exécutable par un microprocesseur, et comprenant des instructions de code de programme pour l'exécution du procédé de fusion tel que décrit précédemment. 4. LISTE DES FIGURES
D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante d'un mode de réalisation préférentiel, donné à titre de simple exemple illustratif et non limitatif, et des dessins annexés, parmi lesquels : la figure 1, déjà commentée, présente un synoptique des techniques générales de segmentation d'un flux audiovisuel ; la figure 2 illustre de manière générale le procédé de fusion de l'invention ; - la figure 3 illustre un mode de mise en œuvre du procédé de fusion de l'invention pour trois segments consécutifs ; la figure 4 illustre un autre mode de mise en oeuvre du procédé de fusion selon l'invention ; la figure 5 illustre encore un autre mode de mise en œuvre du procédé de fusion selon l'invention ; la figure 6 décrit un dispositif de fusion selon l'invention. 5. DESCRIPTION DETAILLEE DE L'INVENTION
Rappel du principe de l'invention
L'invention propose de fusionner les différents segments formant un programme en utilisant des descripteurs de ces segments. A l'inverse des solutions de l'art antérieur, ces descripteurs ne dépendent pas de données extérieures au flux ou de métadonnées du flux, mais bien des données audiovisuelles composant le flux. Les descripteurs peuvent donc porter à la fois sur le contenu vidéo du flux et sur le contenu audio de celui-ci. On note que l'invention n'exclut nullement l'utilisation de métadonnées fournies par l'EPG ou par ETI lorsque de telles données existent. Dans un tel mode de réalisation, l'invention se combine tout à fait à ces techniques utilisant l'EPG ou l'ETI pour améliorer de manière importante la précision des fusions et pour réduire le temps nécessaire à la fusion Le principe général de l'invention repose ainsi sur le calcul de descripteurs pour les segments qui composent le flux, sur le calcul de données associées à ces descripteurs et sur la fourniture de ces données et de ces descripteurs à un composant particulier qui va fournir une réponse quant à l'appartenance de deux segments à un même programme. On présente, en relation avec la figure 2, les étapes du procédé de l'invention. On considère que le flux audiovisuel a été préalablement segmenté selon une approche de détection des zones d'inter-programmes idoine. Ainsi, le procédé de l'invention utilise un flux segmenté en une pluralité de segments de programme 20 constituée par exemple des segments A, B, et suivants. Le procédé de l'invention réalise ensuite une fusion des segments en : calculant 201 un ensemble de descripteurs 21. Ces descripteurs 21 sont calculés pour au moins deux segments du flux audiovisuel, dits premier et deuxième segments. Comme cela est explicité par la suite, les descripteurs calculés sont de différents types ; - estimant 203 l'appartenance du premier et deuxième segments à un même programme en utilisant les données issues de ces descripteurs 21. Cette étape d'estimation 203 peut être réalisée à l'aide de moyens de classification automatique, tels que des classifieurs. D'autres moyens idoines peuvent également permettre d'obtenir une estimation de cette appartenance.
Les descripteurs qui sont mis en œuvre dans le cadre de l'invention sont de deux sortes : les descripteurs propres et les descripteurs communs.
Un descripteur propre est une valeur, ou une structure de données comprenant plusieurs valeurs représentant le résultat d'un calcul mené sur un segment : il peut par exemple s'agir de la durée du segment, du nombre d'images de ce segment, du volume sonore du segment, d'un nombre de plans, d'une analyse spectrale de ce segment, etc. Il s'agit donc de données propres au segment. Les descripteurs propres sont donc de différents types. Selon l'invention, on calcule un nombre déterminé de descripteurs propres par segment, chaque descripteur propre étant d'un type particulier.
Un descripteur commun est une valeur, ou une structure de données comprenant plusieurs valeurs représentant le résultat d'un calcul mené sur les deux (ou plus) segments dont on souhaite savoir s'ils appartiennent au même programme. Il s'agit par exemple d'un nombre d'images identiques entre les deux segments, d'une estimation d'une identité d'un fond sonore, etc.
Les descripteurs communs sont donc également de différents types. Selon l'invention, on calcule un nombre déterminé de descripteurs communs sur les deux (ou plus) segments dont on souhaite savoir s'ils appartiennent au même programme, chaque descripteur commun étant d'un type particulier. Dans au moins un mode de réalisation de l'invention, les descripteurs propres de chacun des deux segments dont on souhaite tester l'appartenance à un même programme sont ensuite utilisés pour déterminer des distances. Il s'agit de distances entre deux descripteurs appartenant à deux segments donnés, par exemple consécutifs. Ces distances permettent d'établir une proximité des deux segments par rapport à un type de descripteur donné, comme par exemple une distribution colorimétrique. Ces distances peuvent s'exprimer sous la forme de valeurs entières, réelles ou encore de vecteurs comprenant plusieurs dimensions.
On calcul un nombre déterminé de distances. Le nombre de distances calculées entre deux segments peut être supérieur ou inférieur au nombre de descripteurs calculés pour ces deux segments.
Les distances séparant les descripteurs comprennent notamment : la valeur absolue de la différence ; la distance euclidienne ; la distance de corrélation selon le coefficient de corrélation de Pearson (utilisée par exemple entre deux histogrammes de couleurs) ; la distance du Chi-Square (utilisée par exemple entre deux histogrammes de couleurs) ; la distance d'intersection qui est la somme des minimums respectifs entre les valeurs respectives de deux distributions (utilisée par exemple entre deux histogrammes de couleurs) ; la distance de Bhattacharyya (utilisée par exemple entre deux histogrammes de couleurs).
Ces distances sont connues et sont appliquées pour déterminer des données représentatives des descripteurs de segments qui sont utilisées par la suite pour déterminer l'appartenance, ou non, des segments à un même programme.
On présente, en figure 3, la mise en œuvre du procédé de l'invention pour trois segments d'un flux audiovisuel : les segments A, B et C sont extraits du flux audiovisuel par un procédé de segmentation. Des descripteurs (Ds{A,B }, Ds{B,C}) sont alors calculés (étapes 201, 202) pour les segments : il peut s'agir de descripteurs propres au segment (par exemple des descripteurs de A, de B ou de C) ou des descripteurs communs (c'est-à-dire des descripteurs qui utilisent à la fois les données de A et de B ou de A et de C).
Les descripteurs (Ds{A,B }, Ds{B,C}) sont ensuite fournis à un classifieur Cl qui estime (étapes 203 et 204) l'appartenance des segments à un même programme et décide de la séparation (N) ou de la fusion (Y) des deux segments. On note que dans la figure 3, les segments sont consécutifs et sont comparés deux à deux, c'est-à-dire que l'on compare le segment A avec le segment B (étape 203) puis le segment B avec le segment C (étape 204).
Il est bien entendu que l'on peut également fournir au classifieur Cl des descripteurs de segments non consécutifs. Par exemple, il serait tout à fait pertinent de fournir au classifieur Cl des données provenant des descripteurs de A et de C. Si le classifieur Cl conclu à l'appartenance de A et de C à un même programme, alors il sera aisé de conclure que B appartient également au même programme que A et C. On réduit ainsi le temps de calcul nécessaire à la détermination de l'appartenance des segments aux programmes.
Le classifieur Cl utilise les données issues des descripteurs pour estimer l'appartenance des deux segments à un même programme et décider de la séparation (N) ou de la fusion (Y) des deux segments auxquels ces données appartiennent. Ici encore, il n'est pas nécessaire de ne fournir au classifieur que des données issues de deux segments. Il est tout à fait pertinent dans certains cas, de fournir directement au classifieur des données issues de descripteurs portant sur plusieurs segments en une seule étape. Un tel cas de figure, illustré en relation avec la figure 4, peut se présenter lorsqu'il existe, pour plusieurs segments, une présomption d'appartenance à un même programme, du fait par exemple d'une utilisation de données issues d'un guide électronique de programme. Dès lors, si il est présumé que le programme a pu être segmenté en plusieurs segments (trois ou quatre par exemple), il est envisagé de calculer (étape 201') des descripteurs pour ces trois ou quatre segments (Ds{A,B, C }) et de les fournir ensemble au classifieur. Le classifieur utilise (étape 203') pour sa part les données issues des descripteurs pour décider de la séparation (N) ou de la fusion (Y) des deux segments auxquels ces données appartiennent.
De même, tel qu'illustré en figure 5, les deux segments ne sont pas nécessairement consécutifs. La méthode de l'invention est mise en œuvre de la même manière que précédemment. On calcule (étape 201") des descripteurs pour les segments A et C (Ds(A, C}) et le classifieur utilise (étape 203") pour sa part les données issues des descripteurs pour décider de la séparation (N) ou de la fusion (Y) des deux segments auxquels ces données appartiennent. Si, dans le cas de la figure 5, le classifieur Cl décide de la fusion des segments A et C, alors on peut en conclure que les segments A, B et C appartiennent au même programme. Une telle approche permet, dans certains cas, de diminuer le nombre de calculs nécessaires et donc d'augmenter la vitesse de traitement.
Ainsi, l'invention propose une méthode permettant de décider si deux segments de programme, par exemple consécutifs d'un flux audiovisuel doivent ou ne doivent pas fusionner pour former un même programme. Le procédé choisit de fusionner les segments en analysant seulement le contenu audiovisuel et les propriétés des segments.
Parmi les avantages de l'invention, on note plus particulièrement que : quand les métadonnées de programmation sont disponibles, la fusion des segments d'un même programme préalablement à l'étape de mise en correspondance avec la grille de programmation, permet de simplifier significativement cette mise en correspondance et d'améliorer ses performances. En effet, le nombre de possibilités de mises en correspondance s'en trouve réduit et une simple étude de recouvrement permet d'atteindre de bonnes performances ; - quand les métadonnées de programmation ne sont pas disponibles, la fusion des segments d'un même programme permet d'extraire l'ensemble des programmes longs à partir du flux, ce qui permet de réduire significativement le coût de l'intervention manuelle nécessaire pour alimenter automatiquement un catalogue de « TVoD » (de l'anglais « Télévision on Demand » pour « Télévision à la demande »).
Par la suite, on présente notamment le cas d'une fusion de segments dans laquelle les descripteurs de flux utilisés prennent en compte les caractéristiques d'au moins certaines images qui composent les segments. Il est clair cependant que l'invention ne se limite pas à cette mise en œuvre particulière, mais peut également utiliser des descripteurs qui tiennent compte des caractéristiques audio des segments.
Description d'un mode de réalisation
On présente dans ce mode de réalisation, une mise en œuvre du procédé de l'invention en utilisant plusieurs descripteurs qui permettent de déterminer si deux segments consécutifs, d'un même flux audiovisuel appartiennent à un même programme. Dans ce mode de réalisation de l'invention, un classifieur binaire de type SVM (de l'anglais « Support Vector Machine ») est utilisé. Tout autre type de classifieur peut cependant être utilisé. Le classifieur binaire présente l'avantage d'être simple et d'être adapté à la prise de décision dans le cadre de l'invention puisqu'il rend une réponse de type binaire.
Un classifieur est une fonction mathématique qui associe une classe d'appartenance en fonction de données d'entrées. L'apprentissage d'un classifieur est un procédé d'estimation de fonction mathématique à partir d'un échantillon d'exemples d'associations de classes d'appartenance. Un classifieur est dit binaire lorsqu'il permet la détermination d'un résultat binaire (du type oui/non).
Dans ce mode de réalisation de l'invention, le classifieur binaire permet, à partir des données issues des descripteurs, de déterminer si les deux segments dont les données issues des descripteurs sont analysées appartiennent à un même programme audiovisuel. Cette détermination est possible car, dans une phase préalable, à l'aide d'un ensemble de segments pour lesquels la décision de fusion a été manuellement prise, le classifieur binaire a été entraîné à déterminer sur la base des descripteurs si deux segments consécutifs doivent ou ne doivent pas fusionner pour former un même programme. Dans un mode de réalisation de l'invention, il est également possible d'utiliser plusieurs classifieurs. Ce type d'approche peut présenter un intérêt dans le cadre d'une grande diversité de types de programmes qui nécessite une analyse différentielle par des classifieurs ayant des apprentissages différents
Comme cela a déjà été évoqué, afin de fusionner les segments consécutifs d'un même programme, le procédé se base sur l'étude du contenu des différents segments de programmes. Des descripteurs sont ainsi calculés à partir de données de segment, et à l'aide d'une technique de classification supervisée, une décision est prise pour la fusion ou la séparation de deux segments consécutifs.
Descripteurs propres et descripteurs communs Dans ce mode de réalisation de l'invention, les descripteurs considérés pour chaque segment sont sélectionnés à partir de leur capacité à caractériser un segment de flux audiovisuel.
Descripteurs propres.
Dans ce mode de réalisation, les descripteurs propres suivants sont utilisés. Dans un premier temps, des images clefs sont identifiées pour chaque segment en utilisant une méthode de détection d'images clés. Un premier descripteur est utilisé pour chaque segment : il s'agit du nombre d'images clefs d'un segment divisé par la durée du segment.
Les couleurs principales des segments vidéo permettent de différencier grossièrement les segments vidéo. Par exemple, des parties d'un film sombre se différencieront des événements sportifs comme des matchs de foot ou la couleur verte de la pelouse prédominera.
Dans ce mode de réalisation de l'invention, deux histogrammes de couleurs sont utilisés pour caractériser les segments : - un histogramme des couleurs moyennes est calculé en cumulant toutes les couleurs de chaque image clefs d'un segment puis il est normalisé par la durée du segment. Il s'agit du deuxième descripteur propre ; un histogramme d'intersection des couleurs est calculé en calculant les couleurs communes à toutes les images clefs d'un segment. Il est également normalisé par la durée du segment. Il s'agit du troisième descripteur propre.
Afin de calculer la similarité de chaque histogramme entre deux segments, on utilise, dans ce mode de réalisation de l'invention, la distance de corrélation d'histogrammes, la distance du « Chi-Square » et la distance d'intersection d'histogrammes. Ainsi, à partir de deux descripteurs, il est possible de déterminer trois distances présentant des valeurs différentes.
La taille et le nombre de visages contenu dans un segment permettent aussi de distinguer des segments courts comme la météo contenant une seule personne par rapport à des segments plus longs comme le journal faisant intervenir de nombreuses personnes.
De même, la détection de visages permet de distinguer un magazine d'un documentaire animalier. Dans ce mode de réalisation de l'invention, la technique de détection de visage présentée dans le document C. Garcia and M. Delakis. Convolutional Face Finder: A Neural Architecture for Fast and Robust Face Détection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 26(11), 1408 - 1423. 2004 est utilisée.
Cette détection est réalisée sur des images clés du segment. Le résultat de cette détection fournit, pour une image clé d'un segment, des rectangles englobants pour chaque visage détecté. Un rectangle englobant correspond à une partie d'image. Pour une image donnée, le nombre la position, et la taille des rectangles englobant présents sur cette image indique le nombre, la position et la taille des visages détectés.
Les segments sont alors décrits par les quatre descripteurs suivants : - le nombre total de visages détectés divisé par la durée du segment ; la moyenne et l'écart type du nombre moyen de visages détectés par images clefs du segment ; la taille maximale d'un visage détecté sur toutes les images clefs du segment, c'est-à-dire la plus grande taille de visage dans les images clés du segment ; la moyenne et l'écart type de la taille du visage maximal détecté par images clefs du segment ;
Descripteurs communs
Dans ce mode de réalisation de l'invention, on réalise une identification de points communs dans deux segments. Par exemple, la répétition de nombreux morceaux presque identiques d'un segment dans un autre segment caractérise des points communs importants entre deux segments. Par exemple, la répétition des plans avec le présentateur caractérise les émissions de jeu. Ce mode de réalisation de l'invention utilise l'identification de ces répétitions pour fournir des données supplémentaires au classifieur.
Pour deux segments A et B pour lesquels on recherche des morceaux presque identiques, des images clefs sont identifiées et décrites par une signature de 64 bits, par exemple. Pour cela on utilise le même procédé que les descripteurs sommaires dans le document "A non-supervised approach for repeated séquence détection in TV broadcast streams". In Signal Processing: Image Communication, spécial issue on "Semantic Analysis for Interactive Multimedia Services", 2008, volume 23, number 7, pages 525-537.
Caractérisation d'un segment On construit ensuite, à partir des signatures de 64 bits, des groupes d'images clefs des segments A et/ou B contenant toutes les images clefs à une distance de Hamming d d'au moins une image clef du groupe.
Les segments sont décrits par les valeurs suivantes relatives aux descripteurs propres et communs : - le nombre total de groupes calculés sur un segment ; le nombre moyen d'images clefs par groupe sur un segment ; le nombre total de groupes contenant des images à la fois d'un premier et d'un deuxième segment ; le nombre moyen d'images clefs par groupe contenant des images d'un premier segment et d'un deuxième segment.
Ces valeurs sont fournies, sous la forme d'un vecteur, au classifieur. Sur cette base, le classifieur rend une réponse permettant de valider l'appartenance des segments à un même programme. Méthodes alternatives de décision de fusion
Le procédé de l'invention a été présenté dans le cadre de la mise en œuvre d'un unique classifieur binaire qui permet de déterminer si des segments appartiennent à un même programme. D'autres approches sont bien entendu possibles. Elles peuvent être basées sur une mise en œuvre générale de perceptron, dont les classifieurs font partie. Elles peuvent également être basées sur toute autre approche permettant d'obtenir une information relative à l'appartenance des segments à un même programme audiovisuel en fonction des données des descripteurs préalablement calculés. Autres caractéristiques optionnelles et avantages
On présente, en relation avec la figure 6, un mode de réalisation d'un dispositif de fusion selon l'invention.
Un tel dispositif de fusion comprend une mémoire 61, une unité de traitement 62 équipée par exemple d'un microprocesseur, et pilotée par le programme d'ordinateur 63, mettant en œuvre le procédé selon l'invention.
A l'initialisation, les instructions de code du programme d'ordinateur 63 sont par exemple chargées dans une mémoire RAM avant d'être exécutées par le processeur de l'unité de traitement 62. L'unité de traitement 62 reçoit en entrée le flux audio visuel découpé en plusieurs segments. Le microprocesseur de l'unité de traitement 62 met en œuvre les étapes du procédé de fusions, selon les instructions du programme d'ordinateur 61 pour décider de l'appartenance des différents segments à un même programme. Pour cela, le dispositif de fusion comprend, outre la mémoire 61, pour au moins un premier et au moins un deuxième segment de la pluralité de segments, des moyens de calcul d'un ensemble de descripteurs de différents types et des moyens d'obtention d'une information représentative d'une appartenance des segments à un même programme audiovisuel en fonction de données représentatives desdits descripteurs préalablement calculés. Ces moyens sont pilotés par le microprocesseur de l'unité de traitement 62.

Claims

REVENDICATIONS
1. Procédé de fusion de segments d'un flux audiovisuel préalablement découpé en une pluralité de segments de programmes à fusionner, caractérisé en ce qu'il comprend, pour au moins un premier et au moins un deuxième segment de ladite pluralité de segments, une étape de calcul d'un ensemble de descripteurs ; et en ce qu'il comprend une étape d'obtention d'au moins une information représentative d'une appartenance desdits au moins un premier et au moins un deuxième segment à un même programme audiovisuel en fonction de données représentatives desdits descripteurs préalablement calculés.
2. Procédé selon la revendication 1, caractérisé en ce que ledit ensemble de descripteurs comprend : un premier sous-ensemble d'au moins un descripteur propre audit au moins un premier segment ; un deuxième sous-ensemble d'au moins un descripteur propre audit au moins un deuxième segment.
3. Procédé selon l'une quelconque des revendications 1 ou 2, caractérisé en ce que ledit ensemble de descripteurs comprend un sous-ensemble de descripteurs calculés en utilisant des données appartenant audit au moins un premier segment et audit au moins un deuxième segment, dits descripteurs communs.
4. Procédé selon la revendication 2 ou 3, caractérisé en ce qu'il comprend au moins une étape de calcul d'une distance séparant un descripteur dudit premier sous-ensemble de descripteurs propres et un descripteur de même type correspondant dudit deuxième sous ensemble de descripteurs propres, délivrant un vecteur d'au moins une distance.
5. Procédé selon la revendication 1, caractérisé en ce que lesdits descripteurs sont de différents types, lesdits types appartenant au groupe comprenant : - le rapport entre un nombre d'images clés d'un segment et une durée de ce segment ; un histogramme de couleurs en trois dimensions dans l'espace des couleurs
RVB de la moyenne des couleurs sur toutes les images clés d'un segment ; un histogramme de couleurs en 3 dimensions dans l'espace des couleurs RVB de l'intersection des couleurs sur toutes les images clés d'un segment ; le rapport du nombre de visages détectés sur le segment et une durée d'un segment ; la moyenne et l'écart type du nombre de visages détectés par images clés d'un segment ; la taille maximale des visages détectés sur toutes les images clés d'un segment ; la moyenne et l'écart type de la taille des visages détectés par images clés d'un segment ; - le nombre de groupes d'images clés similaires d'un segment ; le nombre de groupes d'images clés similaires contenant des images clés appartenant audit au moins un premier segment et audit au moins deuxième segment ; la moyenne et l'écart type du nombre d'images similaires par groupes d'images similaires.
6. Procédé selon la revendication 4, caractérisé en ce que lesdites distances séparant lesdits descripteurs appartiennent au groupe comprenant : la valeur absolue de la différence ; la distance euclidienne ; - la distance de corrélation selon le coefficient de corrélation de Pearson ; la distance du Chi-Square ; la distance d'intersection qui est la somme des minimums respectifs entre les valeurs respectives de deux distributions ; la distance de Bhattacharyya.
7. Procédé selon la revendication 1, caractérisé en ce qu'il comprend, préalablement à la fusion, une phase d'apprentissage au cours de laquelle un classifieur apprend à différentier différentes classes d'appartenance de programmes audiovisuels.
8. Procédé selon la revendication 4, caractérisé en ce que ladite étape d'obtention comprend : une étape de transmission dudit vecteur de distances et/ou desdits descripteurs communs à un classifieur préalablement entraîné ; une étape de classification supervisée desdits au moins un premier et au moins un deuxième segment en fonction desdites distances dudit vecteur de distances et/ou desdits descripteurs communs.
9. Dispositif de fusion de segments d'un flux audiovisuel préalablement découpé en une pluralité de segments de programmes à fusionner, caractérisé en ce qu'il comprend, pour au moins un premier et au moins un deuxième segment de ladite pluralité de segments, des moyens de calcul d'un ensemble de descripteurs ; et en ce qu'il comprend des moyens d'obtention d'au moins une information représentative d'une appartenance desdits au moins un premier et au moins un deuxième segment à un programme audiovisuel identique en fonction de données représentatives desdits descripteurs préalablement calculés.
10. Programme d'ordinateur caractérisé en ce qu'il comprend des instructions de code de programme pour la mise en œuvre du procédé de fusion selon la revendication 1, lorsque ce programme est exécuté par un processeur.
EP10707578A 2009-02-06 2010-01-25 Procède de fusion de segments de programmes audiovisuels, dispositif, et produit programme d'ordinateur correspondant Ceased EP2394246A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0950772 2009-02-06
PCT/FR2010/050104 WO2010089488A1 (fr) 2009-02-06 2010-01-25 Procède de fusion de segments de programmes audiovisuels, dispositif, et produit programme d'ordinateur correspondant

Publications (1)

Publication Number Publication Date
EP2394246A1 true EP2394246A1 (fr) 2011-12-14

Family

ID=41078147

Family Applications (1)

Application Number Title Priority Date Filing Date
EP10707578A Ceased EP2394246A1 (fr) 2009-02-06 2010-01-25 Procède de fusion de segments de programmes audiovisuels, dispositif, et produit programme d'ordinateur correspondant

Country Status (2)

Country Link
EP (1) EP2394246A1 (fr)
WO (1) WO2010089488A1 (fr)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3188019B1 (fr) * 2015-12-30 2019-09-18 InterDigital CE Patent Holdings Procédé pour sélectionner un contenu comprenant des données audiovisuelles et dispositif électronique correspondant, système, produit de programme lisible par ordinateur et support de stockage lisible par ordinateur

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6473095B1 (en) * 1998-07-16 2002-10-29 Koninklijke Philips Electronics N.V. Histogram method for characterizing video content
US6711587B1 (en) * 2000-09-05 2004-03-23 Hewlett-Packard Development Company, L.P. Keyframe selection to represent a video
JP4215681B2 (ja) * 2004-05-26 2009-01-28 株式会社東芝 動画像処理装置及びその方法
US7756338B2 (en) * 2007-02-14 2010-07-13 Mitsubishi Electric Research Laboratories, Inc. Method for detecting scene boundaries in genre independent videos

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2010089488A1 *

Also Published As

Publication number Publication date
WO2010089488A1 (fr) 2010-08-12

Similar Documents

Publication Publication Date Title
US9510044B1 (en) TV content segmentation, categorization and identification and time-aligned applications
US9414128B2 (en) System and method for providing content-aware persistent advertisements
US7565016B2 (en) Learning-based automatic commercial content detection
CN101395607B (zh) 用于自动生成多个图像的概要的方法和设备
US8706675B1 (en) Video content claiming classifier
US20160014440A1 (en) Video content analysis for automatic demographics recognition of users and videos
EP2104937B1 (fr) Procede de creation d'un nouveau sommaire d'un document audiovisuel comportant deja un sommaire et des reportages et recepteur mettant en oeuvre le procede
EP1556794B1 (fr) Procede de selection de germes pour le regroupement d'images-cles
Li et al. Efficient video copy detection using multi-modality and dynamic path search
WO2010089488A1 (fr) Procède de fusion de segments de programmes audiovisuels, dispositif, et produit programme d'ordinateur correspondant
Narwal et al. A novel multi-modal neural network approach for dynamic and generic sports video summarization
Wang et al. Visual saliency based aerial video summarization by online scene classification
WO2018114108A1 (fr) Procede d'enregistrement d'un programme telediffuse a venir
Broilo et al. Unsupervised event segmentation of news content with multimodal cues
EP2401700B1 (fr) Traitement d'un flux de données numériques
Koźbiał et al. Collection, analysis and summarization of video content
Zlitni et al. A visual grammar approach for TV program identification
Glasberg et al. Cartoon-recognition using visual-descriptors and a multilayer-perceptron
Min et al. Near-duplicate video detection using temporal patterns of semantic concepts
US10713496B2 (en) Method and system for hardware, channel, language and ad length agnostic detection of televised advertisements
Barbieri Automatic summarization of narrative video
EP2097837B1 (fr) Structuration d'un flux de données numeriques
Petit Context-aware person recognition in TV programs
Brezeale et al. Learning video preferences from video content
Manson et al. Content-based video segment reunification for TV program extraction

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20110824

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO SE SI SK SM TR

DAX Request for extension of the european patent (deleted)
17Q First examination report despatched

Effective date: 20120706

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: ORANGE

REG Reference to a national code

Ref country code: DE

Ref legal event code: R003

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN REFUSED

18R Application refused

Effective date: 20140116