EP1435054A2 - Procede d'indexation et de comparaison de documents multimedia - Google Patents

Procede d'indexation et de comparaison de documents multimedia

Info

Publication number
EP1435054A2
EP1435054A2 EP02790506A EP02790506A EP1435054A2 EP 1435054 A2 EP1435054 A2 EP 1435054A2 EP 02790506 A EP02790506 A EP 02790506A EP 02790506 A EP02790506 A EP 02790506A EP 1435054 A2 EP1435054 A2 EP 1435054A2
Authority
EP
European Patent Office
Prior art keywords
media
meta
hypergraph
elementary
multimedia
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP02790506A
Other languages
German (de)
English (en)
Inventor
Marc Pic
Hassane Essafi
Michel-Pierre Gayrard
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Commissariat a lEnergie Atomique et aux Energies Alternatives CEA
Original Assignee
Commissariat a lEnergie Atomique CEA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Commissariat a lEnergie Atomique CEA filed Critical Commissariat a lEnergie Atomique CEA
Publication of EP1435054A2 publication Critical patent/EP1435054A2/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Definitions

  • the present invention relates to a method of indexing, storing and comparing multimedia documents, which in particular allows applications to search for archived multimedia documents.
  • the invention aims to solve the problem of managing large volumes of data within multimedia documents and to enable comparisons to be made between multimedia documents without processing all the data, even compressed, contained in these multimedia documents to compare.
  • first and second composite multimedia documents each comprising at least two elementary media chosen from categories comprising images, sounds, video signals, animated vector graphics and texts, characterized in that it comprises the following stages: a / assignment of a meta-identifier to each of the first and second composite multimedia documents, which meta-identifier includes under the form of a weighted hypergraph of nodes and of relations between these nodes, meta-segments uniquely identifying elementary media composing the multimedia document concerned, b / recursion on the secondary trees of intra-media relations of each elementary media first and second composite multimedia documents, c / for the hypergraph of each elementary media of the first multimedia document, operation of maximizing the identification with the hypergraph of an elementary media of the second multimedia document, d / for the hypergraph of each elementary media of the first multimedia document, determination of the costs of professional editing operations examining the maximum or quasi-maximum identifications with a hypergraph of an elementary media of the second multimedia document and expression of the
  • Each elementary media can be a single-media document belonging to a single media category or a multimedia document comprising sub-elements belonging to different media categories.
  • steps c / and d / themselves include the following steps: cl / for each elementary media of the first multimedia document to be compared to an elementary media of the second multimedia document, definition , as a function of the sought-after similarities, of an intra-media cost function based on a principle of editing hypergraphs referring to a similarity distance between hypergraphs, c2 / exploration of all the possible transformations which make it possible to transform l hypergraph of each of the elementary media of the first multimedia document into a hypergraph as close as possible to the hypergraph of each of the elementary media of the second multimedia document, dl / determination of the cost of each transformation according to the rules defined in step cl, and d2 / selection, for each of the elementary media of the first multimedia document, of the transformation at minimal cost.
  • steps f / and g / can themselves include the following steps: fl / for all the elementary media of the first multimedia document to be compared to the elementary media of the second multimedia document, definition, as a function of the sought-after similarities, of an inter-media cost function based on a principle of editing hypergraphs referring to a similarity distance between hypergraphs, f2 / exploration of all the possible transformations which transform the hypergraph of the first composite multimedia document into a hypergraph as close as possible to the hypergraph of the second composite multimedia document, gl / determination of the cost of each transformation according to the rules defined in step fl /, and g2 / selection of the transformation whose cost is minimal.
  • steps c / and d / include the implementation of a sub-optimal optimization method such as a genetic algorithm, a neural network processing or by simulated annealing, to produce a transformation whose cost is as low as possible compared to the selected optimization process.
  • a sub-optimal optimization method such as a genetic algorithm, a neural network processing or by simulated annealing
  • steps f / and g / can include the implementation of a sub-optimal optimization method such as a genetic algorithm, neural network processing or by simulated annealing, to produce a transformation whose the cost is as low as possible compared to the optimization process chosen.
  • a sub-optimal optimization method such as a genetic algorithm, neural network processing or by simulated annealing
  • a point-to-point comparison of the meta-segments of nature is carried out vector by means of a vector distance chosen from Euclidean, Riemann type distances with parameter L and Mahalanobis, so as to produce results constituting pairing scores between the compared meta-segments two by two, and a comparison is made of the hypergraph meta-segments and the production of a synthetic score of distance between documents by weighting the results of point-to-point comparisons of meta-segments by the probability of pairing between each corresponding branch of the trees of the two documents.
  • the method according to the invention is advantageously applied to the storage of multimedia documents in a database, this storage operation comprising the arrangement by automatic hierarchical classification of common branches, identical or almost identical, of hypergraphs representing the meta-identifiers of the documents multimedia to archive.
  • the addition of a new meta-identifier corresponding to a multimedia document to be archived, in a database already comprising a set of meta-identifiers and a set of intermediate objects representing parts of the meta-identifiers intended to be easily recognized comprises the following steps: i / decomposition of the new meta-identifier into elementary meta-identifiers coding the various elementary media contained in the document multimedia to archive, ii / construction of a production tree of relations between elementary media, iii / recursive application of steps i / and ii / to each elementary meta-identifier to produce production trees of relations within each of the media elementary, trees being stored independently, but relationships included ion being added to note the link between an elementary media described in the production tree of the relationships between elementary media and the constituents of this elementary media in the tree of production of relationships within this elementary media considered.
  • the step of decomposing the new meta-identifier is carried out by scanning the entire hypergraph associated with this new meta-identifier and by selecting the groups of neighboring nodes whose support media is identical.
  • the step of constructing a tree for producing relationships between elementary media includes in particular the following operations: - constructing a simplified hypergraph by associating a node with each elementary meta-identifier and by copying relations linking the nodes of the elementary media with their respective meta-identifiers, with suppression of relations of the same nature connecting two same nodes, - cutting of the hypergraph into sub-hypergraphs connected by increasing number of nodes,
  • the invention also relates to a method applied to the search for a multimedia document archived in a database, characterized in that it comprises the following steps:
  • meta-identifier includes in the form of a weighted hypergraph of nodes and of relationships between these nodes, meta-segments uniquely identifying elementary media composing the multimedia document concerned,
  • meta-identifier includes in the form of a weighted hypergraph of nodes and relations between these nodes, meta-segments uniquely identifying elementary media composing the composite request , - recursion on the secondary trees of intra-media relations of the elementary media of each of the multimedia documents of the database,
  • the method applied to the search for a multimedia document archived in a database is characterized in that the steps of individual processing of the multimedia documents in the database are carried out prior to the presentation of a composite query and the results of these individual processing steps are kept for processing a set of different composite queries, in that the database is organized with a storage comprising storage by automatic hierarchical classification of common, identical or almost identical, hypergraphs representing the meta-identifiers of multimedia documents to archive, and in that, instead of comparing the global hypergraph of the composite query with the hypergraphs of all the multimedia documents in the database, we proceed to a hierarchical search in the hierarchy of the hypergraph classes of all the multimedia documents in the database and comparisons are made between the global hypergraph of the composite request and the representatives of said classes.
  • the subject of the invention is also a method of indexing a composite multimedia document comprising at least two elementary media chosen from the categories comprising images, sounds, video signals, animated vector graphics and texts, characterized in that that it comprises the following stages: a / assignment of a meta-identifier to the composite multimedia document, which meta-identifier includes in the form of a weighted hypergraph of nodes and of relations between these nodes, meta-segments identifying of unequivocal way of the elementary media composing the composite multimedia document, b / recursion on the secondary trees of intra-media relations of the elementary media of the composite multimedia document, and c / recursion on the main tree of production of the inter-media relations between the media elements of the composite multimedia document.
  • FIG. 1 is a diagram showing the different stages of an example of a method according to the invention allowing the indexing of a multimedia document, the storage of this document in a database data and a query request from the database using comparisons between multimedia documents,
  • FIG. 2 is a set of diagrams explaining different stages of the indexing of a multimedia document to be archived in a database according to a method according to the invention
  • FIG. 3 is a set of diagrams explaining different stages of the process of searching for a multimedia document stored in a database, on the basis of a query, by implementing a comparison method in accordance with the invention
  • FIG. 4 is an example of a graph representing a multimedia document
  • - Figure 6 is an example of a relationship production graph
  • - Figure 7 is a comparison diagram between examples of graphs representing two multimedia documents
  • FIG. 8 is a diagram illustrating a process of segmenting a multimedia document into more elementary components
  • FIG. 9 and 10 represent the application of two different methods to extract local information on two sets of four images
  • FIG. 11 is a diagram illustrating a multimedia document search process using a comparison method according to the invention.
  • - Figure 12 is similar to Figure 11 but shows a diagram in the form of a query hypergraph
  • - Figures 13 and 14 show two examples of comparison of simple sub-hypergraphs of a research graph with simple sub-hypergraphs classified in the database.
  • the method according to the invention makes it possible to obtain, from a multimedia document of any kind, a recognizable trace which then makes it possible to recognize, by comparison, the use or re-use of all or part of this document or variant of this document within another multimedia document, without it being necessary to process the entire content of the multimedia documents subjected to comparisons.
  • the highlighting and the conservation of the recognizable trace constitute an operation which will be designated by the term of recording in the continuation of the description.
  • the method of comparing documents according to the invention can be implemented both on localized storage media and distributed over a network and can be applied in particular to tracking documents.
  • the method of recording multimedia documents by content which is a prerequisite for the comparison operations between multimedia documents, essentially comprises three successive steps.
  • the first step is a meta-segmentation step which consists in analyzing the document in its entirety so as to extract the concrete or abstract monomedia or multimedia elements.
  • the metasegments obtained are characterized by means of specific digital processing intended to identify categories of information which uniquely identify the contents of the metasegments.
  • a meta-identifier is produced, composed from information that uniquely identifies the contents of the metasegments.
  • the meta-identifier authorizes identification by content.
  • a set of numeric values can represent concrete information such as the histogram of colors contained in an image of the document or the Zernike moments of parts of the document.
  • Abstract information can also be stored in the form of linked text fields indicating for example the relationship between the image and the legend of a figure or even the words covering the same semantic space in two documents, one audible and the other text, multimedia documents.
  • the tracking process implements a particular structuring of meta-identifiers which makes it possible to compare effective meta-identifiers within a large number of multimedia documents.
  • the comparisons can be made by specific weighting (by means of multiplicative parameters adapted to each media, coming from lists established a priori and by improvement of these lists provided by each user (by directly changing the values or by having them changed by a neural network type learning mechanism based on user profile) of meta-segment similarity assessment algorithms.
  • the meta-segmentation process consists of implementing several digital processing algorithms on the digital data which constitute the multimedia document. These algorithms are used concurrently and produce redundant information to which respective weights are assigned according to the success or failure rates of the different methods and according to the levels of confidence granted.
  • the method of indexing a multimedia document 101 to be indexed comprises the initial step 110 of adding the document in question to a database 170, the step 110 consisting in analyzing the document to be indexed 101 so as to extract media elementary elements may be single-media elements belonging to a single media category, or multimedia elements themselves comprising sub-elements belonging to different media categories.
  • the meta-segmentation process can be performed recursively by combining intra-media analyzes and inter-media analyzes.
  • the meta-segments obtained are characterized by means of specific digital processing intended to identify categories of concrete and abstract information which uniquely identify the contents of these meta-segments.
  • a meta-identifier is produced composed from information characterizing the meta-segments.
  • the steps 140 and 150 implement a process of structuring the meta-identifiers and defining the structure which, by the process of recording the document of the step 160, will be integrated into the database 170.
  • Step 180 represents a process for improving the internal representation of the database 170 after adding the structure S characterizing the document 101, by carrying out comparisons reasons with previously saved multimedia document structures.
  • the method for searching for a multimedia document illustrated in the module 200 comprises the presentation of a request 201 for searching for a multimedia document to be found.
  • the request 201 is applied to an initial input step 210 which, like the step 100, constitutes an analysis and meta-segmentation step for extracting elementary media from the composite request 201.
  • the characterization of the meta-segments of the composite request 201 takes place in a step 220 which is analogous to step 120 of the indexing method, and is itself followed by a step 230 of producing meta-identifiers from the meta-segments, analogously to step 130.
  • the following steps 240 and 252, like steps 140 and 150, implement a process for structuring the meta-identifiers and defining the structure S which will be compared to the structures S of stored multimedia documents in the database 270 which has been reorganized after each addition of a new document.
  • Step 260 consists in a comparison between the structure S resulting from the composite request 201 and the structures S stored in the database 270, by evaluation of similarity of each meta-segment.
  • Step 280 consists of a comparison weighting of meta-identifiers and step 290 consists of the presentation of a list of relevant multimedia documents with scores.
  • the meta-identifier mechanism which is implemented in the method according to the invention makes it possible to represent the characteristics of each medium contained within a multimedia document as well as the structure of the complex relationships which associate these different elements.
  • This mechanism is hierarchical with a number of varying levels of nesting depending on the complexity of the multimedia document. Its coding is present in the form of a weighted hypergraph of nodes and relations between these nodes. The weights on nodes and arcs are in the form of floating point encoders or integers. Each node represents a characteristic which could be considered elementary at the corresponding level of decomposition of this hierarchy.
  • the lowest level it can for example be a set of document analysis criteria: for an image, it can be Zernike moments calculated locally, color histograms, IFS (iterated function systems) or any other local characteristic, examples of which will be given later.
  • it will be the hypergraph of characteristics of the part of the analyzed media which is symbolized by this node.
  • the arcs between the nodes represent the structural relationships that connect the features.
  • Meta-identifiers including, in the form of a weighted hypergraph of nodes and relations between these nodes, meta-segments uniquely identifying elementary media, constitute compact information capable of describing multimedia documents and capable of enabling the distinction or the identification of two documents by authorizing the measurement of the potential similarity between two multimedia documents without constituting a compression of all the information contained in the documents which they make it possible to identify. Meta-identifiers thus represent a much lower volume of data than that of the documents from which they are produced.
  • the indexing and search process illustrated in FIG. 1 will be described again in general with reference to a particular example illustrated in FIGS. 2 and 3.
  • FIG. 2 the illustration of the process of indexing a multimedia document 10 whose analysis reveals that it comprises a first elementary media 11 consisting of an image and two other elementary media 12 and 13 each consisting of a text part.
  • the elementary media 11 to 13 are extracted from the multimedia document 10 and constitute meta-segments which are characterized by means of specific digital processing adapted to the media concerned (text or image).
  • Inter-media relationships 21 to 25 are highlighted between the elementary media 11 to 13, while within each elementary media, intra-media relationships are identified.
  • three components 31, 32, 33 are shown, resulting from the segmentation of the image 11 and giving rise to intra-media relationships 41 to 43.
  • Figure 3 illustrates a process for searching for a multimedia document from a composite query, applied to the same example as that in Figure 2.
  • the composite query includes searching for a multimedia document in which there is a firstly an image 51 associated with a text block 52 and secondly the same image 51 associated with another text block 53.
  • Each of the parts of the composite request linked by the operator AND is translated into a meta signature segments 51, 52 respectively 51, 53 and these meta-segments are organized into hypergraphs with intra-media relations 41 to 45 and inter-media 21, 22.
  • step 60 After meeting of the hypergraphs corresponding to each of the parts of the composite request, it is carried out in the step 60 to a comparison of the hypergraph resulting from the composite query and of the hypergraphs of the multimedia documents stored in the database, the best score being produced by the comparison with the hypergraph associated with document 10.
  • the production of the result at l step 70 brings up document 10 and a matching score 71.
  • Figures 4 to 6 the process of saving a multimedia document in a database and the process of improving the internal representation of a database after adding new documents, by a method of comparison between documents.
  • the database is originally composed of a set of meta-identifiers and a set of intermediate objects which will represent parts of the meta-identifiers intended to be easily recognized.
  • the addition of a new meta-identifier in the database is carried out according to the following insertion scheme: a / decomposition of the meta-identifier into meta-identifiers encoding the different media contained in the object (i.e. - say monomedia identifiers). This decomposition is carried out by browsing integrally the hypergraph and by selecting the groups of neighboring nodes whose support media is identical. b / construction of a production tree for media relations.
  • This operation is carried out by associating a node with each monomedia identifier and by copying the relations linking the nodes of these monomedia to their respective identifier. Relations of the same kind which link two same nodes are deleted (reduction of redundancy).
  • We then search for similar sub-hypergraphs by means of a point-to-point comparison, a sub-hypergraph being compared to another sub-hypergraph for all combinations of sub-hypergraphs with the same number of elements.
  • each class is associated with a representation of length inversely proportional to the number of similar sub-hypergraphs within this class. Only the set of sub-hypergraph classes with a representation length less than a value fixed in advance is retained. We repeat the process for all the sub-hypergraphs of three nodes of which a sub-hypergraph of two nodes belongs to the set thus selected, and so on for four nodes, etc. up to a limit fixed in advance to avoid the combinatorial explosion or until there are no more nodes in the hypergraph of the meta-identifier analyzed.
  • the classes of sub-hypergraphs are then linked by weighted arcs which will contain the instantiation information for this meta-identifier.
  • the set of arcs between all the classes of the base builds a tree: it is the production tree for media relations. If one stopped the analysis process before the fixed limit (that is to say that one stopped by exhausting the nodes to be treated), one obtains the following property: a path within this tree from the root to a leaf represents a meta-identifier. If it is not the case, it is necessary to add a node which will connect all the sub-hypergraphs of terminal value by an arc containing in its weighting the information allowing the reconstitution of the rest of the tree.
  • each monomedia identifier it is the tree for producing relationships within this media.
  • These different trees are stored independently, but we add inclusion relations to note the link between a medium described in the production tree of relations between the media and the constituents of this medium in the production tree of relations within corresponding media. This relation is obtained by copying the original arc of the meta-identifier which translates this relation.
  • each of the trees thus considered has as hypergraphs of relations.
  • the database then consists of a main tree coding the relationships between the media within the documents and secondary trees coding for each of the media.
  • Each meta-identifier (and therefore each document) is represented in a unique way by means of a path within the main tree and one or more paths in the secondary trees required depending on the media used.
  • This structure is also used when estimating similarity between meta-identifiers (i.e. between documents).
  • Figure 4 represents the graph of representation of a multimedia document with for example, elements A and B linked by a first relation 301, elements C and D linked by this same relation 301, the elements A and C on the one hand and B and D on the other hand being each linked by the same relation 302 different from the relation 301.
  • the element D is itself connected to another element E by a third relation 303.
  • Figure 5 shows the decomposition of the graph of Figure 4 into binary elements.
  • the elements linked by the relation 301 belong to a class Bl.
  • the elements linked by the relation 302 belong to a class B2.
  • the elements linked by the relation 303 belong to a class B3.
  • Figure 6 shows the graph of production of relations with connections between a class C4 of elements linked at the same time by the relation 301 and the relation 302 and on the one hand the class Bl of the elements connected by the only relation 301 and d 'on the other hand the class B2 of the elements connected by the only relation 302.
  • the computation of the similarity is carried out by means of recursive methods on the elements of the hypergraph of the meta-identifier.
  • a cost function based on a hypergraph editing principle (cf. String-edit or graph-edit) is applied to determine the distance between the weighted hypergraphs of the two meta-identifiers.
  • the cost of this operation constitutes the distance of similarity between the two meta-identifiers.
  • the process is made up of two nested operating loops: the first is a recursion within each elementary media within composite documents, the second is a recursion on all elementary media in composite documents.
  • the transformations authorized to pass from a document A to a document B are the editing operations: adding a link, a branch or a terminal sheet, deleting a link, a branch or d 'a terminal sheet, changing the content of a branch or a terminal sheet.
  • step b / and 1 / defined below the change in the content of a terminal sheet can be measured as the distance between the original content and the target content weighted by a coefficient (1 for example).
  • the distance between the contents is the distance applied to the characterization of the medium, for example the distance of visual similarity (Zernike + Mahalanobis) for images.
  • the detailed comparison process is as follows: a / recursion on elementary media (secondary trees), b / definition of the intra-media cost function as a function of the similarities sought, c / mechanism for maximizing identification for each media elementary: 2 options: d / first option: optimal method e / we explore the set of possible transformations which make it possible to transform the media hypergraph M into the media hypergraph L, f / we determine the cost of each following transformation the rules defined in b /, g / we select the transformation whose cost is minimal, h / second option: sub-optimal method i / we use a sub-optimal optimization algorithm (generic algorithm, neural network, simulated annealing , etc.) to produce a transformation at the lowest possible cost compared to the chosen method.
  • a sub-optimal optimization algorithm generator, neural network, simulated annealing , etc.
  • the distance between elementary media is the cost of the optimal or sub-optimal editing operation found, the operations of retained transformations are those corresponding to this editing operation, k / recursion on the production tree of relations between the media (main tree), 1 / definition of the inter-media cost function as a function of the similarities sought, m / mechanism for maximizing the identification between elementary media: 2 options: n / first option: optimal method o / we explore all the possible transformations which make it possible to transform the hypergraph of the composite document A into the hypergraph of the composite document B, p / we determine the cost of each transformation according to the rules defined in I /, q / we select the transformation whose cost is minimal, r / second option: sub-optimal method s / we use a sub optimization algorithm -optimal (generic algorithm, neural network, simulated annealing, etc.) to produce a transformation whose cost is as low as possible compared to the retained method ue. t / the distance between the composite documents is the
  • Figure 7 shows an example of determining the distance between two composite documents.
  • the graph in document 1 includes elements A and B linked to an element C.
  • the graph in document 2 includes elements A ', B and D linked to an element C.
  • the cost of transformations that is to say the distance between the two composite documents 1 and 2 can be expressed as follows: Cost of changing from A to A ':
  • b / point-to-point comparison of meta-segments of vector nature by means of a vector distance: i / Vector distance: we use a distance of type: a. Euclidean V ( ⁇ Xi 2 ) b. Riemann with parameter L: ( ⁇ Xj L ) c. Mahalanobis. j / Normalization of this distance in relation to an estimated average distribution in relation to a multimedia reference database, several options are possible: a. No standardization, b.
  • each distance value calculated in the previous step is divided by the average of the vector distances calculated between all the images in the reference base taken couple of images by couple of images. k / The result will be called the matching score between the two compared meta-segments.
  • the distance of hypergraphs is characterized by the definition of cost rules for graph editing operations: adding a node, removing a node, adding a link, removing a link. 2. for each of these operations a cost can be given.
  • a. uniform equal cost for all publishing operations
  • b. hyper-uniform equal cost for all editing operations at the same level of hypergraphs at this level of hypergraphs
  • c. variable costs set manually based on experience on the nature of the documents modeled.
  • ii / We calculate the sum of the costs that apply to transform the tree of the first document into the tree of the second document. If several transformations can apply, the minimum value sum will be chosen. To simplify this calculation, one can choose to apply a rule for calculating these costs based on a sub-optimal process and be satisfied with this result.
  • iii / The minimum or sub-minimum sum of costs constitutes the score for matching the two documents.
  • a query expressed in the query language referenced () is translated into a signature of vector meta-segments whose value corresponds to the index of the atomic query.
  • the organization in hypergraphs of these meta-segments is carried out by describing the request in the form of hypergraphs of relations between atomic requests and by translating the operators of relations of the request in the following way:
  • Operator a OR b production of two distinct hypergraphs with a in one and b in the other instead of the node (a OR b).
  • Operator NON a replacement by the node a with addition of a flag representing the sign of the presence of a (locally).
  • the comparison of the signature is carried out in the same way as in the previous step except for the comparison of the flag encoding the sign: the score produced by the comparison of each branch is weighted by the sign of the node according to the relation: (1- score / norm (score)).
  • Other formulas can however be used (such as a binarization formula such as (score / norm (score)> threshold)? (- l); (0)), etc.).
  • This process is illustrated in Figures 11 to 14 by a typical case: either three atomic media a, b, c: a and b are texts, c is an image. We are looking for all documents with images resembling c, the legend of which contains the text a or the text b.
  • Figure 12 shows a translation in the form of a query hypergraph.
  • a pictorial medium presents several categories of elements that can help characterize it. It is useful to identify such a document to be able to relate the elements extracted from these different categories.
  • pictorial media photographs, diagrams, plans, drawings, .
  • This meta-identifier may itself be included in the meta-identifier of the multimedia document in which the imaged media is buried. We will talk about image in the following to mean generically the imaged media.
  • the first level of analysis consists in segmenting the media into components that can be analyzed independently. Several segmentations are used simultaneously:
  • the second part consists in creating a local identifier capable of characterizing each of the parts separately.
  • the third part consists in extracting the structural relations connecting these parts.
  • the fourth part finally, consists in recursively reapplying the analysis process thus defined on each of the parts.
  • the meta-identifier constructed for each of the parts is included by adding arcs coding relations of "object inclusions" between the nodes of the meta-identifier of the part to be included and that or those of the hypergraph of the previous level. which corresponds to this part.
  • the process stops either according to a maximum level fixed in advance, or when the segmentation methods no longer produce new parts.
  • Image parts can be characterized by means of support points
  • indexing images in current databases requires describing each image in natural language, using a textual corpus of defined expressions.
  • the photograph of a painting can be indexed using keywords such as "the painting contains: a skull, two figures in Renaissance costumes, with a background consisting of a table, a compass and cards, and tapestries. " Usually, a painting, to continue with the same example, will be described using its physical characteristics, such as the size of the canvas, the type of support (canvas, wood, ...) and the material of the paint (oil, ).
  • Image comparison can be performed using local characteristics (Zernike moments or IFS) to make precise use of the content of an image.
  • IFS local characteristics
  • Figures 9 and 10 show the concept and the advantages of adaptive grids allowing the extraction of local information.
  • the content of each part of the score is different so that the signatures will be different.
  • the score and the content of the score remain the same, so that the signatures will be very close.
  • Such a technique can be used for documents comprising both images and texts provided that the structural organization of the composite documents is preserved. Sounds can also be analyzed and indexed following the same principle. Video signals (thanks to representation and mosaic technologies) or other multimedia objects can also be processed in the same way as long as they have a composite structure formed of basic media.
  • the first level of analysis consists in segmenting the media into components that can be analyzed independently, which can be called “characteristic components”. Several segmentations are used: here again the principle of the ordered list is applied. These methods must be used in the following way within the process: depending on the nature of the multimedia documents analyzed and the external characteristics of the processing, such as speed constraints, memory space, etc., an ordered list of the methods to be used priority is established from a list of methods such as the methods presented below. The best ranked methods in this list are applied up to a threshold depending on the constraints previously indicated. segmentation by texture: by means of filters, gradients and thresholds, segmentation in the region is determined: »matrices of co-occurrences and texture indices,
  • unsupervised Markov method by germ formation, or by growth of low-level regions, or by growth of high-level regions, semi-supervised Markov method, etc. segmentation by scale: Wavelet transform method, Wavelet packet method, geometric pyramid methods based on the neighborhood, contour segmentation: Sobel filtering, Prewitt filtering, Kirsch directional filtering Hueartas-Médioni operator, Marr operator, Canny optimal filtering, Deriche filter, Shen filter, morphological gradient, so-called “watershed” method, Haralick operator, "Hueckel operator.
  • the second part consists in creating a local identifier capable of characterizing each of the parts separately. To do this, it uses one or more methods of a pre-established list, always using the principle of the ordered list. These methods should be used in the following way within the process: depending on the nature of the multimedia documents analyzed and the external characteristics of the processing, such as speed constraints, memory space, etc., an ordered list of methods to priority use is established from a list of methods such as the methods presented below. The highest ranked methods in this list are applied up to a threshold depending on the constraints previously indicated:
  • n points a vector representing a sampling on n values (equidistant or not) of the histogram of the image.
  • Local histogram with n points ditto on a neighborhood of a point (of any shape: disc, polygon, beziers, etc. depending or not depending on the content or other characteristic components).
  • Local statistical functions describing the content or its orientation Zernike, Hough coefficients, moments, etc. calculated on neighborhoods (cf. previous case).
  • Multi-scale functions wavelets, Haar calculated on the whole image or on a neighborhood.
  • the methods are the same as in the list above; on the other hand the neighborhood is more complex: it appears as the composition of the neighborhoods above or more simply as the area encompassed by the region of the media image.
  • the third part consists in extracting the structural relations connecting these parts according to a process analogous to that described below in relation to an extra-media analysis.
  • the fourth part finally, consists in recursively reapplying the analysis process thus defined on each of the parts.
  • the meta-identifier constructed for each of the parts is included by adding arcs coding relations of "object inclusions" between the nodes of the meta-identifier of the part to be included and that or those of the graph of the previous level which corresponds. (ent) to this part.
  • the process stops either according to a maximum level fixed in advance, or when the segmentation methods no longer produce new parts.
  • An example of characterization of the image-media parts will be given below by means of support points used within the previous system.
  • Various local or global characterization methods can be used to produce the weights of the meta-identifiers.
  • the features extracted in the context of image-media indexing can be separated into global and local features.
  • the overall characteristics correspond to the overall aspect of the organization of the media image.
  • sunsets can be represented by the distribution in the media image of a red color in the upper part of the media image on which an arc stands out. more or less orange.
  • a description is approximate, does not make it possible to find all the media images of the sunset (error by omission) and selects media images which will not be sunsets (noise type error).
  • Local methods require extracting invariant properties from each media image so that they can be compared. In the example of Figures 9 and 10, two methods are presented.
  • a multimedia object is composed of monomedia elements that can be analyzed independently and concurrently.
  • the process of producing a meta-identifier consists in decomposing this into more elementary media while keeping track of the structural relationships which link these different media, then reapplying this strategy to each of the media independently, keeping track of relationships structural connecting them.
  • the first phase of the process involves segmenting into more basic components of the original multimedia document. To do this, we successively apply three tools:
  • Tool for segmentation by medium using the information contained in the document format, this is separated into several media: audio, video and behavioral (program, HTML or XML description, etc.).
  • Temporal segmentation tool if the media has a temporal extension, it is cut into sections with temporal homogeneity. To do this, one or more spatial homogeneity functions are calculated on the support. We calculate:
  • Spatial segmentation tool by means of a spatial segmentation filter, the different objects that make up an image scene are determined. To do this, several methods are used concurrently, simultaneously or separately: segmentation by texture: filter segmentation by color: we calculate the distribution of colors segmentation by contours: active contours.
  • the phase following the segmentation is the identification of the objects: for each of the objects identified in the meta-identifier, the identification information specific to each object is determined, using appropriate methods. To do this, we use the image methods already described above or the sound methods which will be described below.
  • the other information is stored in text or coded by keywords depending on the nature of the information concerned: "90 degree rotational movement clockwise" for example.
  • the indexing of audiovisual media in the context of a database may require the use of several types of information. We can first of all distinguish the "atomic" information which is immediately extractable from a single aspect of the audiovisual document regardless of their context:
  • the text embedded on the media image it is recognized by means of OCR software on the media images which form the audiovisual sequence. Additional information concerning the media images (texts inscribed on objects in the sequence, product brands, illuminated signs) may possibly be associated but must be able to be distinguished reliably from voluntary text inlays.
  • Spoken text it is recognized from the soundtrack.
  • Voice analysis software allows you to extract, in the form of texts and annotations, the words spoken on the document's soundtrack. Additional information can be added to it, such as the differentiation of the speakers, their speaking conditions, possibly the identification of the speakers. More complex tools can be added to this raw extraction in order to more finely associate textual semantics and image-media semantics.
  • the TF-IDF Term Frequency - Inverse Document Frequency
  • the TF-IDF Term Frequency - Inverse Document Frequency
  • Noise and music the sound tracks contain, in addition to speech, music and sound effects which can be used under certain conditions, for example to identify a characteristic noise of an action (door slamming, telephone bell, etc.) which can constitute crucial information for the description of the sequence to be indexed. Musical identification could also be considered.
  • “Summary media images” a summary is a media image that will represent the major static characteristics of a shot in a video sequence. It can be a very simple technique, such as choosing the first or last media image of the plan, or a more sophisticated technique, such as constructing a mosaic media image of the scene concerned by the plan. A conventional fixed image-media indexing technique could then be applied to index the visual information characteristic of the analyzed sequence.
  • Camera movements / object movements depending on the shooting conditions, it is possible to analyze from the optical flow camera movements or filmed objects, zooms, panoramas, movements of crowds or unique items. This information can be used to qualify certain scenes and thus provide dynamic content on the semantics of the plan to be indexed.
  • Transitions under good conditions, it is possible to analyze the categories of transitions chosen during the editing of the video sequence. The information corresponding to these transitions can make it possible to identify the structural relationships between shots, for example by identifying the different jingles for changing subjects in a television news program. This analysis also requires relying on audio aspects.
  • Video objects the existence of objects can be detected and followed during a video sequence. It can be
  • a characterization mechanism by a meta-identifier applied to acoustic media i.e. media based on a one-dimensional digital representation of any acoustic mechanism, be it a sound, the human voice, music, shouts or noises: the determination of support points on one or more acoustic signal envelopes calculated at different resolutions used to calculate signatures capable of characterizing the signal locally.
  • the process takes place in four phases:
  • the first step consists in calculating envelopes of the signal at different resolutions by successively applying filters encoding wavelets on the signal.
  • Various wavelets such as Mallat, Daubechies, Coifman, Coiflets, wavelet packets, etc. can be used.
  • Filters are applied to the original signal to produce a detail signal and an approximation signal.
  • the filters are reapplied on the signals thus produced and this operation is repeated several times according to the sampling of the original signal.
  • the set of intermediate and final signals thus produced is then simplified to produce envelopes. This simplification is carried out by applying a filter (median filter, average filter, ).
  • the second phase consists in determining the support points. To do this, the relative variation of the first and second order signal is calculated to reduce the points for which these variations are maximum (concurrently or exclusively) on the simplified signals produced by the first phase.
  • the third phase consists in vectorizing the signal. It is therefore a question of representing the support points found in the previous phase by their position in the time-energy space or in the frequency-energy space.
  • the fourth phase consists of: calculating characterization information for the variation of the signal. So we calculate this information around a support point and between two successive support points within the maximum resolution signal; then to store this first information in the weighting of the corresponding meta-identifier node; to store this second information in the weighting of the arc connecting the two adequate nodes.
  • the characterization information is the average of the local derivatives of the signal at the first two orders (any other information of geometrical-mathematical nature can also be useful).
  • a natural language text indexing system is as follows: the text indexing system consists of two parts: the first part transforms the sentences of sentences written in natural language introduced into the system (whether to be saved and indexed or to be used as requests to find previously saved documents). This transformation aims to identify groups of words with their own meaning using dictionaries (which we will call LN dictionaries) and to separate them from the words "tools" (such as linking words, articles, etc.). These groups of words are replaced by the purest synonyms, then synonyms of polysemy, then close concepts, then semantically neighboring concepts, etc.).
  • This table constitutes the document access table.
  • This inverted table is concatenated with that already present in the database and sorted by lexicographic order or by reverse lexicographic order (depending on the type of language processed).
  • the documents themselves are stored independently, for example as files.
  • the rewriting of the query produced by the first phase is compared word by word or groups of words by group of words at the inverted table to find the texts where these words are present. With each appearance of a word is associated the synonymic weight as it was associated with it during the first phase. A score is produced by accumulating these weights.
  • the documents containing the texts obtaining the highest scores are the most relevant.
  • a list of documents classified in decreasing order of relevance is produced.
  • the signatures obtained at the level of each single-media indexing engine are in the form of hypergraphs weighted by vectors of numerical values or text representing the local characteristics associated with the points of support (points of interest in the images, limits of the sound envelopes for the sounds, etc.) of each of the media.
  • These vectors can themselves be replaced hierarchically by hypergraphs in the case of single-media engines employing the conjunction of several methods. This hierarchical approach can be iterated so as to produce a single hypergraph representing the signature of the characteristics connecting the different sub-hypergraphs of vectors of digital values associated with each level of processing (multimedia, monomedia, methods within the same media, etc.).
  • the arcs of these hypergraphs are used to carry specific relationships corresponding to the different structural information that can be found within a multimedia document (such as the connection between a figure and its text legend, or as the geometric transformation allowing to pass from 'one point of interest to another).
  • the search within such a structure represented by a hypergraph with nodes and branches weighted by information can be carried out by means of a method of comparison of sub-hypergraphs (suppression of a vertex or an arc, addition of a vertex or an arc, replacement of a vertex or an arc) with which one associates scores by means of a fixed method (such operation costs such number of points) or by means of a method learning (with feedback from a user).
  • scores must in all cases take into account (simple multiplication for example) the relative costs of the distances between the weights of the branches or nodes determined within the meaning of the methods specific to each single-media indexing engine.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Le procédé de comparaison de deux documents multimédia composites comportant chacun au moins deux médias élémentaires (images, sons, signaux vidéo, graphiques vectoriels animés ou textes), comprend les étapes suivantes : a/ affectation d'un méta-identifiant ô chacun des documents multimédia, ce méta-identifiant incluant sous la forme d'un hypergraphe pondéré de n uds et de relations entre ces n uds, des méta-segments identifiant de façon univoque des médias élémentaires composant le document multimédia concerné, b/ récursion sur les arbres secondaires de relations intra-média des médias élémentaires de chacun des documents, c/ pour l'hypergraphe de chaque média élémentaire du premier document, opération de maximalisation de l'identification avec l'hypergraphe d'un média élémentaire du deuxième document, d/ pour l'hypergraphe de chaque média élémentaire du premier document, détermination des coûts des opérations d'édition procurant les identifications maximales avec un hypergraphe d'un média élémentaire du deuxième document et expression des distances entre les médias élémentaires en fonction de ces coûts, e/ récursion sur l'arbre principal de production des relations inter-média entre les médias élémentaires de chacun des documents, f/ pour l'hypergraphe de l'ensemble des médias élémentaires du premier document, opération de maximalisation de l'identification avec l'hypergraphe de l'ensemble des médias élémentaires du deuxième document, g/ pour l'hypergraphe de l'ensemble des médias élémentaires du premier document, détermination du coût de l'opération d'édition procurant l'identification maximale avec un hypergraphe de l'ensemble des médias élémentaires du deuxième document, et expression de la distance entre les premier et deuxième documents multimédia en fonction de ce coût.

Description

Procédé d'indexation et de comparaison de documents multimédia
La présente invention concerne un procédé d'indexation, de stockage et de comparaison de documents multimédia, qui permet notamment des applications à la recherche de documents multimédia archivés.
Avec la révolution du numérique, on assiste à une explosion sans précédent du volume de données à traiter et les documents à exploiter sont de plus en plus souvent de type multimédia, c'est-à-dire faisant appel de façon simultanée et interactive à plusieurs modes de représentation de l'information : images fixes ou animées, sons, textes, photos, signaux vidéo, graphiques vectoriels animés,... On connaît déjà différents procédés de compression de données,
Toutefois, dans le cas où l'on effectue une compression de l'ensemble de l'information contenue dans un document multimédia, les volumes de données à traiter restent considérables lorsqu'il s'agit de procéder à des archivages ou surtout à des comparaisons entre plusieurs documents multimédia afin de retrouver une information déterminée incluse dans ces documents multimédia.
L'invention vise à résoudre le problème de la gestion de volumes de données importantes au sein de documents multimédia et à permettre d'effectuer des comparaisons entre documents multimédia sans procéder à un traitement de l'ensemble des données, même comprimées, contenues dans ces documents multimédia à comparer.
Ces buts sont atteints, conformément à l'invention, grâce à un procédé de comparaison d'un premier et d'un second documents multimédia composites comportant chacun au moins deux médias élémentaires choisis parmi des catégories comprenant des images, des sons, des signaux vidéo, des graphiques vectoriels animés et des textes, caractérisé en ce qu'il comprend les étapes suivantes : a/ affectation d'un méta-identifiant à chacun des premier et deuxième documents multimédia composites, lequel méta-identifiant inclut sous la forme d'un hypergraphe pondéré de nœuds et de relations entre ces nœuds, des méta-segments identifiant de façon univoque des médias élémentaires composant le document multimédia concerné, b/ récursion sur les arbres secondaires de relations intra-média des médias élémentaires de chacun des premier et deuxième documents multimédia composites, c/ pour l'hypergraphe de chaque média élémentaire du premier document multimédia, opération de maximalisation de l'identification avec l'hypergraphe d'un média élémentaire du deuxième document multimédia, d/ pour l'hypergraphe de chaque média élémentaire du premier document multimédia, détermination des coûts des opérations d'édition procurant les identifications maximales ou quasi maximales avec un hypergraphe d'un média élémentaire du deuxième document multimédia et expression des distances entre les médias élémentaires en fonction de ces coûts, e/ récursion sur l'arbre principal de production des relations inter-média entre les médias élémentaires de chacun des premier et deuxième documents multimédia composites, f/ pour l'hypergraphe de l'ensemble des médias élémentaires du premier document multimédia, opération de maximalisation de l'identification avec l'hypergraphe de l'ensemble des médias élémentaires du deuxième document multimédia, g/ pour l'hypergraphe de l'ensemble des médias élémentaires du premier document multimédia, détermination du coût de l'opération d'édition procurant l'identification maximale ou quasi maximale avec un hypergraphe de l'ensemble des médias élémentaires du deuxième document multimédia, et expression de la distance entre les premier et deuxième documents multimédia composites en fonction de ce coût.
Chaque média élémentaire peut être un document monomédia appartenant à une seule catégorie de médias ou un document multimédia comportant des sous-éléments appartenant à des catégories de médias différentes.
Selon un mode particulier de réalisation du procédé selon l'invention, les étapes c/ et d/ comprennent elles-mêmes les étapes suivantes : cl/ pour chaque média élémentaire du premier document multimédia à comparer à un média élémentaire du deuxième document multimédia, définition, en fonction des similarités recherchées, d'une fonction de coût intra-média basée sur un principe d'édition des hypergraphes faisant référence à une distance de similitude entre hypergraphes, c2/ exploration de l'ensemble des transformations possibles qui permettent de transformer l'hypergraphe de chacun des médias élémentaires du premier document multimédia en un hypergraphe le plus proche possible de l'hypergraphe de chacun des médias élémentaires du deuxième document multimédia, dl/ détermination du coût de chaque transformation suivant les règles définies à l'étape cl, et d2/ sélection, pour chacun des médias élémentaires du premier document multimédia, de la transformation dont le coût est minimal.
De même, les étapes f/ et g/ peuvent elles-mêmes comprendre les étapes suivantes : fl/ pour l'ensemble des médias élémentaires du premier document multimédia à comparer aux médias élémentaires du deuxième document multimédia, définition, en fonction des similarités recherchées, d'une fonction de coût inter-média basée sur un principe d'édition des hypergraphes faisant référence à une distance de similitude entre hypergraphes, f2/ exploration de l'ensemble des transformations possibles qui permettent de transformer l'hypergraphe du premier document multimédia composite en un hypergraphe le plus proche possible de l'hypergraphe du deuxième document multimédia composite, gl/ détermination du coût de chaque transformation suivant les règles définies à l'étape fl/, et g2/ sélection de la transformation dont le coût est minimal. Selon un autre mode particulier de réalisation du procédé selon l'invention, les étapes c/ et d/ comprennent la mise en œuvre d'un procédé d'optimisation sub-optimale tel qu'un algorithme génétique, un traitement par réseau de neurones ou par recuit simulé, pour produire une transformation dont le coût est le plus faible possible par rapport au procédé d'optimisation retenu.
De façon similaire, les étapes f/ et g/ peuvent comprendre la mise en œuvre d'un procédé d'optimisation sub-optimale tel qu'un algorithme génétique, un traitement par réseau de neurones ou par recuit simulé, pour produire une transformation dont le coût est le plus faible possible par rapport au procédé d'optimisation retenu.
Selon un aspect particulier de l'invention, lors de la comparaison d'un premier document multimédia composite affecté d'un méta-identifiant et segmenté en méta-segments, on procède à une comparaison point-à- point des méta-segments de nature vectorielle au moyen d'une distance vectorielle choisie parmi les distances de type Euclidienne, Riemann avec paramètre L et Mahalanobis, de manière à produire des résultats constituant des scores d'appariement entre les méta-segments comparés deux à deux, et on procède à une comparaison des méta-segments des hypergraphes et à la production d'un score synthétique de distance entre les documents en pondérant les résultats des comparaisons point-à-point des méta-segments par la probabilité d'appariement entre chaque branche correspondante des arbres des deux documents.
Le procédé selon l'invention est avantageusement appliqué au stockage de documents multimédia dans une base de données, cette opération de stockage comprenant le rangement par classification hiérarchique automatique de branches communes, identiques ou quasi identiques, d'hypergraphes représentant les méta-identifiants des documents multimédia à archiver.
De façon plus particulière, dans le cadre d'un procédé de stockage de documents multimédia dans une base de données, l'adjonction d'un nouveau méta-identifiant correspondant à un document multimédia à archiver, dans une base de données comprenant déjà un ensemble de méta-identifiants et un ensemble d'objets intermédiaires représentant des parties des méta-identifiants destinées à être facilement reconnues comprend les étapes suivantes : i/ décomposition du nouveau méta-identifiant en méta- identifiants élémentaires codant les différents médias élémentaires contenus dans le document multimédia à archiver, ii/ construction d'un arbre de production des relations entre médias élémentaires, iii/ application récursive des étapes i/ et ii/ à chaque méta- identifiant élémentaire pour produire des arbres de production de relations au sein de chacun des médias élémentaires, les arbres étant stockés de façon indépendante, mais des relations d'inclusion étant ajoutées pour noter le lien entre un média élémentaire décrit dans l'arbre de production des relations entre les médias élémentaires et les constituants de ce média élémentaire dans l'arbre de production des relations au sein de ce média élémentaire considéré.
De façon plus particulière, l'étape de décomposition du nouveau méta-identifiant s'effectue en parcourant intégralement l'hypergraphe associé à ce nouveau méta-identifiant et en sélectionnant les groupes de nœuds voisins dont le média support est identique.
Avantageusement, l'étape de construction d'un arbre de production des relations entre médias élémentaires comprend notamment les opérations suivantes : - construction d'un hypergraphe simplifié en associant un nœud à chaque méta-identifiant élémentaire et en recopiant des relations liant les nœuds des médias élémentaires à leurs méta-identifiants respectifs, avec suppression des relations de même nature reliant deux mêmes nœuds, - découpage de l'hypergraphe en sous-hypergraphes connexes par nombre croissant de nœuds,
- rangement en classes de sous-hypergraphes similaires ayant le même nombre de nœuds,
- caractérisation de chaque classe par un représentant unique détenteur des propriétés moyennes des éléments de la classe, et
- organisation de manière hiérarchique des classes précédemment définies au moyen de relations de similarité de parties de leurs représentants.
L'invention concerne encore un procédé appliqué à la recherche d'un document multimédia archivé dans une base de données caractérisé en ce qu'il comprend les étapes suivantes :
- présentation d'une requête composite comprenant elle-même des documents multimédia liés entre eux par des opérateurs logiques, - affectation d'un méta-identifiant à chacun des documents multimédia de la base de données, lequel méta-identifiant inclut sous la forme d'un hypergraphe pondéré de nœuds et de relations entre ces nœuds, des méta-segments identifiant de façon univoque des médias élémentaires composant le document multimédia concerné,
- affectation d'un méta-identifiant à la requête composite, lequel méta-identifiant inclut sous la forme d'un hypergraphe pondéré de nœuds et de relations entre ces nœuds, des méta-segments identifiant de façon univoque des médias élémentaires composant la requête composite, - récursion sur les arbres secondaires de relations intra-média des médias élémentaires de chacun des documents multimédia de la base de données,
- récursion sur les arbres secondaires de relations intra-média des médias élémentaires de la requête composite, - récursion sur l'arbre principal de production des relations inter-média entre les médias élémentaires de chacun des documents multimédia de la base de données,
- récursion sur l'arbre principal de production des relations inter-média entre les médias élémentaires de la requête composite, - production d'un hypergraphe global réunissant l'ensemble des hypergraphes de la requête composite reliés par lesdits opérateurs logiques,
- comparaison dudit hypergraphe global avec les hypergraphes des documents multimédia de la base de données selon les étapes suivantes :
- pour l'hypergraphe de chaque média élémentaire de la requête composite, opération de maximalisation de l'identification avec l'hypergraphe d'un média élémentaire de chacun des documents multimédia de la base de données, - pour l'hypergraphe de chaque média élémentaire de la requête composite, détermination des coûts des opérations d'édition procurant les identifications maximales ou quasi maximales avec un hypergraphe d'un média élémentaire de chacun des documents multimédia de la base de données et expression des distances entre les médias élémentaires en fonction de ces coûts,
- pour l'hypergraphe de l'ensemble des médias élémentaires de la requête composite, opération de maximalisation de l'identification avec l'hypergraphe de l'ensemble des médias élémentaires de chacun des documents multimédia de la base de données,
- pour l'hypergraphe de l'ensemble des médias élémentaires de la requête composite, détermination des coûts des opérations d'édition procurant l'identification maximale ou quasi maximale avec un hypergraphe de l'ensemble des médias élémentaires de chacun des documents multimédia de la base de données, et expression des distances entre la requête composite et chacun de ces documents multimédia de la base de données en fonction de ce coût,
- organisation de la liste des documents multimédia de la base de données par ordre décroissant des coûts calculés précédemment. Selon une variante de réalisation, le procédé appliqué à la recherche d'un document multimédia archivé dans une base de données est caractérisé en ce que les étapes de traitement individuel des documents multimédia de la base de données sont effectuées préalablement à la présentation d'une requête composite et les résultat de ces étapes de traitement individuel sont conservés pour le traitement d'un ensemble de requêtes composites différentes, en ce que la base de données est organisée avec un stockage comprenant le rangement par classification hiérarchique automatique de branches communes, identiques ou quasi identiques, d'hypergraphes représentant les méta-identifiants des documents multimédia à archiver, et en ce que, au lieu d'effectuer une comparaison de l'hypergraphe global de la requête composite avec les hypergraphes de l'ensemble des documents multimédia de la base de données, on procède à une recherche hiérarchique dans l'arborescence des classes des hypergraphes de l'ensemble des documents multimédia de la base de données et on effectue des comparaisons entre l'hypergraphe global de la requête composite et les représentants desdites classes.
L'invention a également pour objet un procédé d'indexation d'un document multimédia composite comportant au moins deux médias élémentaires choisis parmi les catégories comprenant des images, des sons, des signaux vidéo, des graphiques vectoriels animés et des textes, caractérisé en ce qu'il comprend les étapes suivantes : a/ affectation d'un méta-identifiant au document multimédia composite, lequel méta-identifiant inclut sous la forme d'un hypergraphe pondéré de nœuds et de relations entre ces nœuds, des méta-segments identifiant de façon univoque des médias élémentaires composant le document multimédia composite, b/ récursion sur les arbres secondaires de relations intra-média des médias élémentaires du document multimédia composite, et c/ récursion sur l'arbre principal de production des relations inter-média entre les médias élémentaires du document multimédia composite.
D'autres caractéristiques et avantages de l'invention ressortiront de la description suivante de modes particuliers de réalisation, faite en référence aux dessins annexés, donnés à titre d'exemples, sur lesquels :
- la Figure 1 est un schéma montrant les différentes étapes d'un exemple de procédé selon l'invention permettant l'indexation d'un document multimédia, le stockage de ce document dans une base de données et une requête d'interrogation de la base de données faisant appel à des comparaisons entre documents multimédia,
- la Figure 2 est un ensemble de diagrammes explicitant différentes étapes de l'indexation d'un document multimédia à archiver dans une base de données selon un procédé conforme à l'invention,
- la Figure 3 est un ensemble de diagrammes explicitant différentes étapes du processus de recherche d'un document multimédia stocké dans une base de données, à partir d'une requête, en mettant en œuvre un procédé de comparaison conforme à l'invention, - la Figure 4 est un exemple de graphe de représentation d'un document multimédia,
- la Figure 5 est un exemple de décomposition du graphe de la Figure 4 en éléments binaires,
- la Figure 6 est un exemple de graphe de production de relation, - la Figure 7 est un diagramme de comparaison entre des exemples de graphes de représentation de deux documents multimédia,
- la Figure 8 est un diagramme illustrant un processus de segmentation d'un document multimédia en composantes plus élémentaires, - les Figures 9 et 10 représentent l'application de deux méthodes différentes pour extraire des informations locales sur deux séries de quatre images,
- la Figure 11 est un diagramme illustrant un processus de recherche de document multimédia faisant appel à un procédé de comparaison selon l'invention,
- la Figure 12 est analogue à la Figure 11 mais montre un diagramme se présentant sous la forme d'un hypergraphe requête, et - les Figures 13 et 14 montrent deux exemples de comparaison de sous-hypergraphes simples d'un graphe de recherche avec des sous- hypergraphes simples classés dans la base de données.
Le procédé selon l'invention permet d'obtenir, à partir d'un document multimédia de nature quelconque, une trace reconnaissable qui permet ensuite de reconnaître, par comparaison, l'emploi ou le réemploi de tout ou partie de ce document ou de variante de ce document au sein d'un autre document multimédia, sans qu'il soit nécessaire de traiter l'ensemble du contenu des documents multimédia soumis à des comparaisons. La mise en évidence et la conservation de la trace reconnaissable constituent une opération qui sera désignée par le terme d'enregistrement dans la suite de la description.
Le procédé de comparaison de documents selon l'invention peut être mis en œuvre aussi bien sur des supports de stockage localisés que de façon répartie sur un réseau et peut être appliqué notamment à la traque de documents.
Le procédé d'enregistrement de documents multimédia par le contenu, qui est un préalable aux opérations de comparaison entre documents multimédia, comprend essentiellement trois étapes successives.
La première étape est une étape de méta-segmentation qui consiste à analyser le document dans son intégralité de manière à extraire les éléments monomédia ou multimédia concrets ou abstraits.
Dans une deuxième étape, les métasegments obtenus sont caractérisés au moyen de traitements numériques spécifiques destinés à identifier des catégories d'informations qui identifient de manière univoque les contenus des métasegments.
Dans une troisième étape, il est produit un méta-identifiant, composé à partir des informations identifiant de manière univoque les contenus des métasegments. Le méta-identifiant autorise l'identification par le contenu.
Par exemple, un ensemble de valeurs numériques peut représenter des informations concrètes telles que l'histogramme des couleurs contenues dans une image du document ou les moments de Zernike de parties du document. Des informations abstraites peuvent par ailleurs être stockées sous la forme de champs de texte liés indiquant par exemple la relation liant l'image et la légende d'une figure ou encore les mots recouvrant un même espace sémantique dans deux documents, l'un sonore et l'autre textuel, de documents multimédia.
Le procédé de traque met en œuvre une structuration particulière des méta-identifiants qui permet d'effectuer des comparaisons de méta- identifiants efficaces au sein d'un nombre élevé de documents multimédia. Les comparaisons peuvent s'effectuer par la pondération spécifique (au moyen de paramètres multiplicatifs adaptés à chaque média, provenant de listes établies a priori et par amélioration de ces listes apportées par chaque utilisateur (en changeant directement les valeurs ou en les faisant changer par un mécanisme d'apprentissage du type réseau de neurones basé sur le profil de l'utilisateur) d'algorithmes d'évaluation de similitude de méta-segments.
Le processus de méta-segmentation consiste à mettre en œuvre plusieurs algorithmes de traitements numériques sur les données numériques qui constituent le document multimédia. Ces algorithmes sont employés de manière concurrente et produisent des informations redondantes auxquelles sont affectées des pondérations respectives en fonction des taux de réussite ou d'échecs des différentes méthodes et en fonction des niveaux de confiance accordés.
Si l'on considère d'abord la Figure 1, on verra les étapes principales d'un procédé d'indexation d'un document multimédia devant être ajouté dans une base de données (module 100) et les étapes principales d'un procédé de recherche d'un document multimédia dans une base de données avec un processus de comparaison entre une requête et les traces de documents multimédia stockés dans la base de données (module 200).
Le procédé d'indexation d'un document multimédia 101 à indexer comprend l'étape initiale 110 d'ajout du document considéré à une base de données 170, l'étape 110 consistant à analyser le document à indexer 101 de manière à extraire des médias élémentaires pouvant être des éléments monomédia appartenant à une seule catégorie de médias, ou des éléments multimédia comportant eux-même des sous-éléments appartenant à des catégories de médias différentes.
Le processus de méta-segmentation peut être effectué de manière récursive en combinant des analyses intra-média et des analyses inter- média.
Après l'étape 110 de méta-segmentation, dans des étapes 120 qui peuvent être traitées en parallèle, les méta-segments obtenus sont caractérisés au moyen de traitements numériques spécifiques destinés à identifier des catégories d'informations concrètes et abstraites qui identifient de manière univoque les contenus de ces méta-segments.
Au cours de l'étape suivante 130, il est produit un méta-identifiant composé à partir des informations caractérisant les méta-segments. Les étapes 140 et 150 mettent en œuvre un processus de structuration des méta-identifiants et de définition de la structure qui, par le processus d'enregistrement du document de l'étape 160, sera intégrée dans la base de données 170.
L'étape 180 représente un processus d'amélioration de la représentation interne de la base de données 170 après adjonction de la structure S caractérisant le document 101, en procédant à des compa- raisons avec les structures de documents multimédia précédemment enregistrées.
Le procédé de recherche d'un document multimédia illustré dans le module 200 comprend la présentation d'une requête 201 de recherche d'un document multimédia à retrouver.
La requête 201 est appliquée à une étape initiale 210 d'entrée qui, comme l'étape 100, constitue une étape d'analyse et de méta- segmentation pour extraire des médias élémentaires de la requête composite 201. La caractérisation des méta-segments de la requête composite 201 s'effectue dans une étape 220 qui est analogue à l'étape 120 du procédé d'indexation, et est elle-même suivie d'une étape 230 de production de méta-identifiants à partir des méta-segments, de façon analogue à l'étape 130. Les étapes suivantes 240 et 252, comme les étapes 140 et 150, mettent en œuvre un processus de structuration des méta-identifiants et de définition de la structure S qui sera comparée aux structures S de documents multimédia stockées dans la base de données 270 qui a été réorganisée après chaque ajout de nouveau document.
L'étape 260 consiste en une comparaison entre la structure S issue de la requête composite 201 et les structures S stockées dans la base de données 270, par évaluation de similitude de chaque méta-segment.
L'étape 280 consiste en une pondération de comparaison de méta- identifiants et l'étape 290 consiste en la présentation d'une liste de documents multimédia pertinents avec des scores.
Le mécanisme de méta-identifiant qui est mis en œuvre dans le procédé selon l'invention permet de représenter les caractéristiques de chaque média contenu au sein d'un document multimédia ainsi que la structure des relations complexes qui associent ces différents éléments. Ce mécanisme est hiérarchique avec un nombre de niveaux d'imbrication variable suivant la complexité du document multimédia. Son codage se présente sous la forme d'un hypergraphe pondéré de nœuds et de relations entre ces nœuds. Les pondérations sur les nœuds et les arcs se présentent sous la forme de tenseurs de nombre codés en virgule flottante ou d'entiers. Chaque nœud représente une caractéristique qui pourra être considérée comme élémentaire au niveau correspondant de décomposition de cette hiérarchie. Au niveau le plus bas, il peut s'agir par exemple d'un ensemble de critères d'analyse du document : pour une image, il pourra s'agir de moments de Zernike calculés localement, d'histogrammes de couleurs, d'IFS (systèmes de fonctions itérées) ou de toute autre caractéristique locale dont des exemples seront donnés plus loin. A un niveau plus élevé, il s'agira de l'hypergraphe de caractéristiques de la partie du média analysé qui est symbolisé par ce nœud. Les arcs entre les nœuds représentent les relations structurelles qui relient les caractéristiques. Elles peuvent être de plusieurs natures : logiques (par exemple un nœud représentant un texte est la légende d'un autre nœud qui représente une figure), géométriques (par exemple un objet segmenté (nœud A) est à 50 pixels à droite de tel autre objet (nœud B)), abstraites (par exemple un nœud-texte contient un vocabulaire sémantiquement proche d'un autre nœud-texte). Les méta-identifiants incluant, sous la forme d'un hypergraphe pondéré de nœuds et de relations entre ces nœuds, des méta-segments identifiant de façon univoque les médias élémentaires, constituent des informations compactes capables de décrire les documents multimédia et à même de permettre la distinction ou l'identification de deux documents en autorisant la mesure de la similitude potentielle entre deux documents multimédia sans constituer pour autant une compression de l'ensemble de l'information contenue dans les documents qu'elles permettent d'identifier. Les méta-identifiants représentent ainsi un volume de données largement inférieur à celui des documents à partir desquels ils sont produits. Le procédé d'indexation et de recherche illustré sur la Figure 1 sera à nouveau décrit dans sa généralité en se référant à un exemple particulier illustré sur les Figures 2 et 3.
On voit sur la Figure 2 l'illustration du processus d'indexation d'un document multimédia 10 dont l'analyse révèle qu'il comprend un premier média élémentaire 11 constitué par une image et deux autres médias élémentaires 12 et 13 constitués chacun par une partie textuelle. Suite au processus de méta-segmentation, les médias élémentaires 11 à 13 sont extraits du document multimédia 10 et constituent des méta-segments qui sont caractérisés au moyen de traitements numériques spécifiques adaptés au média concerné (texte ou image). Des relations inter-média 21 à 25 sont mises en évidence entre les médias élémentaires 11 à 13, tandis qu'au sein de chaque média élémentaire, des relations intra-média sont identifiées. A titre d'exemple, on a représenté trois composants 31, 32, 33 résultant de la segmentation de l'image 11 et donnant lieu à des relations intra-média 41 à 43.
Dans la séquence illustrée sur la Figure 2, on voit d'abord des hypergraphes de relations inter-média 21 à 25, puis l'incorporation de relations intra-média 41 à 43 au sein de l'image 11, puis enfin l'incorporation de relations intra-média 44, 45 au sein des blocs de texte 12 et 13.
La Figure 3 illustre un processus de recherche d'un document multimédia à partir d'une requête composite, appliqué au même exemple que celui de la Figure 2. La requête composite comprend la recherche d'un document multimédia dans lequel il existe d'une part une image 51 associée à un bloc de texte 52 et d'autre part la même image 51 associée à un autre bloc de texte 53. Chacune des parties de la requête composite liées par l'opérateur ET est traduite en une signature de méta-segments 51, 52 respectivement 51, 53 et ces méta-segments sont organisés en hypergraphes avec des relations intra-média 41 à 45 et inter-média 21, 22. Après réunion des hypergraphes correspondant à chacune des parties de la requête composite, il est procédé dans l'étape 60 à une comparaison de l'hypergraphe résultant de la requête composite et des hypergraphes des documents multimédia stockés dans la base de données, le meilleur score étant produit par la comparaison avec l'hypergraphe associé au document 10. La production du résultat à l'étape 70 fait apparaître le document 10 et un score d'appariement 71. On décrira maintenant de façon plus particulière en référence aux
Figures 4 à 6 le processus d'enregistrement d'un document multimédia dans une base de données et le processus d'amélioration de la représentation interne d'une base de données après ajout de nouveaux documents, par une méthode de comparaison entre documents. Pour permettre un accès rapide aux données multimédia contenues dans une base de données à partir de méta-identifiants conformément à l'invention, il est nécessaire d'effectuer un pré-rangement de ces méta- identifiants, qui sera dénommé "Agencement" et de construire des objets intermédiaires capables d'autoriser une comparaison rapide des méta- identifiants.
La base de données est composée originellement d'un ensemble de méta-identifiants et d'un ensemble d'objets intermédiaires qui vont représenter des parties des méta-identifiants destinées à être facilement reconnues. L'ajout d'un nouveau méta-identifiant dans la base s'effectue suivant le schéma d'insertion suivant : a/ décomposition du méta-identifiant en méta-identifiants codant les différents médias contenus dans l'objet (c'est-à-dire des identifiants monomédia). Cette décomposition s'effectue en parcourant intégralement l'hypergraphe et en sélectionnant les groupes de nœuds voisins dont le média support est identique. b/ construction d'un arbre de production des relations entre médias. Cette opération s'effectue en associant un nœud à chaque identifiant monomédia et en recopiant les relations liant les nœuds de ces monomédias à leur identifiant respectif. Les relations de même nature qui lient deux mêmes nœuds sont supprimées (réduction de redondance). On obtient ainsi un hypergraphe simplifié et une approximation des relations existant dans le document multimédia complet. On découpe ensuite cet hypergraphe en sous-hypergraphes connexes par nombre croissant de nœuds. On obtient ainsi tous les sous-hypergraphes de deux nœuds inclus dans l'hypergraphe. On recherche ensuite les sous-hypergraphes similaires au moyen d'une comparaison point-à-point, un sous-hypergraphe étant comparé à un autre sous-hypergraphe pour toutes les combinaisons de sous-hypergraphes de même nombre d'éléments. On classe par catégorie les sous-hypergraphes similaires et on leur associe un codage entropique : à chaque classe est associée une représentation de longueur inversement proportionnelle au nombre de sous-hypergraphes similaires au sein de cette classe. On ne retient que l'ensemble des classes de sous- hypergraphes d'une longueur de représentation inférieure à une valeur fixée à l'avance. On recommence le processus pour tous les sous- hypergraphes de trois nœuds dont un sous-hypergraphe de deux nœuds appartient à l'ensemble ainsi sélectionné, et ainsi de suite pour quatre nœuds, etc. jusqu'à une limite fixée à l'avance pour éviter l'explosion combinatoire ou jusqu'à ce qu'il ne reste plus de nœuds dans l'hypergraphe du méta-identifiant analysé. Pour chaque méta-identifiant, on relie alors les classes de sous-hypergraphes par des arcs pondérés qui vont contenir l'information d'instantiation de ce méta-identifiant. L'ensemble des arcs entre toutes les classes de la base construit un arbre : c'est l'arbre de production des relations entre médias. Si l'on a arrêté le processus d'analyse avant la limite fixée (c'est-à-dire que l'on s'est arrêté par épuisement des nœuds à traiter), on obtient la propriété suivante : un trajet au sein de cet arbre de la racine jusqu'à une feuille représente un méta-identifiant. Si ce n'est pas le cas, il faut rajouter un nœud qui va relier l'ensemble des sous-hypergraphes de valeur terminale par un arc contenant dans sa pondération les informations permettant la reconstitution du reste de l'arbre. c/ le même processus est appliqué au sein de chaque identifiant de monomédia pour produire un arbre pour chaque média : il s'agit de l'arbre de production de relations au sein de ce média. Ces différents arbres sont stockés indépendamment, mais on ajoute des relations d'inclusions pour noter le lien entre un média décrit dans l'arbre de production des relations entre les médias et les constituants de ce média dans l'arbre de production des relations au sein du média correspondant. Cette relation est obtenue en recopiant l'arc original du méta-identifiant qui traduit cette relation.
Il est à noter que chacun des arbres ainsi considérés possède comme nœuds des hypergraphes de relations. La base de données est alors constituée d'un arbre principal codant les relations entre les médias au sein des documents et d'arbres secondaires codant pour chacun des médias. Chaque méta-identifiant (et donc chaque document) est représenté de manière unique au moyen d'un trajet au sein de l'arbre principal et d'un ou plusieurs trajets dans les arbres secondaires nécessaires en fonction des médias employés.
Cette structure est également employée lors de l'estimation de similarité entre méta-identifiants (c'est-à-dire entre documents).
La Figure 4 représente le graphe de représentation d'un document multimédia avec à titre d'exemple, des éléments A et B liés par une première relation 301, des éléments C et D liés par cette même relation 301, les éléments A et C d'une part et B et D d'autre part étant chacun liés par une même relation 302 différente de la relation 301. L'élément D est lui-même relié à un autre élément E par une troisième relation 303. La Figure 5 montre la décomposition du graphe de la Figure 4 en éléments binaires. Les éléments liés par la relation 301 appartiennent à une classe Bl. Les éléments liés par la relation 302 appartiennent à une classe B2. Les éléments liés par la relation 303 appartiennent à une classe B3. La Figure 6 montre le graphe de production de relations avec des liaisons entre une classe C4 d'éléments liés à la fois par la relation 301 et la relation 302 et d'une part la classe Bl des éléments reliés par la seule relation 301 et d'autre part la classe B2 des éléments reliés par la seule relation 302. On décrira maintenant de façon générale le processus de comparaison de méta-identifiants.
La similarité entre deux méta-identifiants nécessite de comparer à la fois chacun de ces composants (nœuds et arcs avec leurs pondérations), les relations qui les lient et enfin d'associer une distance synthétique à l'ensemble de ceux-ci.
Le calcul de la similarité s'effectue au moyen de méthodes récursives sur les éléments de l'hypergraphe du méta-identifiant. Une fonction de coût basée sur un principe d'édition des hypergraphes (cf. String-edit ou graph-edit) est appliquée pour déterminer la distance entre les hypergraphes pondérés des deux méta-identifiants. On calcule l'opération d'édition qui procure l'identification maximale entre ces deux hypergraphes. Le coût de cette opération constitue la distance de similitude entre les deux méta-identifiants. De façon plus détaillée, la comparaison de documents multimédia au moyen de leurs méta-identifiants s'effectue de la façon suivante :
Le processus est composé de deux boucles opératoires imbriquées : la première est une récursion au sein de chaque média élémentaire au sein des documents composites, la seconde est une récursion sur tous les médias élémentaires dans les documents composites.
Pour déterminer la distance entre deux documents composites A et
B : on cherche à trouver l'identification la plus forte possible entre les parties des documents composites et les transformations de coût le plus faible possible pour transformer un document composite A en un document composite B.
Les transformations autorisées pour passer d'un document A à un document B sont les opérations d'éditions : ajout d'un lien, d'une branche ou d'une feuille terminale, suppression d'un lien, d'une branche ou d'une feuille terminale, changement du contenu d'une branche ou d'une feuille terminale.
La notion de coût associé à ces opérations d'éditions dépend de règles fixées à l'avance (étapes b/ et 1/ définies ci-dessous), par exemple le changement du contenu d'une feuille terminale peut se mesurer comme la distance entre le contenu d'origine et le contenu d'arrivée pondéré par un coefficient (1 par exemple). La distance entre les contenus est la distance s'appliquant à la caractérisation du média, par exemple la distance de similarité visuelle (Zernike + Mahalanobis) pour des images. Enfin, plusieurs opérations de transformations peuvent permettre de passer d'un document A vers un document B, par exemple si A et B se distinguent par une branche contenant un média u dans A et un média v dans B, on peut appliquer : i/ soit la transformation "changement de u en v", ii/ soit la transformation "suppression de u" suivie de la transformation "addition de v"
Le coût de ces deux opérations n'est, a priori, pas identique. On conservera la transformation dont le coût est le plus faible. Pour ce faire on pourra explorer toutes les possibilités non-dégénératives de manière extensive (long, mais précis), ou au contraire on pourra exploiter une méthode classique d'optimisation sub-optimale qui fournira une solution approchée, et donc un coût de transformation approché, donc une valeur approchée de la distance, mais suffisante (rapide, mais moins précis). Le processus détaillé de comparaison est le suivant : a/ récursion sur les médias élémentaires (arbres secondaires), b/ définition de la fonction de coût intra-média en fonction des similarités recherchées, c/ mécanisme de maximalisation de l'identification pour chaque média élémentaire : 2 options : d/ première option : méthode optimale e/ on explore l'ensemble des transformations possibles qui permettent de transformer l'hypergraphe du média M en l'hypergraphe du média L, f/ on détermine le coût de chaque transformation suivant les règles définies en b/, g/ on sélectionne la transformation dont le coût est minimal, h/ deuxième option : méthode sub-optimale i/ on exploite un algorithme d'optimisation sub-optimale (algorithme générique, réseau de neurones, recuit simulé, etc.) pour produire une transformation dont le coût est le plus faible possible par rapport à la méthode retenue. l la distance entre les médias élémentaires est le coût de l'opération d'édition optimale ou sub-optimale trouvée, les opérations de transformations retenues sont celles correspondant à cette opération d'édition, k/ récursion sur l'arbre de production des relations entre les média (arbre principal), 1/ définition de la fonction de coût inter-média en fonction des similarités recherchées, m/ mécanisme de maximalisation de l'identification entre les médias élémentaires : 2 options : n/ première option : méthode optimale o/ on explore l'ensemble des transformations possibles qui permettent de transformer l'hypergraphe du document composite A en l'hypergraphe du document composite B, p/ on détermine le coût de chaque transformation suivant les règles définies en I/, q/ on sélectionne la transformation dont le coût est minimal, r/ deuxième option : méthode sub-optimale s/ on exploite un algorithme d'optimisation sub-optimale (algorithme générique, réseau de neurones, recuit simulé, etc.) pour produire une transformation dont le coût est le plus faible possible par rapport à la méthode retenue. t/ la distance entre les documents composites est le coût de l'opération d'édition optimale ou sub-optimale trouvée.
La Figure 7 montre un exemple de détermination de la distance entre deux documents composites. Le graphe du document 1 comprend des éléments A et B liés à un élément C.
Le graphe du document 2 comprend des éléments A', B et D liés à un élément C. Lors de la transformation du document 1 en document 2, on constate que les éléments C et B sont identiques dans les deux documents
1 et 2 et qu'il y a un changement de l'élément A en élément A' quand on passe du document 1 au document 2. De plus, dans le document 2 il y a l'ajout d'un élément D lié à l'élément C.
Le coût des transformations, c'est-à-dire la distance entre les deux documents composites 1 et 2 peut s'exprimer de la façon suivante : Coût du changement de A en A' : || A-A' || *2.0 Coût de l'ajout de D : val(D)*5.0 Coût de B-> B : 0
Coût de C-> C : 0
Coût total transformation = 2.0*||A-A'|| + val(D)*5.0 La comparaison de documents multimédia par la comparaison des méta-segments ou méta-identifiants qui les identifient comprend essen- tiellement les trois phases suivantes :
a/ production de la segmentation en méta-segment (signature) de chacun des documents à comparer selon la méthode décrite précédemment, b/ comparaison point-à-point des méta-segments de nature vectorielle au moyen d'une distance vectorielle : i/ Distance vectorielle : on emploie une distance de type : a. Euclidienne V(∑Xi2) b. Riemann avec paramètre L : (∑XjL) c. Mahalanobis. j/ Normalisation de cette distance par rapport à une distribution moyenne estimée par rapport à une base de documents multimédia de référence, plusieurs options sont possibles : a. Pas de normalisation, b. Normalisation en moyenne de valeur : chaque valeur de distance calculée dans l'étape précédente est divisée par la moyenne des distances vectorielles calculées entre toutes les images de la base de références prises couple d'images par couple d'images. k/ Le résultat sera dénommé score d'appariement entre les deux méta-segments comparés.
c/ comparaison des méta-segments des hypergraphes et production d'un score synthétique de distance entre les documents en pondérant les résultats des comparaisons point-à-point des méta-segments par la probabilité d'appariement entre chaque branche correspondante des arbres des deux documents. Pour ce faire on procède comme suit : i/ on choisit les paramètres de la distance d'hypergraphes que l'on souhaite appliquer :
1. la distance d'hypergraphes se caractérise par la définition de règles de coût pour les opérations d'édition de graphes : ajout d'un nœud, suppression d'un nœud, ajout d'un lien, suppression d'un lien. 2. pour chacune de ces opérations on peut donner un coût. Plusieurs variantes sont possibles : a. uniforme : coût égal pour toutes les opérations d'éditions, b. hyper-uniforme : coût égal pour toutes les opérations d'éditions à un même niveau d'hypergraphes à ce niveau d'hypergraphes, c. variable : coûts paramétrisés manuellement en fonction d'expérimentation sur la nature des documents modélisés. ii/ On calcule la somme des coûts qui s'applique pour transformer l'arbre du premier document dans l'arbre du second document. Si plusieurs transformations peuvent s'appliquer, on choisira la somme de valeur minimale. Pour simplifier ce calcul, on peut choisir d'appliquer une règle de calcul de ces coûts basée sur un processus sub-optimal et se satisfaire de ce résultat. iii/ La somme minimale ou sub-minimale des coûts constitue le score d'appariement des deux documents.
On décrira maintenant en référence aux Figures 11 à 14 la comparaison de méta-segments ou méta-identifiants avec une requête dans un processus de recherche de document dans une base de données.
Une requête exprimée dans le langage de requête référencé () est traduite en une signature de méta-segments vectoriels dont la valeur correspond à l'index de la requête atomique. L'organisation en hypergraphes de ces méta-segments s'effectue en décrivant la requête sous forme d'hypergraphes de relations entre les requêtes atomiques et en traduisant les opérateurs de relations de la requête de la manière suivante :
Opérateur a ET b : production d'un nœud d'hypergraphe parent auquel sont rattachés les nœuds méta-segments vectoriels a et b.
Opérateur a OU b : production de deux hypergraphes distincts avec a dans l'un et b dans l'autre en lieu et place du nœud (a OU b). Opérateur NON a : remplacement par le nœud a avec ajout d'un drapeau représentant le signe de la présence de a (localement).
La comparaison de la signature s'effectue de la même manière qu'à l'étape précédente excepté pour la comparaison du drapeau encodant le signe : le score produit par la comparaison de chaque branche est pondéré par le signe du nœud suivant la relation : (1- score/norme(score)). D'autres formules peuvent cependant être employées (telles qu'une formule de binarisation comme (score/norme(score)>seuil)?(-l) ;(0)), etc.). Ce processus est illustré sur les Figures 11 à 14 par un cas type : soit trois médias atomiques a,b,c : a et b sont des textes, c est une image. On recherche tous les documents présentant des images ressemblant à c, dont la légende contient le texte a ou le texte b. On recherche donc la formule "(a ou b) et c", mais avec en plus la condition que la nature du lien qui doit relier a ou b avec c doit être de type "est la légende de". Ceci est décrit en termes d'hypergraphes sur la Figure li a titre d'exemple.
La Figure 12 montre une traduction sous la forme d'un hypergraphe requête.
On compare alors ces hypergraphes avec les hypergraphes présents dans la base de documents, avec un exemple illustré sur les Figures 13 et 14 : on compare récursivement les sous-hypergraphes simples du graphe de recherche avec les sous-hypergraphes simples classés de la base, en commençant par les éléments atomiques : image et textes : Exemple de calcul de deux documents qui ne contiendraient chacun que l'une des deux options : A et C pour le premier et C et B pour le second. Le lien produit par sa comparaison un score 1.00 car il est strictement celui demandé par la requête.
On décrira maintenant un exemple d'analyse intra-média appliqué à des médias imagés dans le cadre de la production d'un méta-identifiant local du média imagé.
Un média imagé présente plusieurs catégories d'éléments qui peuvent permettre de le caractériser. Il est utile pour identifier un tel document de pouvoir mettre en relation les éléments extraits de ces différentes catégories. Au sein des médias imagés (photographies, schémas, plans, dessins,...) différentes caractéristiques sont employées de manière hiérarchique pour constituer le méta-identifiant local du média-imagé. Ce méta-identifiant pourra lui-même être inclus dans le méta-identifiant du document multimédia dans lequel le média imagé est enfoui. On parlera d'image dans la suite pour signifier de manière générique le média imagé.
Le processus de construction d'un méta-identifiant de l'image se décompose en quatre parties. Il est appliqué de manière récursive sur chaque partie de l'image considérée.
1. Le premier niveau d'analyse consiste à segmenter le média en composantes analysables indépendamment. Plusieurs segmentations sont employées simultanément :
» segmentation par texture (méthodes classiques), • segmentation par objet,
* segmentation par échelle (méthode des ondelettes).
2. La seconde partie consiste à créer un identifiant local capable de caractériser chacune des parties séparément.
3. La troisième partie consiste à extraire les relations structurelles reliant ces parties.
4. La quatrième partie, enfin, consiste à réappliquer récursivement le processus d'analyse ainsi défini sur chacune des parties. Le méta- identifiant construit pour chacune des parties est inclus par addition d'arcs codant des relations d' "inclusions d'objets" entre les nœuds du méta-identifiant de la partie à inclure et celui ou ceux de l'hypergraphe du niveau précédent qui correspond(ent) à cette partie. Le processus s'arrête soit en fonction d'un niveau maximum fixé à l'avance, soit lorsque les méthodes de segmentation ne produisent plus de nouvelles parties. Les parties d'images peuvent être caractérisées au moyen de points d'appui
Le but de cette technique est de fournir un outil permettant d'archiver de façon efficace des médias pour lesquels les techniques de gestion de bases de données classiques ne sont pas applicables. Par exemple, l'indexation d'images dans des bases de données actuelles nécessite la description de chaque image en langage naturel, en utilisant un corpus textuel d'expressions définies. La photographie d'un tableau peut être indexée en utilisant des mots-clés tels que "le tableau contient : un crâne, deux personnages en costumes de la Renaissance, avec un arrière-plan composé d'une table, d'un compas et de cartes, et de tapisseries". Habituellement, un tableau, pour continuer avec le même exemple, sera décrit en utilisant ses caractéristiques physiques, telles que la taille de la toile, le type de support (toile, bois,...) et la matière de la peinture (huile,...). Il est très utile d'avoir de telles informations dans la base de données mais ce n'est pas suffisant pour aider par exemple à identifier rapidement un tableau volé. Au contraire, il est plus intéressant de pouvoir identifier une image à partir d'une autre image en utilisant les caractéristiques locales et globales des textures et des contours. La comparaison d'images peut être effectuée en utilisant des caractéristiques locales (moments de Zernike ou IFS) pour exploiter de façon précise le contenu d'une image. On peut utiliser une grille adaptatrice, basée sur les points d'intérêt ou points d'appui (extraits d'un détecteur de Stephen- Harris) pour produire des caractéristiques locales qui sont stockées dans la base de données en tant que clés permettant de retrouver l'image.
Les Figures 9 et 10 font apparaître le concept et les avantages des grilles adaptatives permettant l'extraction d'une information locale. On voit que dans le cas de la Figure 9, pour les quatre dessins différents, le contenu de chaque partie de la partition est différent de sorte que les signatures seront différentes. Au contraire, dans le cas de la Figure 10, pour les quatre dessins différents, la partition et le contenu de la partition restent les mêmes, de sorte que les signatures seront très proches.
Une telle technique peut être utilisée pour des documents comprenant à la fois des images et des textes à condition de préserver l'organisation structurelle des documents composites. Les sons peuvent également être analysés et indexés en suivant le même principe. Les signaux vidéo (grâce à la représentation et les technologies de mosaïque) ou d'autres objets multimédia peuvent également être traités de la même manière dès lors qu'ils présentent une structure composite formée de médias de base.
Le processus de construction d'un méta-identifiant d'une image, qui se décompose en quatre parties, sera exposé ci-dessous de façon plus détaillée.
1. Le premier niveau d'analyse consiste à segmenter le média en composantes analysables indépendamment qui peuvent être dénommées "composantes caractéristiques". Plusieurs segmentations sont employées : là encore le principe de la liste ordonnée est appliqué. Ces méthodes doivent être employées de la manière suivante au sein du processus : en fonction de la nature des documents multimédia analysés et des caractéristiques externes du traitement, telles les contraintes de vitesse, de place mémoire, etc., une liste ordonnée des méthodes à employer prioritairement est établie à partir d'une liste de méthodes telles que les méthodes présentées ci-dessous. Les méthodes les mieux classées de cette liste sont appliquées jusqu'à un seuil dépendant des contraintes précédemment indiquées. segmentation par texture : au moyen de filtrages, gradients et seuillages on détermine une segmentation en région : » matrices de co-occurrences et indices de texture,
• moments à plusieurs ordres,
• méthode de corrélations d'histogrammes locaux, » etc. segmentation par objets : « segmentation par blocs,
• méthode Markovienne non-supervisée, par formation de germes, ou par croissance de régions de bas niveau, ou par croissance de régions de haut niveau, méthode Markovienne semi-supervisée, etc. segmentation par échelle : méthode par Transformée en Ondelettes, méthode par Paquets d'Ondelettes, méthodes pyramidales géométriques basées sur le voisinage, segmentation par contours : filtrage Sobel, filtrage par Prewitt, filtrage directionnel de Kirsch opérateur de Hueartas-Médioni, opérateur de Marr, filtrage optimal de Canny, filtre de Deriche, filtre de Shen, gradient morphologique, méthode dite de la "ligne de partage des eaux", opérateur de Haralick, « opérateur de Hueckel. Autres stratégies : une fois déterminées les caractéristiques qui vont localement caractériser le signal présenté à la phase suivante de ce processus, on peut appliquer une méthode de groupement statistique de données (groupement k-mean, réduction en composantes principales, analyse en valeurs singulières, analyse à N-sigma) pour effectuer ou corriger ces segmentations.
2. La deuxième partie consiste à créer un identifiant local capable de caractériser chacune des parties séparément. Elle emploie pour ce faire une ou plusieurs méthodes d'une liste pré-établie en employant toujours le principe de la liste ordonnée. Ces méthodes doivent être employées de la manière suivante au sein du processus : en fonction de la nature des documents multimédia analysés et des caractéristiques externes du traitement, telles que les contraintes de vitesse, de place mémoire, etc., une liste ordonnée des méthodes à employer prioritairement est établie à partir d'une liste de méthodes telles que les méthodes présentées ci-dessous. Les méthodes les mieux classées de cette liste sont appliquées jusqu'à un seuil dépendant des contraintes précédemment indiquées :
- Histogramme global à n points : un vecteur représentant un échantillonnage sur n valeurs (équidistantes ou non) de l'histogramme de l'image. - Histogramme local à n points : idem sur un voisinage d'un point (de forme quelconque : disque, polygone, béziers, etc. dépendant ou non du contenu ou des autres composants caractéristiques). Fonctions statistiques locales descriptives du contenu ou de son orientation : coefficients de Zernike, Hough, moments, etc. calculés sur des voisinages (cf. cas précédent).
Fonctions multi-échelle : ondelettes, Haar calculées sur l'ensemble de l'image ou sur un voisinage.
Fonctions caractérisant la forme ou les invariants de formes caractéristique extraites de l'image : par exemple, extraction par squelettisation et binarisation de courbes dont les invariants sont mesurés par Fourrier-Meulin. Les parties produites à la phase précédente sont indifféremment : des points, des lignes ou des contours, des régions. Les caractéristiques vont donc être associées à ces trois catégories : caractérisation des points :
- par leurs coordonnées,
- par les propriétés locales du voisinage de ces points (voisinages de plusieurs natures : triangulation, carrés, rectangles ; également de plusieurs tailles : dépendant de la résolution de l'image, de la complexité des calculs, de la portée des filtres ou des polynômes) moments de polynômes (Zernike, Tchebichev, etc.) histogrammes basés sur un modèle de couleur (modèle HSV, modèle RGB, etc.
caractérisation des lignes ou des contours :
- par leurs points et les coordonnées de ceux-ci,
- par leur géométrie : on calcule l'interpolation par une courbe analytique courante (exemple : b-spline, polynômes,...) et on représente les facteurs propres de cette courbe, - par les propriétés locales calculées au voisinage de ces points : les méthodes sont les mêmes que dans la liste ci-dessus ; en revanche, le voisinage est plus complexe : il apparaît comme la composition des voisinages ci-dessus.
caractérisation des régions :
- par leurs points et les coordonnées de ceux-ci,
- par leur géométrie : on calcule l'interpolation par une surface analytique courante (exemple : 2D-b-spline, polynômes 2D,...) et on représente les facteurs propres de cette surface,
- par les propriétés locales calculées au voisinage de ces points : les méthodes sont les mêmes que dans la liste ci-dessus ; en revanche le voisinage est plus complexe : il apparaît comme la composition des voisinages ci-dessus ou plus simplement comme la surface englobée par la région de l'image-média.
3. La troisième partie consiste à extraire les relations structurelles reliant ces parties selon un processus analogue à celui décrit plus loin en relation avec une analyse extra-média.
4. La quatrième partie, enfin, consiste à réappliquer recursivement le processus d'analyse ainsi défini sur chacune des parties. Le méta- identifiant construit pour chacune des parties est inclus par addition d'arcs codant des relations d' "inclusions d'objets" entre les nœuds du méta-identifiant de la partie à inclure et celui ou ceux du graphe du niveau précédent qui correspond(ent) à cette partie. Le processus s'arrête soit en fonction d'un niveau maximum fixé à l'avance, soit lorsque les méthodes de segmentation ne produisent plus de nouvelles parties. On donnera ci-dessous un exemple de caractérisation des parties d'image-médias au moyen de points d'appui employés au sein du précédent système. Diverses méthodes de caractérisation locale ou globale peuvent être employées pour produire les pondérations des méta-identifiants. Les caractéristiques extraites dans le contexte de l'indexation d'image-médias peuvent être séparées en caractéristiques globales et en caractéristiques locales. Les caractéristiques globales correspondent à l'aspect global de l'organisation de l'image-média. Par exemple dans une description colorimétrique d'une base de photographies, les couchers de soleil peuvent se représenter par la répartition dans l'image-média d'une couleur rouge dans la partie supérieure de l'image-média sur laquelle se détache un arc de cercle plus ou moins orange. Bien entendu une telle description est approximative, ne permet pas de retrouver toutes les images-médias de coucher de soleil (erreur par omission) et sélectionne des images- médias qui ne seront pas des couchers de soleil (erreur de type bruit). Les méthodes locales nécessitent d'extraire des propriétés invariantes de chaque image-média de façon à pouvoir les comparer. Sur l'exemple des Figures 9 et 10, on présente deux méthodes. L'une, non robuste à des changements de prise de vue, est basée sur un maillage absolu (Figure 9), l'autre, sur la Figure 10, utilise une détection de points d'intérêts, suivie d'une triangulation pour extraire des mailles sur lesquelles seront calculées des caractéristiques locales robustes aux transformations courantes des prises de vue (Moments de Zernike ou Iterated Function System, histogrammes couleur).
On explicitera maintenant le processus d'analyse inter-média (ou extra-média) au sein d'un document multimédia. La description d'un document multimédia nécessite en effet de caractériser l'ensemble de ses composantes.
Un objet multimédia est composé d'éléments monomédia analysables indépendamment et concurremment. Le processus de production d'un méta-identifiant consiste à effectuer cette décomposition en médias plus élémentaires tout en conservant la trace des relations structurelles qui lient ces différents médias, puis à réappliquer cette stratégie sur chacun des médias indépendamment, en conservant la trace des relations structurelles les reliant. La première phase du processus consiste à effectuer une segmentation en composantes plus élémentaires du document multimédia original. Pour ce faire on applique successivement trois outils :
1. Outil de segmentation par support : on sépare au moyen des informations contenues dans le format du document celui-ci en plusieurs supports : supports audio, supports vidéo et support comportemental (programme, description HTML ou XML, etc.).
2. Outil de segmentation temporelle : si le média présente une extension temporelle, on le tronçonne en sections présentant une homogénéité temporelle. Pour ce faire on calcule sur le support une ou plusieurs fonctions spatiales d'homogénéité. On calcule :
- l'histogramme des valeurs du signal (de sa luminance pour un signal imagé),
- la projection moyennée de sa luminance suivant l'axe des X pour un signal imagé,
- la projection moyennée de sa luminance suivant l'axe des Y pour un signal imagé,
- différentes approximations de ce signal à différentes échelles par application d'un filtre médian ou d'un filtre moyenne, - différentes approximations de ce signal au moyen de filtres en ondelettes,
- etc.
On détermine ensuite la corrélation entre ces fonctions d'homo- généité au cours du temps. Le dépassement d'un seuil de variation pour une ou plusieurs de ces corrélations indique la présence d'une discontinuité du signal correspondant à un changement de segment temporel. On enregistre dans la structure du méta-identifiant ces différents segments comme autant de nœuds reliés par des arcs notant la continuité temporelle.
3. Outil de segmentation spatiale : au moyen d'un filtre de segmentation spatiale on détermine les différents objets qui composent une scène imagée. Pour ce faire on emploie concuremment, concomitamment ou séparément plusieurs méthodes : segmentation par la texture : filtre segmentation par la couleur : on calcule la répartition des couleurs segmentation par les contours : contours actifs.
Ces méthodes permettent d'extraire différents objets au sein de chaque séquence et au sein d'une série de séquences. On emploie ensuite une détermination de similitudes (corrélation simple, corrélation sur un des critères d'homogénéité précédemment présentées ou calcul de similitude) pour reconnaître si plusieurs objets successifs dans plusieurs images d'une même séquence ou de plusieurs séquences constituent réellement un même objet conceptuel. Dans ce cas on crée une représentation unique par séquence sous la forme d'un nœud du méta- identifiant que l'on relie au nœud représentant la scène par un arc dans lequel on code une relation d'inclusion. On relie également les représentations des objets identiques de deux scènes successives par un arc codant une relation d'identité (voir Figure 8).
4. Segmentation abstraite : on identifie des objets spécifiques par des moyens spécifiques : • par l'application d'un OCR sur les données imagées, on extrait les textes incrustés dans les images, • par l'application d'un outil de traitement de la parole, on produit un texte transcrivant le contenu des paroles prononcées par les éventuels locuteurs de la bande son, * par l'application de détecteurs spécifiques (détecteurs de visages, de mouvements, etc.). Chaque résultat d'un de ces outils spécifiques produit un objet spécifique qui est enregistré dans le méta-identifiant avec sa nature et son contenu stockés dans la pondération du nœud correspondant. Les relations d'inclusions de cet objet dans la scène ou avec les autres objets de la scène sont enregistrées au moyen d'arcs reliant ce nœud avec les nœuds correspondants des autres objets.
La phase qui suit la segmentation est l'identification des objets : pour chacun des objets identifiés dans le méta-identifiant on détermine, au moyen des méthodes adéquates les informations d'identification propres à chaque objet. On emploie pour ce faire les méthodes images déjà décrites plus haut ou les méthodes sons qui seront décrites plus loin. Les autres informations sont stockées de manière textuelle ou codée par des mots-clefs en fonction de la nature de l'information concernée : "mouvement de rotation de 90 degrés dans le sens des aiguilles d'une montre" par exemple.
Il est à noter que les résultats des calculs intermédiaires qui sont effectués au cours de ces étapes sont conservés tout au long du calcul pour permettre leur réutilisation par les algorithmes suivants. On donnera ci-dessous des exemples de méthodes employées dans la caractérisation de documents audiovisuels.
L'indexation des supports audiovisuels dans le cadre d'une base de données peut nécessiter de s'appuyer sur plusieurs informations de natures différentes. On peut tout d'abord distinguer les informations "atomiques" qui sont immédiatement extractibles d'un aspect unique du document audiovisuel indépendamment de leur contexte :
1. Le texte incrusté sur l'image-média : il est reconnu au moyen d'un logiciel d'OCR sur les images-médias qui forment la séquence audiovisuelle. Des informations complémentaires concernant les images- médias (textes inscrits sur des objets de la séquence, marques de produits, enseignes lumineuses) peuvent être éventuellement associées mais doivent pouvoir être distinguées de manière fiable des incrustations volontaires de texte. 2. Le texte parlé : il est reconnu à partir de la bande son. Un logiciel d'analyse de la voix permet d'extraire, sous forme de textes et d'annotations, les paroles énoncées sur la bande son du document. Des informations complémentaires peuvent s'y adjoindre, telles que la différenciation des locuteurs, leurs conditions d'élocution, éventuellement l'identification des locuteurs. Des outils plus complexes peuvent s'ajouter à cette extraction brute dans le but d'associer plus finement sémantique textuelle et sémantique image-média. Par exemple, la méthode TF-IDF (Term Frequency - Inverse Document Frequency) mesure l'importance relative des mots dans un document vidéo à partir d'un corpus de référence. Les mots particulièrement fréquents dans un plan, mais peu courants dans un corpus, correspondront probablement à une information- clé de cette séquence.
3. Les bruits et la musique : les pistes sons contiennent, en supplément de la parole, de la musique et des bruitages qui peuvent être exploités sous certaines réserves, par exemple pour identifier un bruit caractéristique d'une action (claquement de portière, sonnerie de téléphone, etc.) ce qui peut constituer une information cruciale pour la description de la séquence à indexer. L'identification musicale pourrait également être envisagée.
4. Le découpage en plans : les changements de scène peuvent être identifiables sous certaines réserves et renseignent sur la structure d'ensemble de la séquence vidéo. Une fois identifiés, les plans permettent l'analyse d'autres caractéristiques telles que les "images-médias résumés". La segmentation des documents audiovisuels en plans occupe une position centrale parmi les méthodes d'indexation audiovisuelle. Il n'y a pas encore de méthode de détection des différents types d'effets de transitions avec une fiabilité 100%. Cependant, de plus en plus, des méthodes sont proposées pour traiter efficacement un certain type de transition tel que le "eut".
5. Les "images-médias résumés" : un résumé est une image-média qui représentera les caractéristiques majeures statiques d'un plan dans une séquence vidéo. Il peut s'agir d'une technique très simple, telle que choisir la première ou la dernière image-média du plan, ou d'une technique plus sophistiquée, comme construire une image-média mosaïque de la scène concernée par le plan. Une technique d'indexation d'image-média fixe classique pourra alors être appliquée pour indexer les informations visuelles caractéristiques de la séquence analysée.
6. Les mouvements de caméra / mouvements des objets : suivant les conditions de la prise de vue, il est possible d'analyser à partir du flux optique des déplacements de caméra ou d'objets filmés, des zooms, des panoramiques, des déplacements de foules ou d'objets uniques. Ces informations peuvent permettre de qualifier certaines scènes et d'apporter ainsi un contenu dynamique sur la sémantique du plan à indexer. 7. Les transitions : dans de bonnes conditions, il est possible d'analyser les catégories de transitions choisies lors du montage de la séquence vidéo. Les informations correspondant à ces transitions peuvent permettre d'identifier les relations structurelles entre des plans, comme par exemple en identifiant les différents jingles de changement de sujets dans un journal télévisé. Cette analyse nécessite de s'appuyer également sur des aspects audio.
8. Les objets vidéo : l'existence d'objets peut être décelée et suivie au cours d'une séquence vidéo. II peut s'agir
- soit de méthodes spécialisées, souvent statiques et appliquées à une image-média :
* reconnaissance de visages
• reconnaissance de formes géométriques • identification de textures,
- soit de méthodes généralistes, souvent dynamiques et appliquées sur une séquence :
» suivi d'un objet en mouvement qui est distingué de son environnement (balles de tennis, joueurs de foot), - identification d'un arrière-plan, segmentation en plans perspectifs.
On peut alors concrétiser cette information sous la forme de séries de morceaux d'image-médias ou d'images-médias composites
(éventuellement elles-mêmes images-média mosaïques) qui, comme pour les "images-média résumés", pourront être indexées directement. L'intérêt de la séparation en objets élémentaires est crucial pour une interprétation sémantique de la séquence et pour les recherches sur le thème d'un objet.
On décrira maintenant un mécanisme de caractérisation par un méta-identifiant appliqué à des médias acoustiques, c'est-à-dire des médias reposant sur une représentation numérique monodimensionnelle d'un mécanisme acoustique quelconque, qu'il s'agisse d'un son, de la voix humaine, de musique, de cris ou de bruits : la détermination de points d'appui sur une ou plusieurs enveloppes du signal acoustique calculées à des résolutions différentes permet de calculer des signatures capables de caractériser localement le signal. Le processus se déroule en quatre phases :
- La première hase consiste à calculer des enveloppes du signal à différentes résolutions en appliquant successivement des filtres encodant des ondelettes sur le signal. Diverses ondelettes telles que Mallat, Daubechies, Coifman, Coiflets, paquets d'ondelettes, etc. peuvent être employées. Les filtres sont appliqués sur le signal d'origine pour produire un signal détail et un signal approximation. Les filtres sont réappliqués sur les signaux ainsi produits et cette opération est reproduite plusieurs fois en fonction de l'échantillonnage du signal original. L'ensemble des signaux intermédiaires et finals ainsi produits est alors simplifié pour produire des enveloppes. Cette simplification s'effectue par application d'un filtre (filtre médian, filtre moyenne,...).
- La deuxième phase consiste en la détermination des points d'appui. Pour ce faire, on calcule la variation relative du signal au premier et au second ordre pour réduire les points pour lesquels ces variations sont maximales (concurremment ou exclusivement) sur les signaux simplifiés produits par la première phase.
- La troisième phase consiste à vectoriser le signal. Il s'agit donc de représenter les points d'appui trouvés à la phase précédente par leur position dans l'espace temps-énergie ou dans l'espace fréquence-énergie.
- La quatrième phase consiste : à calculer des informations de caractérisation de la variation du signal. Ainsi on calcule cette information autour d'un point d'appui et entre deux points d'appui successifs au sein du signal de résolution maximal ; puis à stocker cette première information dans la pondération du nœud de méta-identifiant correspondant ; à stocker cette deuxième information dans la pondération de l'arc reliant les deux nœuds adéquats. Les informations de caractérisation sont la moyenne des dérivées locales du signal aux deux premiers ordres (tout autre information de nature géométrico- mathématique peut être utile également). On reprend le processus au niveau de résolution inférieur en stockant la relation d'inclusion dans un niveau hiérarchique du méta-identifiant et on itère le processus sur chaque résolution calculée par les ondelettes.
On décrira ci-dessous, à titre d'exemple, une méthode d'indexation textuelle appliquée aux médias textuels et permettant de construire un méta-identifiant au moyen d'une reformulation et d'une représentation vectorielle des phrases. D'autres systèmes d'indexation de texte en langage naturel ou non peuvent toutefois être employés.
De manière typique, un système d'indexation de texte en langage naturel (LN) est le suivant : le système d'indexation de texte est constitué de deux parties : la première partie transforme les énoncés des phrases écrites en langage naturel introduites dans le système (que cela soit pour être enregistrées et indexées ou que ce soit pour servir de requêtes pour retrouver des documents préalablement enregistrés). Cette transformation vise à identifier les groupes de mots possédant une signification propre grâce à des dictionnaires (que nous appellerons dictionnaires LN) et à les séparer des mots "outils" (tels que les mots de liaisons, articles, etc.). Ces groupes de mots sont remplacés par les synonymes les plus purs, puis des synonymes de polysémie, ensuite des concepts proches, puis des concepts sémantiquement voisins, etc.). Une pondération décroissante est associée à chacun de ces synonymes en fonction de cette distance au mot d'origine selon des critères empiriques ; on l'appellera "poids synonymique". Les autres mots sont négligés. Grâce à une analyse grammaticale, les mots possédant des flexions sont réduits à une forme de flexion simple (déclinaisons des verbes remplacées par l'infinitif, pluriel des noms remplacé par le singulier). Une fois cette phase de réécriture terminée, commence la deuxième phase qui diffère suivant qu'il s'agit d'une requête ou d'un texte à ajouter à la base. Dans le second cas, une table de noms inversée est produite afin de pouvoir retrouver aisément pour chaque mot ou chaque groupe de mots du dictionnaire LN les différents textes où ces mots sont cités, ainsi que leur(s) position(s) dans ces textes. Cette table constitue la table d'accès aux documents. Cette table inversée est concaténée avec celle déjà présente dans la base et triée par ordre lexicographique ou par ordre lexicographique inverse (selon le type de langue traitée). Les documents eux-mêmes sont stockés indépendamment, par exemple sous forme de fichiers. Dans le cas d'une requête, la réécriture de la requête produite par la première phase est comparée mot par mot ou groupes de mots par groupe de mots à la tables inversée pour retrouver les textes où ces mots sont présents. A chaque apparition d'un mot est associé le poids synonymique tel qu'il lui a été associé au cours de la première phase. Un score est produit en accumulant ces poids. Les documents contenant les textes obtenant les plus grands scores sont les plus pertinents. Une liste des documents classés par ordre de pertinence décroissante est produite.
On décrira brièvement à nouveau les différentes relations structurelles qui peuvent être mises en jeu au sein du méta-identifiant et le mécanisme reliant les informations provenant des différents moteurs d'indexation monomédia.
Les signatures obtenues au niveau de chaque moteur d'indexation monomédia (travaillant sur un média) se présentent sous forme d'hypergraphes pondérés par des vecteurs de valeurs numériques ou textuelles représentant les caractéristiques locales associées aux points d'appui (points d'intérêts dans les images, limites des enveloppes sonores pour les sons, etc.) de chacun des médias. Ces vecteurs peuvent être eux- mêmes remplacés hiérarchiquement par des hypergraphes dans le cas de moteurs monomédia employant la conjonction de plusieurs méthodes. Cette approche hiérarchique peut être itérée de manière à produire un hypergraphe unique représentant de la signature des caractéristiques reliant les différents sous-hypergraphes de vecteurs de valeurs numériques associées à chaque niveau de traitement (multimédia, monomédia, méthodes au sein d'un même média, etc.). Les arcs de ces hypergraphes servent à porter des relations spécifiques correspondant aux différentes informations structurelles que l'on peut trouver au sein d'un document multimédia (comme la liaison entre une figure et sa légende textuelle, ou comme la transformation géométrique permettant de passer d'un point d'intérêt à un autre).
La recherche au sein d'une telle structure représentée par un hypergraphe aux nœuds et aux branches pondérés par des informations peut s'effectuer au moyen d'une méthode de comparaison de sous- hypergraphes (suppression d'un sommet ou d'un arc, addition d'un sommet ou d'un arc, remplacement d'un sommet ou d'un arc) auxquelles on associe des scores au moyen d'une méthode figée (telle opération coûte tel nombre de points) ou au moyen d'une méthode d'apprentissage (avec retour d'information de la part d'un utilisateur). Ces scores devront dans tous les cas prendre en compte (simple multiplication par exemple) les coûts relatifs des distances entre les poids des branches ou des nœuds déterminés au sens des méthodes propres à chaque moteur d'indexation monomédia.

Claims

REVENDICATIONS
1. Procédé de comparaison d'un premier et d'un second documents multimédia composites comportant chacun au moins deux médias élémentaires choisis parmi des catégories comprenant des images, des sons, des signaux vidéo, des graphiques vectoriels animés et des textes, caractérisé en ce qu'il comprend les étapes suivantes : a/ affectation d'un méta-identifiant à chacun des premier et deuxième documents multimédia composites, lequel méta-identifiant inclut sous la forme d'un hypergraphe pondéré de nœuds et de relations entre ces nœuds, des méta-segments identifiant de façon univoque des médias élémentaires composant le document multimédia concerné, b/ récursion sur les arbres secondaires de relations intra-média des médias élémentaires de chacun des premier et deuxième documents multimédia composites, c/ pour l'hypergraphe de chaque média élémentaire du premier document multimédia, opération de maximalisation de l'identification avec l'hypergraphe d'un média élémentaire du deuxième document multimédia, d/ pour l'hypergraphe de chaque média élémentaire du premier document multimédia, détermination des coûts des opérations d'édition procurant les identifications maximales ou quasi maximales avec un hypergraphe d'un média élémentaire du deuxième document multimédia et expression des distances entre les médias élémentaires en fonction de ces coûts, e/ récursion sur l'arbre principal de production des relations inter-média entre les médias élémentaires de chacun des premier et deuxième documents multimédia composites, f/ pour l'hypergraphe de l'ensemble des médias élémentaires du premier document multimédia, opération de maximalisation de l'identification avec l'hypergraphe de l'ensemble des médias élémentaires du deuxième document multimédia, g/ pour l'hypergraphe de l'ensemble des médias élémentaires du premier document multimédia, détermination du coût de l'opération d'édition procurant l'identification maximale ou quasi maximale avec un hypergraphe de l'ensemble des médias élémentaires du deuxième document multimédia, et expression de la distance entre les premier et deuxième documents multimédia composites en fonction de ce coût.
2. Procédé selon la revendication 1, caractérisé en ce que les étapes c/ et d/ comprennent elles-mêmes les étapes suivantes : cl/ pour chaque média élémentaire du premier document multimédia à comparer à un média élémentaire du deuxième document multimédia, définition, en fonction des similarités recherchées, d'une fonction de coût intra-média basée sur un principe d'édition des hypergraphes faisant référence à une distance de similitude entre hypergraphes, c2/ exploration de l'ensemble des transformations possibles qui permettent de transformer l'hypergraphe de chacun des médias élémentaires du premier document multimédia en un hypergraphe le plus proche possible de l'hypergraphe de chacun des médias élémentaires du deuxième document multimédia, dl/ détermination du coût de chaque transformation suivant les règles définies à l'étape cl, et d2/ sélection, pour chacun des médias élémentaires du premier document multimédia, de la transformation dont le coût est minimal.
3. Procédé selon l'une des revendications 1 et 2, caractérisé en ce que les étapes f/ et g/ comprennent elles-mêmes les étapes suivantes : fl/ pour l'ensemble des médias élémentaires du premier document multimédia à comparer aux médias élémentaires du deuxième document multimédia, définition, en fonction des similarités recherchées, d'une fonction de coût inter-média basée sur un principe d'édition des hypergraphes faisant référence à une distance de similitude entre hypergraphes, f2/ exploration de l'ensemble des transformations possibles qui permettent de transformer l'hypergraphe du premier document multimédia composite en un hypergraphe le plus proche possible de l'hypergraphe du deuxième document multimédia composite, gl/ détermination du coût de chaque transformation suivant les règles définies à l'étape fl/, et g2/ sélection de la transformation dont le coût est minimal.
4. Procédé selon la revendication 1, caractérisé en ce que les étapes c/ et d/ comprennent la mise en œuvre d'un procédé d'optimisation sub-optimale tel qu'un algorithme génétique, un traitement par réseau de neurones ou par recuit simulé, pour produire une transformation dont le coût est le plus faible possible par rapport au procédé d'optimisation retenu.
5. Procédé selon l'une des revendications 1 et 4, caractérisé en ce que les étapes f/ et g/ comprennent la mise en œuvre d'un procédé d'optimisation sub-optimale tel qu'un algorithme génétique, un traitement par réseau de neurones ou par recuit simulé, pour produire une transformation dont le coût est le plus faible possible par rapport au procédé d'optimisation retenu.
6. Procédé selon l'une quelconque des revendications 1 à 5, caractérisé en ce que lors de la comparaison d'un premier document multimédia composite affecté d'un méta-identifiant et segmenté en métasegments, on procède à une comparaison point-à-point des méta- segments de nature vectorielle au moyen d'une distance vectorielle choisie parmi les distances de type Euclidienne, Riemann avec paramètre L et Mahalanobis, de manière à produire des résultats constituant des scores d'appariement entre les méta-segments comparés deux à deux, et on procède à une comparaison des méta-segments des hypergraphes et à la production d'un score synthétique de distance entre les documents en pondérant les résultats des comparaisons point-à-point des métasegments par la probabilité d'appariement entre chaque branche correspondante des arbres des deux documents.
7. Procédé selon l'une quelconque des revendications 1 à 6, caractérisé en ce qu'il est appliqué au stockage de documents multimédia dans une base de données, cette opération de stockage comprenant le rangement par classification hiérarchique automatique de branches communes, identiques ou quasi identiques, d'hypergraphes représentant les méta-identifiants des documents multimédia à archiver.
8. Procédé selon la revendication 7, caractérisé en ce que l'adjonction d'un nouveau méta-identifiant correspondant à un document multimédia à archiver, dans une base de données comprenant déjà un ensemble de méta-identifiants et un ensemble d'objets intermédiaires représentant des parties des méta-identifiants destinées à être facilement reconnues comprend les étapes suivantes : i/ décomposition du nouveau méta-identifiant en méta- identifiants élémentaires codant les différents médias élémentaires contenus dans le document multimédia à archiver, ii/ construction d'un arbre de production des relations entre médias élémentaires, iii/ application récursive des étapes i/ et ii/ à chaque méta- identifiant élémentaire pour produire des arbres de production de relations au sein de chacun des médias élémentaires, les arbres étant stockés de façon indépendante, mais des relations d'inclusion étant ajoutées pour noter le lien entre un média élémentaire décrit dans l'arbre de production des relations entre les médias élémentaires et les constituants de ce média élémentaire dans l'arbre de production des relations au sein de ce média élémentaire considéré.
9. Procédé selon la revendication 8, caractérisé en ce que l'étape de décomposition du nouveau méta-identifiant s'effectue en parcourant intégralement l'hypergraphe associé à ce nouveau méta-identifiant et en sélectionnant les groupes de nœuds voisins dont le média support est identique.
10. Procédé selon la revendication 8 ou la revendication 9, caractérisé en ce que l'étape de construction d'un arbre de production des relations entre médias élémentaires comprend notamment les opérations suivantes : - construction d'un hypergraphe simplifié en associant un nœud à chaque méta-identifiant élémentaire et en recopiant des relations liant les nœuds des médias élémentaires à leurs méta-identifiants respectifs, avec suppression des relations de même nature reliant deux mêmes nœuds, - découpage de l'hypergraphe en sous-hypergraphes connexes par nombre croissant de nœuds,
- rangement en classes de sous-hypergraphes similaires ayant le même nombre de nœuds, - caractérisation de chaque classe par un représentant unique détenteur des propriétés moyennes des éléments de la classe, et
- organisation de manière hiérarchique des classes précédemment définies au moyen de relations de similarité de parties de leurs représentants.
11. Procédé selon l'une quelconque des revendications 1 à 10, caractérisé en ce qu'il est appliqué à la recherche d'un document multimédia archivé dans une base de données et en ce qu'il comprend les étapes suivantes : - présentation d'une requête composite comprenant elle-même des documents multimédia liés entre eux par des opérateurs logiques,
- affectation d'un méta-identifiant à chacun des documents multimédia de la base de données, lequel méta-identifiant inclut sous la forme d'un hypergraphe pondéré de nœuds et de relations entre ces nœuds, des méta-segments identifiant de façon univoque des médias élémentaires composant le document multimédia concerné,
- affectation d'un méta-identifiant à la requête composite, lequel méta-identifiant inclut sous la forme d'un hypergraphe pondéré de nœuds et de relations entre ces nœuds, des méta-segments identifiant de façon univoque des médias élémentaires composant la requête composite,
- récursion sur les arbres secondaires de relations intra-média des médias élémentaires de chacun des documents multimédia de la base de données, - récursion sur les arbres secondaires de relations intra-média des médias élémentaires de la requête composite,
- récursion sur l'arbre principal de production des relations inter-média entre les médias élémentaires de chacun des documents multimédia de la base de données,
- récursion sur l'arbre principal de production des relations inter-média entre les médias élémentaires de la requête composite,
- production d'un hypergraphe global réunissant l'ensemble des hypergraphes de la requête composite reliés par lesdits opérateurs logiques,
- comparaison dudit hypergraphe global avec les hypergraphes des documents multimédia de la base de données selon les étapes suivantes :
- pour l'hypergraphe de chaque média élémentaire de la requête composite, opération de maximalisation de l'identification avec l'hypergraphe d'un média élémentaire de chacun des documents multimédia de la base de données,
- pour l'hypergraphe de chaque média élémentaire de la requête composite, détermination des coûts des opérations d'édition procurant les identifications maximales ou quasi maximales avec un hypergraphe d'un média élémentaire de chacun des documents multimédia de la base de données et expression des distances entre les médias élémentaires en fonction de ces coûts,
- pour l'hypergraphe de l'ensemble des médias élémentaires de la requête composite, opération de maximalisation de l'identification avec l'hypergraphe de l'ensemble des médias élémentaires de chacun des documents multimédia de la base de données,
- pour l'hypergraphe de l'ensemble des médias élémentaires de la requête composite, détermination des coûts des opérations d'édition procurant l'identification maximale ou quasi maximale avec un hypergraphe de l'ensemble des médias élémentaires de chacun des documents multimédia de la base de données, et expression des distances entre la requête composite et chacun de ces documents multimédia de la base de données en fonction de ce coût,
- organisation de la liste des documents multimédia de la base de données par ordre décroissant des coûts calculés précédemment.
12. Procédé selon la revendication 11, caractérisé en ce que les étapes de traitement individuel des documents multimédia de la base de données sont effectuées préalablement à la présentation d'une requête composite et les résultat de ces étapes de traitement individuel sont conservés pour le traitement d'un ensemble de requêtes composites différentes, en ce que la base de données est organisée avec un stockage comprenant le rangement par classification hiérarchique automatique de branches communes, identiques ou quasi identiques, d'hypergraphes représentant les méta-identifiants des documents multimédia à archiver, et en ce que, au lieu d'effectuer une comparaison de l'hypergraphe global de la requête composite avec les hypergraphes de l'ensemble des documents multimédia de la base de données, on procède à une recherche hiérarchique dans l'arborescence des classes des hypergraphes de l'ensemble des documents multimédia de la base de données et on effectue des comparaisons entre l'hypergraphe global de la requête composite et les représentants desdites classes.
13. Procédé d'indexation d'un document multimédia composite comportant au moins deux médias élémentaires choisis parmi les catégories comprenant des images, des sons, des signaux vidéo, des graphiques vectoriels animés et des textes, caractérisé en ce qu'il comprend les étapes suivantes : a/ affectation d'un méta-identifiant au document multimédia composite, lequel méta-identifiant inclut sous la forme d'un hypergraphe pondéré de nœuds et de relations entre ces nœuds, des méta-segments identifiant de façon univoque des médias élémentaires composant le document multimédia composite, b/ récursion sur les arbres secondaires de relations intra-média des médias élémentaires du document multimédia composite, et cl récursion sur l'arbre principal de production des relations inter-média entre les médias élémentaires du document multimédia composite.
14. Procédé selon la revendication 13, caractérisé en ce qu'il est appliqué au stockage de documents multimédia dans une base de données, cette opération de stockage comprenant le rangement par classification hiérarchique automatique de branches communes, identiques ou quasi identiques, d'hypergraphes représentant les méta-identifiants des documents multimédia à archiver.
15. Procédé selon la revendication 14, caractérisé en ce que l'adjonction d'un nouveau méta-identifiant correspondant à un document multimédia à archiver, dans une base de données comprenant déjà un ensemble de méta-identifiants et un ensemble d'objets intermédiaires représentant des parties des méta-identifiants destinées à être facilement reconnues comprend les étapes suivantes : i/ décomposition du nouveau méta-identifiant en méta- identifiants élémentaires codant les différents médias élémentaires contenus dans le document multimédia à archiver, ii/ construction d'un arbre de production des relations entre médias élémentaires, iii/ application récursive des étapes i/ et ii/ à chaque méta- identifiant élémentaire pour produire des arbres de production de relations au sein de chacun des médias élémentaires, les arbres étant stockés de façon indépendante, mais des relations d'inclusion étant ajoutées pour noter le lien entre un média élémentaire décrit dans l'arbre de production des relations entre les médias élémentaires et les constituants de ce média élémentaire dans l'arbre de production des relations au sein de ce média élémentaire considéré.
16. Procédé selon la revendication 15, caractérisé en ce que l'étape de décomposition du nouveau méta-identifiant s'effectue en parcourant intégralement l'hypergraphe associé à ce nouveau méta-identifiant et en sélectionnant les groupes de nœuds voisins dont le média support est identique.
17. Procédé selon la revendication 14 ou la revendication 15, caractérisé en ce que l'étape de construction d'un arbre de production des relations entre médias élémentaires comprend notamment les opérations suivantes :
- construction d'un hypergraphe simplifié en associant un nœud à chaque méta-identifiant élémentaire et en recopiant des relations liant les nœuds des médias élémentaires à leurs méta-identifiants respectifs, avec suppression des relations de même nature reliant deux mêmes nœuds,
- découpage de l'hypergraphe en sous-hypergraphes connexes par nombre croissant de nœuds, - rangement en classes de sous-hypergraphes similaires ayant le même nombre de nœuds,
- caractérisation de chaque classe par un représentant unique détenteur des propriétés moyennes des éléments de la classe, et - organisation de manière hiérarchique des classes précédemment définies au moyen de relations de similarité de parties de leurs représentants.
18. Procédé selon l'une quelconque des revendications 1 à 17, caractérisé en ce qu'au moins un média élémentaire est un document monomédia appartenant à une seule catégorie de médias.
19. Procédé selon l'une quelconque des revendications 1 à 17, caractérisé en ce qu'au moins un média élémentaire est lui-même un document multimédia comportant des sous-éléments appartenant à des catégories de médias différentes.
EP02790506A 2001-10-12 2002-10-11 Procede d'indexation et de comparaison de documents multimedia Withdrawn EP1435054A2 (fr)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0113223 2001-10-12
FR0113223A FR2830958B1 (fr) 2001-10-12 2001-10-12 Procede d'indexation, de stockage et de comparaison de documents multimedia
PCT/FR2002/003470 WO2003032196A2 (fr) 2001-10-12 2002-10-11 Procede d'indexation et de comparaison de documents multimedia

Publications (1)

Publication Number Publication Date
EP1435054A2 true EP1435054A2 (fr) 2004-07-07

Family

ID=8868268

Family Applications (1)

Application Number Title Priority Date Filing Date
EP02790506A Withdrawn EP1435054A2 (fr) 2001-10-12 2002-10-11 Procede d'indexation et de comparaison de documents multimedia

Country Status (4)

Country Link
EP (1) EP1435054A2 (fr)
JP (1) JP2005505081A (fr)
FR (1) FR2830958B1 (fr)
WO (1) WO2003032196A2 (fr)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4823996B2 (ja) * 2007-11-02 2011-11-24 日本電産トーソク株式会社 輪郭検出方法及び輪郭検出装置
KR101380605B1 (ko) * 2012-03-30 2014-04-04 서울대학교산학협력단 하이퍼 그래프 기반 rdf 버전 관리 방법
CN110136066B (zh) * 2019-05-23 2023-02-24 北京百度网讯科技有限公司 面向视频的超分辨率方法、装置、设备和存储介质
CN115329169B (zh) * 2022-06-27 2023-10-20 海南电网有限责任公司信息通信分公司 一种基于深度神经模型的档案归档计算方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6243713B1 (en) * 1998-08-24 2001-06-05 Excalibur Technologies Corp. Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHASHA D. ET AL.: "Fast Algorithms for the Unit cost Editing Distance between Trees", JOURNAL OF ALGORITHMS., vol. 11, 1990, USACADEMIC PRESS INC., ORLANDO, FL., pages 581 - 624 *

Also Published As

Publication number Publication date
FR2830958B1 (fr) 2004-02-13
FR2830958A1 (fr) 2003-04-18
WO2003032196A2 (fr) 2003-04-17
WO2003032196A3 (fr) 2003-10-09
JP2005505081A (ja) 2005-02-17

Similar Documents

Publication Publication Date Title
US6988093B2 (en) Process for indexing, storage and comparison of multimedia documents
Liu et al. A survey of content-based image retrieval with high-level semantics
CN111723692B (zh) 基于卷积神经网络语义分类的标签特征的近重复视频检测方法
FR2801991A1 (fr) Procede et dispositif de recherche d'images basee sur le contenu prenant en compte le contenu de regions d'interet
WO2017055250A1 (fr) Procédé et système de recherche d'images similaires quasi-indépendant de l'échelle de la collection d'images
Young-Min Feature visualization in comic artist classification using deep neural networks
EP1766538A1 (fr) Recherche automatique de similarite entre images incluant une intervention humaine
CN111309955B (zh) 一种面向图像检索的融合方法
FR2807852A1 (fr) Procedes et dispositifs d'indexation et de recherche d'images numeriques prenant en compte la distribution spatiale du contenu des images
EP1435054A2 (fr) Procede d'indexation et de comparaison de documents multimedia
CN115880696A (zh) 一种基于深度学习的物联网卡管理方法、装置及相关介质
CN115544297A (zh) 一种声音数据库构建及智能检索方法、系统及存储介质
WO1999040539A1 (fr) Procede de segmentation spatiale d'une image en objets visuels et application
Piamsa-nga et al. Multi-feature content based image retrieval
Shambharkar et al. A comparative study on retrieved images by content based image retrieval system based on binary tree, color, texture and canny edge detection approach
Rajendran et al. A content-based video retrieval system: video retrieval with extensive features
Hervé et al. Document description: what works for images should also work for text?
Golshani et al. A model-based approach to semantic-based retrieval of visual information
Liu et al. Region-based image retrieval with high-level semantics
CN116955686A (zh) 图像处理方法、装置、计算机设备及存储介质
WO2004021265A2 (fr) SystEme associatif flou de description d'objets multimEdia
WO2020229760A1 (fr) Procede d'indexation multidimensionnelle de contenus textuels
Cerra Pattern-oriented algorithmic complexity: towards compression-based information retrieval
Dave Unsupervised Deep Learning Approach for Video Retrieval using Image Query
EP3420470A1 (fr) Procédé de description de documents multimedia par traduction inter-modalités, système et programme d'ordinateur associés

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20040407

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR IE IT LI LU MC NL PT SE SK TR

17Q First examination report despatched

Effective date: 20090226

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: COMMISSARIAT A L'ENERGIE ATOMIQUE ET AUX ENERGIES

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20160503