EP2907079A1 - Procede de classification d'un objet multimodal - Google Patents

Procede de classification d'un objet multimodal

Info

Publication number
EP2907079A1
EP2907079A1 EP13774134.4A EP13774134A EP2907079A1 EP 2907079 A1 EP2907079 A1 EP 2907079A1 EP 13774134 A EP13774134 A EP 13774134A EP 2907079 A1 EP2907079 A1 EP 2907079A1
Authority
EP
European Patent Office
Prior art keywords
modality
matrix
multimedia
dictionary
recoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP13774134.4A
Other languages
German (de)
English (en)
Inventor
Amel ZNAIDIA
Aymen SHABOU
Hervé LE BORGNE
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Commissariat a lEnergie Atomique et aux Energies Alternatives CEA
Original Assignee
Commissariat a lEnergie Atomique et aux Energies Alternatives CEA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Commissariat a lEnergie Atomique et aux Energies Alternatives CEA filed Critical Commissariat a lEnergie Atomique et aux Energies Alternatives CEA
Publication of EP2907079A1 publication Critical patent/EP2907079A1/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata

Definitions

  • the present invention relates to a method of classifying a multimodal object.
  • the present invention is in the field of the detection and automatic recognition of multimodal objects called "multimedia", that is to say described in at least two ways, for example objects formed by an image and a set of textual words associated with this image. More specifically, the present invention is in the field of supervised classification. It can be applied in particular to the classification and search of multimedia information in databases.
  • a document or object called "multimedia” essentially comprises several modalities.
  • a multimedia object may consist of an image accompanied by textual information, which may be designated "tags" according to the English name.
  • a multimedia object may also consist of a web page with one or more images and textual content.
  • a multimedia object may also consist, for example, of a digitized document divided into several channels, for example a channel comprising textual information coming from an optical character recognition method, commonly referred to as OCR, a channel comprising illustrations and images. photographs identified in the document.
  • a multimedia object may also consist, for example, of a video sequence separated into several channels, for example a visual channel comprising the images of the video sequence, a sound channel comprising the soundtrack of the sequence, a textual channel comprising, for example, sub-channels. titles, or textual information derived from a speech transcription method in text, a channel comprising metadata relating to the video sequence, for example relating to the date, the author, the title, the format of the sequence, etc.
  • multimedia in the desired form or limited to one of the modalities of the multimedia object sought; for example, in the case where the searched multimedia object is an image associated with textual tags, a request may comprise visual information alone, or textual information alone.
  • the search then consists of finding in the database the multimedia documents most similar to the request, for example to present them in order of relevance.
  • a multimedia document is delicate, because of the heterogeneous nature of the modalities defining it.
  • the visual modality in the classification of images associated with textual content, the visual modality can be transformed into feature vectors forming a low level visual description; the textual modality can be mapped in a dictionary reflecting a particular language or subdomain of the latter.
  • supervised classification technique features are extracted from a plurality of objects, for the purpose of feeding a learning system, together with labels or "labels", to produce a model, which processing is performed offline. .
  • a so-called test object also undergoes and in a similar way a feature extraction, the extracted characteristics being compared to the offline product model to allow prediction, the aforementioned steps being performed online.
  • late fusion In order to overcome the problem related to the heterogeneity of the modalities, it is possible, according to a first technique known as late fusion, to proceed to the description and the classification of multimedia objects separately for the different modes according to which the is defined, then to merge late the results obtained for the different modalities.
  • the late fusion technique is described in detail hereinafter with reference to FIG.
  • early fusion According to an alternative method, called early fusion, the terms are merged at the extraction of characteristics.
  • the early fusion technique is described in detail hereinafter with reference to FIG.
  • An object of the present invention is to provide a more compact method of describing multimedia objects than the known methods, allowing both to combine different modalities of multimedia objects to best describe the content, the method being able to operate independently of the content itself of the objects.
  • signatures be determined for multimedia objects, these signatures resulting from a combination of information according to different modalities.
  • the present invention is thus based on an early fusion technique, and is based firstly on multimedia codes allowing the coding of words according to a first modality, for example textual, on words following a second modality, for example visual, extracts from a multimedia object, and secondly on the determination of "multimedia word bag” type signatures, like word bag techniques used for monomodal objects, explained below.
  • the subject of the invention is a method for classifying a multimodal test object, referred to as a multimedia test object, described in at least a first and a second embodiment, characterized in that it comprises an off-site construction step.
  • a multimedia test object described in at least a first and a second embodiment, characterized in that it comprises an off-site construction step.
  • said re-encoding matrix is constructed at least by the following steps:
  • said first modality may be textual
  • said second modality may be visual
  • the test object being a test image associated with textual tags
  • said dictionary following the first modality being a dictionary textual
  • said dictionary following the second modality being a visual dictionary
  • the classification method may comprise a sequence of at least the following steps, performed offline:
  • An unsupervised classification step called the clustering step of the normalized recoding matrix, generating the multimedia dictionary.
  • the classification method may comprise a sequence of at least the following steps, performed online:
  • the recoding step may be based on a locally constrained linear encoding technique.
  • said normalization step may comprise a standardization of the row-recoding matrix according to the L1 standard.
  • said clustering step can be performed from an algorithm of K-averages.
  • the present invention also relates to a device for classifying a test object comprising means adapted for implementing a classification method according to one of the described embodiments.
  • the present invention also relates to a computer program comprising instructions for implementing a classification method according to one of the described embodiments.
  • An advantage provided by the present invention is that a method according to one of the described embodiments requires learning only a single multimedia model.
  • FIG. 1 a diagram illustrating a supervised classification technique of images
  • FIG. 2 a diagram illustrating a technique for supervised classification of multimodal documents, according to a late fusion method
  • FIG. 3 a diagram illustrating a technique for supervised classification of multimodal documents, according to an early fusion method
  • FIG. 4 a logic diagram illustrating a method of classifying a multimedia object according to an exemplary embodiment of the present invention
  • FIG. 5 a diagram illustrating the principle of constructing a recoding matrix and a multimedia dictionary, in a method as illustrated by FIG. 4;
  • Figure 6 is a diagram illustrating the main input and output data in a method as illustrated in Figure 4.
  • Figure 7 is a diagram schematically illustrating a visual context recognition device according to an exemplary embodiment of the present invention.
  • Figure 1 shows a diagram illustrating the supervised classification technique, introduced previously. It should be noted that the example illustrated in FIG. 1 applies to the classification of all types of objects, for example visual objects such as images, or textual objects.
  • a supervised classification method comprises, in particular, a learning phase 1 1 carried out offline, and a testing phase 13 carried out online.
  • the learning phase 11 and the test phase 13 each comprise a feature extraction step 11, 131 making it possible to describe an object, for example an image, with a vector of determined dimension.
  • the learning step 11 is to extract the characteristics on a large number of learning objects 1 13; a series of signatures and the corresponding labels 1 12 feed a learning module 1 15, implementing a learning step and then producing a model 135.
  • the test step 13 consists in describing, by means of the characteristic extraction step 131, an object called test object 133 by a vector of the same nature as during the learning phase 11. This vector is applied at the input of the aforementioned model 135.
  • the model 135 outputs a prediction 137 of the test object label 133.
  • the prediction associates the label (or labels) with the most relevant one (s) with the test object among the set of possible labels.
  • This relevance is calculated by means of a decision function associated with the learning model learned on the learning base depending on the learning algorithm used.
  • the label of an object indicates its degree of belonging to each of the concepts considered. For example, if three classes are considered, for example the classes "beach”, "city” and “mountain", the label is a three-dimensional vector, each component of which is a real number. For example, each component can be a real number between 0 if the object does not contain the concept, and 1 if the image contains the concept in a certain way.
  • the learning technique may be based on a technique known per se, such as the technique of wide margin separators, commonly referred to as SVM corresponding to the terminology “Support Vector Machine”, on a technique called “ boosting ", or on a technique of the type designated by the acronym MKL corresponding to the English terminology” Multiple Kernel Learning ".
  • Figure 2 presents a diagram illustrating a technique of supervised classification of multimodal documents, using a late fusion method.
  • a supervised classification system for multimedia objects comprises, in particular, a learning phase 1 1 carried out offline, and a testing phase 13 carried out online.
  • the learning phase 1 1 and the test phase 13 each comprise two feature extraction steps 1 1 1, 1 1 1 'and 131, 131' making it possible to describe a multimedia object, bimodal in the example illustrated by FIG. figure, for example an image associated with textual content.
  • the learning phase 11 comprises a characteristic extraction step 1 1 1 according to a first modality, for example a visual mode, and a characteristic extraction step 11 'in a second modality, for example textual.
  • the learning step 11 is to extract the characteristics on a large number of learning objects 1 13; a series of signatures and corresponding labels 12, feed a first learning module 1 15 relating to the first modality, and a second learning module 1 15 'relating to the second modality, the two learning modules 1 15 , 1 15 'implementing a learning step and then producing respectively a first model 135 according to the first modality, and a second model 135' according to the second modality.
  • the test step 13 consists in describing, by means of two feature extraction steps 131, 131 'respectively according to the first and the second modality, a so-called object test 133 by vectors of the same nature, respectively according to the first and the second modality, as during the learning phase 1 1. These two vectors are input respectively of the two models 135, 135 'above. Each model 135, 135 'produces at its output respectively a first prediction 137 relating to the first modality and a second prediction 137' relating to the second modality, labels of the test object 133. The labels following the two modalities are then merged in a merging step 23, producing a single multimodal label. The melting step 23 is thus applied only online. The prediction associates the label (or labels) with the most relevant one (s) to the test object among a set of possible labels.
  • Figure 3 presents a diagram illustrating a technique of supervised classification of multimodal documents, according to an early fusion method.
  • a supervised classification system for multimedia objects comprises, in particular, a learning phase 1 1 carried out offline and a test phase 13 carried out online.
  • the learning phase 1 1 and the test phase 13 each comprise two characteristic extraction steps 1 1 1, 1 1 1 'and 131, 131' making it possible to describe a multimedia object, bimodal in the example illustrated by the figure, for example an image associated with textual content.
  • the learning phase 11 comprises a characteristic extraction step 1 1 1 according to a first modality, for example a visual mode, and a characteristic extraction step 11 'in a second modality, for example textual.
  • an early fusion step 31 makes it possible to generate multimedia characteristics 310 from the characteristics extracted according to the first and the second modality at the feature extraction steps 1 1 1, 1 1 1 '.
  • a learning module 1 15 implementing a learning step makes it possible to generate a multimedia model 335 from the multimedia characteristics 310 generated during the early merging step 31 and a plurality of tags 1 12.
  • an early melting step 33 operating identically to the early melting step 31 applied during the learning phase 11, makes it possible to generate multimedia characteristics 330 online, from the extracted features according to the first and second modes at the feature extraction steps 1 1 1, 1 1 1 'based on a test object 133.
  • the multimedia model 335 outputs a prediction 337 of the label of the test object 133.
  • the prediction associates the label (or labels) with the most relevant (s) to the test object among the set of possible labels.
  • a classification method according to the present invention is based on the early fusion principle illustrated above.
  • a classification method according to the present invention applies in particular to the feature extraction steps.
  • Such extraction techniques involve a step of extracting local descriptors from an image, to reconstruct a final signature, by a so-called "visual word bag” approach, commonly designated by the initials BOV corresponding to the English terminology “ Bag Of Visual terms "or” Bag Of Visterms ".
  • a so-called "visual word bag” approach commonly designated by the initials BOV corresponding to the English terminology “ Bag Of Visual terms "or” Bag Of Visterms ".
  • one or a plurality of local descriptors are extracted from the image considered, from pixels or "patches" dense in the image, or more generally sites in the image.
  • local descriptors are associated with as many patches, which can in particular be defined by their location or locality, for example by coordinates (x, y) in a Cartesian coordinate system in which is also defined the domain of considered image, a patch that can be limited to one pixel, or consist of a block of a plurality of pixels.
  • the local descriptors are then recoded during a coding step or "coding" in a feature space or “feature space” according to the English terminology, according to a reference dictionary, commonly referred to as "codebook”. .
  • the recoded vectors are then aggregated during an aggregation or "pooling" step into a single signature vector.
  • the coding step can in particular be based on a so-called “hard coding” technique, commonly referred to as “Hard Coding” or the corresponding acronym HC.
  • Hard coding techniques are for example described in the publication of S. Lazebnik, C. Schmid and J. Ponce "Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories" above, or in the publication of J. Sivic and A. Zisserman “Video google: a text retrieval approach to object matching in videos” in ICCV, 2003.
  • a local descriptor is recoded into a vector having a unique "1" on the dimension corresponding to the index of its nearest neighbor in the reference dictionary, and a plurality of "0" elsewhere.
  • a step of coding by hard coding thus leads to the production of a histogram of occurrence of the visual words of the reference dictionary most present, a visual word of the reference dictionary being considered present when it is closest to a local descriptor of the image considered.
  • the coding step can also be based on a so-called “soft coding” technique, commonly referred to as “Soft Coding” or the acronym SC.
  • Soft Coding or the acronym SC.
  • a soft coding technique is notably described in the publication by J. Van Gemert, C. Veenman, A. Smeulders and J. Geusebroek "Visual word ambiguity" - PAMI, 2009.
  • a local descriptor is recoded according to its similarity to each of the visual words of the reference dictionary.
  • the similarity is for example calculated as a decreasing function of the distance, typically an exponential of the opposite of the distance.
  • the coding step can also be based on a so-called “locally constrained linear encoding” technique, commonly referred to as “Locally constrained Linear Coding” or the corresponding acronym LLC. LLC-like techniques are described in particular in the publication of S. Gao, I. Tsang, L. Chia and P. Zhao, "Local features are not lonely - Laplacian sparse coding for image classification" In CVPR, 201 1, in the publication of L. Liu, L. Wang and X. Liu "In defense of soft-assignment coding" in CVPR, 201 1, or in the publication of J. Yang, K. Yu, Y. Gong and T. Huang " The principle of this technique is to restrict the soft-type coding to the nearest neighbors of the descriptors in the feature space, for example from 5 to 20 nearest neighbors of the reference dictionary. In this way, the coding noise can be reduced significantly.
  • the coding step can also be based on a so-called "locally constrained salient coding” technique, commonly referred to as “Locally constrained Salient Coding” where each descriptor is coded only on its nearest neighbor by associating it with a response, referred to as “saliency”, which depends on the relative distances of nearest neighbors to the descriptor. In other words, the smaller the distance from the nearest neighbor to the descriptor compared to the distances of the other close neighbors to the same descriptor, the greater the relevance.
  • a technique of the "saliency coding” type is particularly described in the publication by Y. Huang, K. Huang, Y. Yu, and T. Tan. Salient coding for image classification, in CVPR, 201 1.
  • FIG. 4 presents a logic diagram illustrating a method of classifying a multimedia object according to an exemplary embodiment of the present invention.
  • the exemplary embodiment described below with reference to FIG. 4 applies to the description and classification of image-type multimedia objects associated with textual content, for example textual tags. It is to observe that this is a non-limiting example of the present invention, and that other modalities than visual or textual modalities can be envisaged and treated in a similar manner. In addition, the example described below applies to bimodal objects, but a larger number of modalities may be considered.
  • the classification method may comprise a first preliminary step 401, making it possible to calculate the visual local characteristics on a learning basis, and to deduce therefrom a visual dictionary W v of a size K v , for example by an unsupervised classification method , denoted by the term "clustering", for example according to the K-means or "K-means” algorithm according to the English terminology, making it possible to partition local descriptors in a plurality k of sets in order to minimize the error of descriptor reconstruction by the centroid inside each partition. It is also possible to use other methods of learning the reference dictionary, such as for example the random draw of local descriptors or parsimonious coding.
  • the classification method may also comprise a second preliminary step 403, which may for example be performed before, after, or in parallel with the first prior step 401, making it possible to construct a textual dictionary W T by selecting textual tags representative of a corpus of learning, or by a specific ad-hoc dictionary, the textual dictionary W T being of size K T.
  • a second preliminary step 403 which may for example be performed before, after, or in parallel with the first prior step 401, making it possible to construct a textual dictionary W T by selecting textual tags representative of a corpus of learning, or by a specific ad-hoc dictionary, the textual dictionary W T being of size K T.
  • each multimedia object that is to say each image with textual content in the example described, is represented by a plurality of textual tags able to be subsequently coded by one of the K T possible textual tags forming the textual dictionary W T , and a plurality of visual words, able to be subsequently coded by one of the K visual words v possible forming the visual dictionary W v .
  • the classification method may then comprise an extraction step 405 of the local characteristics of the image, in which the local characteristics of the image are extracted and coded on the visual dictionary W v , and then aggregated according to a pooling technique.
  • the coding may for example be a hard coding and consist in determining the occurrence of visual words of the visual dictionary W v closest to the local characteristics of the image, followed for example by an aggregation of average type.
  • the extraction step 405 mentioned above may be followed by a construction step 407 of a matrix for recoding the textual tags to K v lines and K T columns, denoted X, whose coefficients are denoted X (i, j), i being an integer between 1 and K v , and j being an integer between 1 and K T , the recoding matrix X expressing the frequency of each visual word of the visual dictionary W v for each textual tag of the textual dictionary W T.
  • the construction step 407 may, for example, begin with a null X recoding matrix and then increment the coefficient X (i, j) by 1 each time a learning image associated with the textual tag has a visual local characteristic. close to the visual word j.
  • the construction step 407 of the X recoding matrix may be followed by a normalization step 409 of the X recoding matrix, for example according to the L1 standard per line.
  • the normalization step 409 of the X-recoding matrix can then be followed by a clustering step 41 1 on the columns of the X-recoding matrix, for example according to a K-means algorithm or another of the clustering algorithms cited. previously.
  • a multimedia dictionary W m can be obtained, whose size is K m .
  • the multimedia dictionary W m then forms a new representation space for the multimedia objects, the lines of the multimedia dictionary W m thus constitute multimedia words.
  • Each text tag represented by a column of the X recoding matrix, can then be recoded on this new representation space, during a recoding step 413.
  • Several coding methods can be applied.
  • the coding may in particular be based on one of the abovementioned techniques, that is to say on a "hard coding” technique, a “soft coding” technique, a “locally constrained linear coding” technique, a “coding” technique. locally stressed coding constraint ".
  • a text tag code Xi i.e. a column of the X recoding matrix of an image data is the descriptor that must be encoded on the multimedia dictionary W n according to relation (1) below:
  • x denotes a column of the recoding matrix X corresponding to the text tag considered; zy, a vector of size K m , is the code recoding x, on the multimedia dictionary; N k (Xj) denotes the set of k nearest neighbors of the vector xi among the columns of the recoding matrix X (k may for example be chosen equal to 5); ⁇ denotes a control parameter: the larger it is, the less the most remote multimedia words will have influence on the coding; m j and m r are the multimedia words obtained previously.
  • the recoding step 413 may finally be followed by an aggregation step 415, called “pooling", aggregating the recoded text tags into a single vector representing the image.
  • the aggregation step can be based on a sum, an average, or consider the maximum of each dimension, that is to say the maximum per multimedia word, the latter method being commonly referred to as "maximum pooling".
  • FIG. 5 presents a diagram illustrating the principle of constructing an X recoding matrix and a multimedia dictionary W m , implemented during the construction step 407 in a method as illustrated by FIG. 4.
  • a visual word occurrence matrix 501 can be learned on a learning base comprising a plurality of N images.
  • the occurrence matrix of visual words 501 thus comprises N rows and K v columns.
  • Each line of the visual word occurrence matrix 501 includes the respective visual signatures of the N images.
  • a first intermediate matrix 503 denoted by V can be constructed, comprising K T columns, each column corresponding to a text tag.
  • the intermediate matrix 503 can be constructed from a null matrix, then in a given column of the intermediate matrix 503, for each image among the plurality N, the presence or absence of each text tag is noted, the presence of a text tag in an image then introducing the value "1" in the column corresponding to this text tag.
  • an image l m is associated with the textual tags t 1 and t j
  • an image l n is associated with textual tags t 1 and t k .
  • the visual words for which the text tag in question is present can be collected, ie the visual words associated with the value 1 in the column of the first intermediate matrix 503 corresponding to the textual tag considered. This action being able to form a process step and being represented by a block 504 in FIG.
  • a second intermediate matrix 505 can then be constructed, this matrix comprising K v columns and K T lines. For each line, that is to say for each textual tag of the textual dictionary W T , is carried an aggregation of the occurrence of the corresponding visual words y collected during the previous step. For example, the occurrences of visual words for which a given text tag is present can be summed, an average or a maximum that can also be retained.
  • the coefficients composing the second intermediate matrix 505 can be formulated according to the following relation (2):
  • d k denotes the kth document in the training database D
  • t j a text tag in the set of textual tags T dk relating to the document d k
  • V (i, k ) refers to the occurrence of the ith visual word in the document k .
  • the coefficients composing the second intermediate matrix 505 can be formulated according to the following relation (3):
  • D denotes the learning base comprising N images
  • d k denotes the kth document in the training database D
  • t j a text tag in the set of textual tags T dk relating to the document d k
  • V (i, k) denotes the occurrence of the i-th visual word in the document d k .
  • the recoding matrix X can then be obtained from a normalization, for example by line following the norm L1, of the second intermediate matrix 505.
  • the multimedia dictionary W m can then be obtained from a clustering on the columns of the X recoding matrix, for example according to a K-means algorithm or another of the clustering algorithms mentioned above. .
  • Figure 6 shows a diagram illustrating the main input and output data in a classification method according to the logic diagram of Figure 4, as described above.
  • FIG. 6 illustrates an example of an X recoding matrix, whose columns correspond to as many textual tags of the textual dictionary W T , and the lines to as many visual words of the visual dictionary W v .
  • the recoding matrix X allows the construction of the multimedia dictionary W m , via a clustering step 41 1 as described above with reference to FIG. 4.
  • Each text tag of a test image 533 can then be recoded on the multimedia dictionary W m , during the recoding step 413 described above with reference to FIG. 4.
  • a recoded matrix Z can thus be obtained.
  • the recoded matrix comprises as many lines as textual tags associated with the test image 533, and as many columns as multimedia words of the multimedia dictionary W m .
  • FIG. 7 is a diagram schematically illustrating a visual context recognition device according to an exemplary embodiment of the present invention.
  • a classification device may be implemented by dedicated computing means or via software instructions executed by a microprocessor connected to a data memory.
  • a microprocessor connected to a data memory.
  • FIG. 7 describes in a nonlimiting manner the classification device in terms of software modules, being considered that certain modules described can be subdivided into several modules, or grouped together. .
  • the classification device 70 receives as input a multimedia object I in a digital form, for example grasped by input means arranged upstream, not shown in the figure.
  • a microprocessor 700 connected to a data memory 702 allows the implementation of software modules whose software instructions are stored in the data memory 702 or a dedicated memory.
  • the images, text tags or other objects according to defined methods, and the descriptors may be stored in a memory 704 forming a database.
  • the classification device may be configured to implement a classification method according to one of the described embodiments.
  • the implementation of a classification method can be carried out by means of a computer program comprising instructions provided for this purpose.
  • the computer program can be recorded on a processor-readable recording medium.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Procédé de classification d'un objet de test multimodal décrit selon au moins une première et une deuxième modalités, comprenant une étape de construction hors-ligne par classification d'un dictionnaire multimédia (Wm), défini par une pluralité Km de mots multimédia, à partir d'une matrice de recodage (X) des représentants de la première modalité formant un dictionnaire de la première modalité comprenant une pluralité KT de mots de la première modalité, la matrice de recodage (X) étant construite de manière à exprimer la fréquence de chaque mot de la deuxième modalité d'un dictionnaire de la deuxième modalité comprenant une pluralité KV de mots de la deuxième modalité, pour chaque mot de la première modalité, la classification d'un objet multimodal de test (133, 533) étant réalisée en ligne au moyen d'une étape de recodage (413) de chaque représentant de la première modalité relatif à l'objet multimédia considéré sur la base du dictionnaire multimédia (Wm), suivie d'une étape d'agrégation (415) des représentants de la première modalité codés à l'étape de recodage en un unique vecteur (BoMW) représentatif de l'objet multimodal considéré.

Description

PROCEDE DE CLASSIFICATION D'UN OBJET MULTIMODAL
La présente invention concerne un procédé de classification d'un objet multimodal. La présente invention s'inscrit dans le domaine de la détection et de la reconnaissance automatique d'objets multimodaux dits « multimédia », c'est-à-dire décrits suivant au moins deux modalités, par exemple des objets formés par une image et un ensemble de mots textuels associés à cette image. Plus précisément, la présente invention s'inscrit dans le domaine dit de la classification supervisée. Elle peut s'appliquer notamment à la classification et à la recherche d'informations multimédia dans des bases de données. Un document ou objet dit « multimédia » comporte essentiellement plusieurs modalités. Par exemple un objet multimédia peut consister en une image accompagnée d'informations textuelles, pouvant être désignées « tags » suivant la dénomination anglaise. Un objet multimédia peut également consister en une page Web comportant une ou plusieurs images et du contenu textuel. Un objet multimédia peut également par exemple consister en un document numérisé divisé en plusieurs canaux, par exemple un canal comprenant une information textuelle provenant d'un procédé de reconnaissance optique de caractères, communément désigné par le sigle OCR, un canal comprenant des illustrations et des photographies identifiées dans le document. Un objet multimédia peut également par exemple consister en une séquence vidéo séparée en plusieurs canaux, par exemple un canal visuel comprenant les images de la séquence vidéo, un canal sonore comprenant la bande sonore de la séquence, un canal textuel comprenant par exemple des sous-titres, ou des informations textuelles issues d'une procédé de transcription de la parole en texte, un canal comprenant des métadonnées relatives à la séquence vidéo, par exemple relatives à la date, l'auteur, le titre, le format de la séquence, etc.
Il est entendu que la présente invention s'applique à tout type d'objet multimédia, et ne se limite pas nécessairement aux types d'objets multimédia précités. En pratique, il peut être souhaitable de pouvoir établir une description d'objets multimédia, par exemple pour des applications de classification ou de recherches d'objets multimédia dans une ou plusieurs bases de données, au moyen de requêtes se présentant sous la forme de documents multimédia dans la forme recherchée, ou bien limitées à une des modalités de l'objet multimédia recherché ; par exemple, dans le cas où l'objet multimédia recherché est une image associée à des tags textuels, une requête peut comprendre une information visuelle seule, ou bien une information textuelle seule. La recherche consiste alors à trouver dans la base de données les documents multimédia ressemblant le plus à la requête, pour par exemple les présenter ensuite par ordre de pertinence.
La description d'un document multimédia est délicate, en raison de la nature hétérogène des modalités le définissant. Par exemple, dans le cadre de la classification d'images associées à du contenu textuel, la modalité visuelle peut être transformée en des vecteurs de caractéristiques formant une description visuelle de bas niveau ; la modalité textuelle peut quant à elle être cartographiée dans un dictionnaire reflétant une langue ou un sous- domaine particulier de cette dernière. Il peut être recouru, aux fins de classer un document visuel ou un document textuel, à des techniques connues de classification supervisée décrites ci-après en référence à la figure 1 , plus particulièrement à des techniques de classification dites par « sacs de mots ». Selon une technique de classification supervisée, des caractéristiques sont extraites d'une pluralité d'objets, dans le but de nourrir un système d'apprentissage, conjointement avec des étiquettes ou « labels », pour produire un modèle, ces traitements étant réalisés hors ligne. Dans une phase dite de test, un objet dit de test subit également et d'une manière similaire une extraction de caractéristiques, les caractéristiques extraites étant comparées au modèle produit hors ligne pour permettre une prédiction, les étapes précitées étant réalisées en ligne.
Afin de pallier le problème lié à l'hétérogénéité des modalités, il est possible, selon une première technique connue sous le nom de fusion tardive, de procéder à la description et à la classification d'objets multimédia séparément pour les différentes modalités suivant lesquelles celui-ci est défini, puis de fusionner tardivement les résultats obtenus pour les différentes modalités. La technique de fusion tardive est décrite en détails ci- après en référence à la figure 2.
Selon une méthode alternative, dite de fusion précoce, les modalités sont fusionnées au niveau de l'extraction des caractéristiques. La technique de fusion précoce est décrite en détails ci-après en référence à la figure 3.
Un but de la présente invention est de proposer un procédé de description d'objets multimédia plus compact que les procédés connus, permettant à la fois de combiner différentes modalités d'objets multimédia pour en décrire au mieux le contenu, le procédé étant capable d'opérer indépendamment du contenu lui-même des objets.
Selon la présente invention, il est proposé que des signatures soient déterminées pour des objets multimédia, ces signatures résultant d'une combinaison d'informations selon différentes modalités. La présente invention est ainsi basée sur une technique de fusion précoce, et se fonde d'une part sur des codes multimédia permettant la codage de mots suivant une première modalité, par exemple textuelle, sur des mots suivant une seconde modalité, par exemple visuelle, extraits d'un objet multimédia, et d'autre part sur la détermination de signatures de type « sac de mots multimédia », à l'instar de techniques de sacs de mots employées pour des objets monomodaux, explicitées ci-après.
A cet effet, l'invention a pour objet un procédé de classification d'un objet de test multimodal dit objet de test multimédia décrit selon au moins une première et une deuxième modalités, caractérisé en ce qu'il comprend une étape de construction hors-ligne par classification non supervisée d'un dictionnaire multimédia, défini par une pluralité Km de mots multimédia, à partir d'une matrice de recodage des représentants de la première modalité formant un dictionnaire de la première modalité comprenant une pluralité KT de mots de la première modalité, la matrice de recodage étant construite sorte que chacune de ses composantes est une information représentative de la fréquence de chaque mot de la deuxième modalité d'un dictionnaire de la deuxième modalité comprenant une pluralité Kv de mots de la deuxième modalité, pour chaque mot de la première modalité, la classification d'un objet multimédia de test étant réalisée en ligne au moyen d'une étape de recodage de chaque représentant de la première modalité relatif à l'objet multimédia considéré sur la base du dictionnaire multimédia, suivie d'une étape d'agrégation des représentants de la première modalité codés à l'étape de recodage en un unique vecteur représentatif de l'objet multimédia considéré.
Selon un aspect particulier de l'invention, ladite matrice de recodage est construite au moins à l'aide des étapes suivantes :
• Construire une matrice d'occurrence de mots de la deuxième modalité sur une pluralité de N images, · Construire une matrice intermédiaire comprenant KT colonnes, chaque colonne correspondant à un mot de la première modalité, ladite matrice intermédiaire contenant, pour chaque image parmi la pluralité N, une information représentative de la présence ou l'absence de chaque mot de la deuxième modalité,
• Construire, à partir de la matrice d'occurrence et de la matrice intermédiaire, la matrice de recodage (X) qui contient pour chaque mot de la première modalité et chaque mot de la deuxième modalité, une agrégation sur la pluralité de N images de l'occurrence du mot de la deuxième modalité pour le mot de la première modalité.
Dans un mode de réalisation de l'invention, ladite première modalité peut être textuelle, et ladite deuxième modalité peut être visuelle, l'objet de test étant une image de test associée à des tags textuels, ledit dictionnaire suivant la première modalité étant un dictionnaire textuel et ledit dictionnaire suivant la deuxième modalité étant un dictionnaire visuel.
Dans un mode de réalisation de l'invention, le procédé de classification peut comprendre un enchaînement d'au moins les étapes suivantes, réalisées hors ligne :
• une étape d'extraction des caractéristiques visuelles d'une pluralité N d'images formant une base d'apprentissage, lors de laquelle les caractéristiques locales de chaque image sont extraites et codées sur le dictionnaire visuel ;
· une étape de construction de la matrice de recodage ; • une étape de normalisation de la matrice de recodage ;
• une étape de classification non supervisée, dite étape de clustering de la matrice de recodage normalisée, générant le dictionnaire multimédia.
Dans un mode de réalisation de l'invention, le procédé de classification peut comprendre un enchaînement d'au moins les étapes suivantes, réalisées en ligne :
• ladite étape de recodage de chaque tag textuel de l'image de test sur le dictionnaire multimédia, générant une matrice recodée ; · ladite étape d'agrégation, agrégeant la matrice recodée et générant une signature multimédia de l'image de test. Dans un mode de réalisation de l'invention, l'étape de recodage peut être basée sur une technique de codage linéaire localement contraint.
Dans un mode de réalisation de l'invention, ladite étape de normalisation peut comprendre une normalisation de la matrice de recodage par lignes suivant la norme L1 .
Dans un mode de réalisation de l'invention, ladite étape de clustering peut être réalisée à partir d'un algorithme des K-moyennes.
La présente invention a également pour objet un dispositif de classification d'un objet de test comprenant des moyens adaptés pour la mise en œuvre d'un procédé de classification selon l'un des modes de réalisation décrits.
La présente invention a également pour objet un programme d'ordinateur comportant des instructions pour mettre en œuvre un procédé de classification selon l'un des modes de réalisation décrits.
Un avantage procuré par la présente invention est qu'un procédé selon un des modes de réalisation décrits ne requiert l'apprentissage que d'un unique modèle multimédia.
Un autre avantage de la présente invention est qu'un procédé selon un des modes de réalisation décrits aboutit à des signatures de taille réduite, relativement à des signatures impliquées dans des procédés selon lesquels les modalités sont traitées séparément, à performances obtenues identiques. Ainsi, un procédé selon un des modes de réalisation décrits permet d'accélérer les temps de traitement, à performances souhaitées égales, en comparaison avec des procédés connus. D'autres caractéristiques et avantages de l'invention apparaîtront à la lecture de la description, donnée à titre d'exemple, faite en regard des dessins annexés qui représentent : la figure 1 , un diagramme illustrant une technique de classification supervisée d'images ;
la figure 2, un diagramme illustrant une technique de classification supervisée de documents multimodaux, suivant une méthode de fusion tardive ;
la figure 3, un diagramme illustrant une technique de classification supervisée de documents multimodaux, suivant une méthode de fusion précoce ;
la figure 4, un logigramme illustrant un procédé de classification d'un objet multimédia suivant un exemple de réalisation de la présente invention ;
- la figure 5, un diagramme illustrant le principe de construction d'une matrice de recodage et d'un dictionnaire multimédia, dans un procédé tel qu'illustré par la figure 4 ;
la figure 6, un diagramme illustrant les principales données d'entrée et de sortie dans un procédé tel qu'illustré par la figure 4 ;
la figure 7, un schéma illustrant de manière synoptique un dispositif de reconnaissance de contexte visuel selon un exemple de réalisation de la présente invention. La figure 1 présente un diagramme illustrant la technique de classification supervisée, introduite précédemment. Il est à observer que l'exemple illustré par la figure 1 s'applique à la classification de tous types d'objets, par exemple des objets visuels tels que des images, ou bien des objets textuels. Un procédé de classification supervisée comprend notamment une phase d'apprentissage 1 1 réalisée hors ligne, et une phase de test 13 réalisée en ligne.
La phase d'apprentissage 1 1 et la phase de test 13 comprennent chacune une étape d'extraction de caractéristiques 1 1 1 , 131 permettant de décrire un objet, par exemple une image, par un vecteur de dimension déterminée. L'étape d'apprentissage 1 1 consiste à extraire les caractéristiques sur un grand nombre d'objets d'apprentissage 1 13 ; une série de signatures et les étiquettes 1 12 correspondantes alimentent un module d'apprentissage 1 15, mettant en œuvre une étape d'apprentissage et produisant alors un modèle 135.
L'étape de test 13 consiste à décrire, au moyen de l'étape d'extraction de caractéristiques 131 , un objet dit objet de test 133 par un vecteur de même nature que lors de la phase d'apprentissage 1 1 . Ce vecteur est appliqué en entrée du modèle 135 précité. Le modèle 135 produit en sa sortie une prédiction 137 de l'étiquette de l'objet de test 133. La prédiction associe l'étiquette (ou les étiquettes) la (ou les) plus pertinente(s) à l'objet test parmi l'ensemble des étiquettes possibles.
Cette pertinence est calculée au moyen d'une fonction de décision associée au modèle d'apprentissage appris sur la base d'apprentissage dépendant de l'algorithme d'apprentissage utilisé.
L'étiquette d'un objet indique son degré d'appartenance à chacun des concepts considérés. Par exemple, si trois classes sont considérées, par exemple les classes « plage », « ville » et « montagne », l'étiquette est un vecteur à trois dimensions dont chaque composante est un nombre réel. Par exemple, chaque composante peut être un nombre réel compris entre 0 si l'objet ne contient pas le concept, et 1 si l'image contient le concept de manière certaine.
La technique d'apprentissage peut être basée sur une technique en elle-même connue, telle que la technique des séparateurs à vaste marge, communément désignée par le sigle SVM correspondant à la terminologie anglaise « Support Vector Machine », sur une technique dite de « boosting », ou encore sur une technique du type désigné par le sigle MKL correspondant à la terminologie anglaise « Multiple Kernel Learning ». La figure 2 présente un diagramme illustrant une technique de classification supervisée de documents multimodaux, suivant une méthode de fusion tardive.
D'une manière similaire à la figure 1 décrite ci-dessus, un système de classification supervisée d'objets multimédia comprend notamment une phase d'apprentissage 1 1 réalisée hors ligne, et une phase de test 13 réalisée en ligne.
La phase d'apprentissage 1 1 et la phase de test 13 comprennent chacune deux étapes d'extraction de caractéristiques 1 1 1 , 1 1 1 ' et 131 , 131 ' permettant de décrire un objet multimédia, bimodal dans l'exemple illustré par la figure, par exemple une image associée à un contenu textuel. Ainsi la phase d'apprentissage 1 1 comprend une étape d'extraction de caractéristiques 1 1 1 suivant une première modalité, par exemple visuelle, et une étape d'extraction de caractéristiques 1 1 1 ' suivant une deuxième modalité, par exemple textuelle. L'étape d'apprentissage 1 1 consiste à extraire les caractéristiques sur un grand nombre d'objets d'apprentissage 1 13 ; une série de signatures et des étiquettes 1 12 correspondantes, alimentent un premier module d'apprentissage 1 15 relatif à la première modalité, et un deuxième module d'apprentissage 1 15' relatif à la deuxième modalité, les deux modules d'apprentissage 1 15, 1 15' mettant en œuvre une étape d'apprentissage et produisant alors respectivement un premier modèle 135 suivant la première modalité, et un deuxième modèle 135' suivant la deuxième modalité.
D'une manière également similaire à la figure 1 décrite précédemment, l'étape de test 13 consiste à décrire, au moyen de deux étapes d'extraction de caractéristiques 131 , 131 ' respectivement suivant la première et la deuxième modalité, un objet dit objet de test 133 par des vecteurs de même nature, respectivement suivant la première et la deuxième modalité, que lors de la phase d'apprentissage 1 1 . Ces deux vecteurs sont appliqués en entrée respectivement des deux modèles 135, 135' précités. Chaque modèle 135, 135' produit en sa sortie respectivement une première prédiction 137 relative à la première modalité et une deuxième prédiction 137' relative à la deuxième modalité, des étiquettes de l'objet de test 133. Les étiquettes suivant les deux modalités sont alors fusionnées lors d'une étape de fusion 23, produisant une étiquette unique multimodale. L'étape de fusion 23 est ainsi appliquée uniquement en ligne. La prédiction associe l'étiquette (ou les étiquettes) la (ou les) plus pertinente(s) à l'objet test parmi un ensemble d'étiquettes possibles.
L'exemple décrit ci-dessus s'applique à des objets bimodaux, mais un système de classification supervisée peut de manière analogue s'appliquer à des objets multimédia suivant une pluralité de modalités, supérieure à deux, autant d'étapes d'extraction de caractéristiques, d'apprentissage étant alors mises en œuvre. La figure 3 présente un diagramme illustrant une technique de classification supervisée de documents multimodaux, suivant une méthode de fusion précoce.
D'une manière similaire aux figure 1 et 2 décrites ci-dessus, un système de classification supervisée d'objets multimédia comprend notamment une phase d'apprentissage 1 1 réalisée hors ligne, et une phase de test 13 réalisée en ligne.
A l'instar de la figure 2 décrite ci-dessus, la phase d'apprentissage 1 1 et la phase de test 13 comprennent chacune deux étapes d'extraction de caractéristiques 1 1 1 , 1 1 1 ' et 131 , 131 ' permettant de décrire un objet multimédia, bimodal dans l'exemple illustré par la figure, par exemple une image associée à un contenu textuel. Ainsi la phase d'apprentissage 1 1 comprend une étape d'extraction de caractéristiques 1 1 1 suivant une première modalité, par exemple visuelle, et une étape d'extraction de caractéristiques 1 1 1 ' suivant une deuxième modalité, par exemple textuelle.
A la différence de la méthode de fusion tardive décrite en référence à la figure 2, une étape de fusion précoce 31 permet de générer des caractéristiques multimédia 310 à partir des caractéristiques extraites suivant la première et la deuxième modalité aux étapes d'extraction de caractéristiques 1 1 1 , 1 1 1 '. Un module d'apprentissage 1 15 mettant en œuvre une étape d'apprentissage permet de générer un modèle multimédia 335 à partir des caractéristiques multimédia 310 générées lors de l'étape de fusion précoce 31 et d'une pluralité d'étiquettes 1 12.
D'une manière analogue, une étape de fusion précoce 33, opérant de manière identique à l'étape de fusion précoce 31 appliquée lors de la phase d'apprentissage 1 1 , permet de générer des caractéristiques multimédia 330 en ligne, à partir des caractéristiques extraites suivant la première et la deuxième modalité aux étapes d'extraction de caractéristiques 1 1 1 , 1 1 1 ' sur la base d'un objet de test 133.
Le modèle multimédia 335 produit en sa sortie une prédiction 337 de l'étiquette de l'objet de test 133. La prédiction associe l'étiquette (ou les étiquettes) la (ou les) plus pertinente(s) à l'objet test parmi l'ensemble des étiquettes possibles.
Un procédé de classification selon la présente invention se fonde sur le principe de fusion précoce illustré ci-dessus. Un procédé de classification selon la présente invention s'applique notamment aux étapes d'extraction de caractéristiques.
Des techniques d'extraction de caractéristiques connues pour s'appliquer à des images sont brièvement décrites ci-après, dans le but de favoriser la lisibilité de la présente description, en introduisant les principaux concepts utiles à cette fin. De telles techniques d'extraction impliquent une étape d'extraction de descripteurs locaux d'une image, pour reconstruire une signature finale, par une approche dite de « sac de mots visuels », communément désigné par le sigle BOV correspondant à la terminologie anglaise « Bag Of Visual terms » ou « Bag Of Visterms ». Typiquement, un ou une pluralité de descripteurs locaux sont extraits de l'image considérée, à partir de pixels ou de « patchs » denses dans l'image, ou plus généralement de sites dans l'image. En d'autres termes, des descripteurs locaux sont associés à autant de patchs, qui peuvent notamment être définis par leur localisation ou localité, par exemple par des coordonnées (x,y) dans un repère cartésien dans lequel est également défini le domaine de l'image considérée, un patch pouvant se limiter à un pixel, ou consister en un bloc d'une pluralité de pixels. Les descripteurs locaux sont alors recodés lors d'une étape de codage ou « coding » dans un espace des caractéristiques ou « feature space » selon la terminologie anglaise, en fonction d'un dictionnaire de référence, communément désigné par le terme anglais « codebook ». Les vecteurs recodés sont alors agrégés, lors d'une étape d'agrégation ou de « pooling » en un unique vecteur formant signature. Ces étapes peuvent être répétées pour plusieurs parties de l'image considérée, puis les signatures concaténées, par exemple conformément à un schéma de pyramide spatiale, désigné par l'acronyme SPM désignant la terminologie anglaise « Spatial Pyramid Matching », consistant à découper l'image considérée en sous-blocs, par exemple des carrés de 2x2 ou 4x4 blocs, ou des rectangles de 1 x3 blocs, etc. , à déterminer la signature pour chaque sous-bloc puis à concaténer toutes les signatures déterminées en les pondérant par un facteur dépendant de l'échelle des découpages en sous- blocs. Une technique de type SPM est par exemple décrite dans la publication de S. Lazebnik, C. Schmid et J. Ponce « Beyond bags of features : Spatial pyramid matching for recognizing natural scène catégories » in CVPR, 2006.
Différentes techniques connues forment la base des étapes d'agrégation et de codage précitées. L'étape de codage peut notamment se fonder sur une technique dite de « codage dur », communément désignée suivant la terminologie anglaise « Hard Coding » ou suivant l'acronyme correspondant HC. Des techniques de codage dur sont par exemple décrites dans la publication de S. Lazebnik, C. Schmid et J. Ponce « Beyond bags of features : Spatial pyramid matching for recognizing natural scène catégories » précitée, ou encore dans la publication de J. Sivic et A. Zisserman « Video google: a text retrieval approach to object matching in videos » in ICCV, 2003. Selon une technique de codage dur, un descripteur local est recodé en un vecteur comportant un unique « 1 » sur la dimension correspondant à l'indice de son plus proche voisin dans le dictionnaire de référence, et une pluralité de « 0 » ailleurs. Associée à une étape d'agrégation fondée sur la détermination d'une moyenne, une étape de codage par codage dur conduit ainsi à la réalisation d'un histogramme d'occurrence des mots visuels du dictionnaire de références les plus présents, un mot visuel du dictionnaire de référence étant considéré comme présent lorsqu'il est le plus proche d'un descripteur local de l'image considérée.
L'étape de codage peut également se fonder sur une technique dite de « codage doux », communément désignée suivant la terminologie anglaise « Soft Coding » ou suivant l'acronyme correspondant SC. Une technique de codage doux est notamment décrite dans la publication de J. Van Gemert, C. Veenman, A. Smeulders et J. Geusebroek « Visual word ambiguity » - PAMI, 2009. Suivant la technique de codage doux, un descripteur local est recodé suivant sa similarité à chacun des mots visuels du dictionnaire de référence. La similarité est par exemple calculée comme une fonction décroissante de la distance, typiquement une exponentielle de l'opposé de la distance.
L'étape de codage peut également se fonder sur une technique dite de « codage linéaire localement contraint », communément désignée suivant la terminologie anglaise « Locally constrained Linear Coding » ou suivant l'acronyme correspondant LLC. Des techniques de type LLC sont notamment décrites dans la publication de S. Gao, I. Tsang, L. Chia et P. Zhao, « Local features are not lonely - Laplacian sparse coding for image classification » In CVPR, 201 1 , dans la publication de L.Liu, L. Wang and X. Liu « In défense of soft-assignment coding » in CVPR, 201 1 , ou encore dans la publication de J. Yang, K. Yu, Y. Gong et T. Huang « Linear spatial pyramid matching using sparse coding for image classification » in CVPR, 2009. Le principe de cette technique consiste à restreindre le codage de type doux aux plus proches voisins des descripteurs dans l'espace des caractéristiques, par exemple de 5 à 20 plus proches voisins du dictionnaire de référence. De la sorte, le bruit de codage peut être réduit de manière significative.
L'étape de codage peut également se fonder sur une technique dite de « codage saillant localement contraint », communément désignée suivant la terminologie anglaise « Locally constrained Salient Coding » où chaque descripteur n'est codé que sur son plus proche voisin en lui associant une réponse, dite de pertinence « saliency », qui dépend des distances relatives des plus proches voisins au descripteur. En d'autres termes, plus la distance du plus proche voisin au descripteur est faible par rapport aux distances des autres proches voisins à ce même descripteur, plus la pertinence est importante. Une technique de type « saliency coding » est notamment décrite dans la publication de Y. Huang, K. Huang, Y. Yu, and T. Tan. Salient coding for image classification, in CVPR, 201 1 . La figure 4 présente un logigramme illustrant un procédé de classification d'un objet multimédia suivant un exemple de réalisation de la présente invention.
L'exemple de réalisation décrit ci-après en référence à la figure 4 s'applique à la description et à la classification d'objets multimédia de type images associées à un contenu textuel, par exemple des tags textuels. Il est à observer qu'il s'agit là d'un exemple non limitatif de la présente invention, et que d'autres modalités que des modalités visuelles ou textuelles peuvent être envisagées et traitées d'une manière analogue. En outre, l'exemple décrit ci-après s'applique à des objets bimodaux, mais un nombre plus élevé de modalités peut être envisagé.
Le procédé de classification peut comprendre une première étape préalable 401 , permettant de calculer les caractéristiques locales visuelles sur une base d'apprentissage, et en déduire un dictionnaire visuel Wv d'une taille Kv, par exemple par une méthode de classification non supervisée, désignée par le terme anglais « clustering », par exemple suivant l'algorithme des K-moyennes ou « K-means » selon la terminologie anglaise, permettant de partitionner des descripteurs locaux dans une pluralité k d'ensembles afin de minimiser l'erreur de reconstruction des descripteurs par le centroïde à l'intérieur de chaque partition. Il est également possible de recourir à d'autres méthodes d'apprentissage du dictionnaire de référence, telles que par exemple le tirage aléatoire des descripteurs locaux ou le codage parcimonieux.
Le procédé de classification peut également comprendre une deuxième étape préalable 403, pouvant par exemple être réalisée avant, après, ou en parallèle de la première étape préalable 401 , permettant de construire un dictionnaire textuel WT par sélection des tags textuels représentatifs d'un corpus d'apprentissage, ou bien par un dictionnaire ad- hoc déterminé, le dictionnaire textuel WT étant d'une taille KT.
Ainsi chaque objet multimédia, c'est-à-dire chaque image assortie de contenu textuel dans l'exemple décrit, est représenté par une pluralité de tags textuels aptes à être codés ultérieurement par un des KT tags textuels possibles formant le dictionnaire textuel WT, et une pluralité de mots visuels, aptes à être codés ultérieurement par un des Kv mots visuels possibles formant le dictionnaire visuel Wv.
Le procédé de classification peut alors comprendre une étape d'extraction 405 des caractéristiques locales de l'image, lors de laquelle les caractéristiques locales de l'image sont extraites et codées sur le dictionnaire visuel Wv, puis agrégées suivant une technique de pooling. Le codage peut par exemple être un codage dur et consister à déterminer l'occurrence des mots visuels du dictionnaire visuel Wv les plus proches des caractéristiques locales de l'image, suivi par exemple d'une agrégation de type moyenne.
L'étape d'extraction 405 précitée peut être suivie par une étape de construction 407 d'une matrice de recodage des tags textuels à Kv lignes et KT colonnes, notée X, dont les coefficients sont notés X(i,j), i étant un entier compris entre 1 et Kv, et j étant un entier compris entre 1 et KT, la matrice de recodage X exprimant la fréquence de chaque mot visuel du dictionnaire visuel Wv pour chaque tag textuel du dictionnaire textuel WT. L'étape de construction 407 peut par exemple débuter avec une matrice de recodage X nulle, puis en incrémentant de 1 le coefficient X(i,j) à chaque fois qu'une image d'apprentissage associée au tag textuel i a une caractéristique locale visuelle proche du mot visuel j.
L'étape de construction 407 de la matrice de recodage X peut être suivie par une étape de normalisation 409 de la matrice de recodage X, par exemple suivant la norme L1 par ligne.
L'étape de normalisation 409 de la matrice de recodage X peut alors être suivie par une étape de clustering 41 1 sur les colonnes de la matrice de recodage X, par exemple suivant un algorithme des K-moyennes ou un autre des algorithmes de clustering cités précédemment. A l'issue de l'étape de normalisation 409, un dictionnaire multimédia Wm peut être obtenu, dont la taille est Km. Le dictionnaire multimédia Wm forme alors un nouvel espace de représentation pour les objets multimédia, les lignes du dictionnaire multimédia Wm constituent ainsi des mots multimédia.
Chaque tag textuel, représenté par une colonne de la matrice de recodage X, peut alors être recodé sur ce nouvel espace de représentation, lors d'une étape de recodage 413. Plusieurs méthodes de codage peuvent être appliquées. Le codage peut notamment se fonder sur une des techniques précitées, c'est-à-dire sur une technique de « codage dur », une technique de « codage doux », une technique de « codage linéaire localement contraint », une technique de « codage saillant localement contraint ».
D'autres techniques connues de codage peuvent également être envisagées. Par exemple, si le codage est réalisé au moyen d'une technique de « Locally constrained Linear Coding » précitée, alors un code de tag textuel Xi, c'est-à-dire une colonne de la matrice de recodage X d'une image donnée est le descripteur qui doit être codé sur le dictionnaire multimédia Wn suivant la relation (1 ) ci-après :
0 sinon
Dans la relation (1 ) ci-dessus, x, désigne une colonne de la matrice de recodage X correspondant au tag textuel considéré ; zy, un vecteur de taille Km, est le code recodant x, sur le dictionnaire multimédia ; Nk(Xj) désigne l'ensemble des k plus proches voisins du vecteur xi parmi les colonnes de la matrice de recodage X (k peut par exemple être choisi égal à 5) ; β désigne un paramètre de contrôle : plus celui-ci est grand, moins les mots multimédia les plus éloignés auront d'influence sur le codage ; mj et mr sont les mots multimédia obtenus précédemment.
Ainsi, pour une image donnée, tous les tags textuels de cette image sont recodés lors de l'étape de recodage 413 décrite ci-dessus.
L'étape de recodage 413 peut enfin être suivie d'une étape d'agrégation 415, dite de « pooling », agrégeant les tags textuels recodés en un unique vecteur représentant l'image. L'étape d'agrégation peut se baser sur une somme, une moyenne, ou bien considérer le maximum de chaque dimension, c'est-à-dire le maximum par mot multimédia, cette dernière méthode étant communément désignée « maximum pooling ».
La figure 5 présente un diagramme illustrant le principe de construction d'une matrice de recodage X et d'un dictionnaire multimédia Wm, mise en œuvre lors de l'étape de construction 407 dans un procédé tel qu'illustré par la figure 4.
Une matrice d'occurrence de mots visuels 501 peut être apprise sur une base d'apprentissage comprenant une pluralité de N images. La matrice d'occurrence de mots visuels 501 comprend ainsi N lignes et Kv colonnes. Chaque ligne de la matrice d'occurrence de mots visuels 501 comprend les signatures visuelles respectives des N images.
Une première matrice intermédiaire 503 notée V peut être construite, comprenant KT colonnes, chaque colonne correspondant à un tag textuel. La matrice intermédiaire 503 peut être construite à partir d'une matrice nulle, puis dans une colonne déterminée de la matrice intermédiaire 503, on relève pour chaque image parmi la pluralité N, la présence ou l'absence de chaque tag textuel, la présence d'un tag textuel dans une image introduisant alors la valeur « 1 » dans la colonne correspondant à ce tag textuel. Dans l'exemple illustré par la figure 5, une image lm est associée aux tags textuels t, et tj, et une image ln est associée à des tags textuels t, et tk.
Pour chaque tag textuel, peuvent être alors collectés les mots visuels pour lesquels le tag textuel considéré est présent, c'est-à-dire les mots visuels associés à la valeur 1 dans la colonne de la première matrice intermédiaire 503 correspondant au tag textuel considéré cette action pouvant former une étape de procédé et étant représentée par un bloc 504 dans la figure 5.
Une deuxième matrice intermédiaire 505 peut alors être construite, cette matrice comprenant Kv colonnes et KT lignes. Pour chaque ligne, c'est- à-dire pour chaque tag textuel du dictionnaire textuel WT, est portée une agrégation de l'occurrence des mots visuels y correspondant collectés lors de l'étape précédente. Par exemple les occurrences de mots visuels pour lesquels un tag textuel donné est présent peuvent être sommés, une moyenne ou bien un maximum pouvant également être retenu.
Les coefficients composant la deuxième matrice intermédiaire 505 peuvent être formulés suivant la relation (2) suivante :
X>u(i ) = OP [V{i,k)] (2) ;
OP désignant un opérateur d'agrégation, dk désigne le k-ième document dans la base d'apprentissage D, tj un tag textuel dans l'ensemble des tags textuels Tdk relatifs au document dk, et V(i,k) désigne l'occurrence du i-ième mot visuel dans le document dk..
Par exemple, si l'opérateur d'agrégation est une somme, les coefficients composant la deuxième matrice intermédiaire 505 peuvent être formulés suivant la relation (3) suivante :
XInt (i ) = ∑V(i, k) (3) ;
dkeD,tjeTdk
dans laquelle D désigne la base d'apprentissage comprenant N images, dk désigne le k-ième document dans la base d'apprentissage D, tj un tag textuel dans l'ensemble des tags textuels Tdk relatifs au document dk, et V(i,k) désigne l'occurrence du i-ième mot visuel dans le document dk.
La matrice de recodage X peut alors être obtenue à partir d'une normalisation, par exemple par ligne suivant la norme L1 , de la deuxième matrice intermédiaire 505.
Ainsi que cela est décrit précédemment, le dictionnaire multimédia Wm peut alors être obtenu à partir d'un clustering sur les colonnes de la matrice de recodage X, par exemple suivant un algorithme des K-moyennes ou un autre des algorithmes de clustering cités précédemment.
La figure 6 présente un diagramme illustrant les principales données d'entrée et de sortie dans un procédé de classification suivant le logigramme décrit à la figure 4, tel que décrit ci-dessus.
La figure 6 illustre un exemple de matrice de recodage X, dont les colonnes correspondent à autant de tags textuels du dictionnaire textuel WT, et les lignes à autant de mots visuels du dictionnaire visuel Wv. La matrice de recodage X permet la construction du dictionnaire multimédia Wm, via une étape de clustering 41 1 telle que décrite précédemment en référence à la figure 4.
Chaque tag textuel d'une image de test 533 peut alors être recodé sur le dictionnaire multimédia Wm, lors de l'étape de recodage 413 décrite précédemment en référence à la figure 4.
Une matrice recodée Z peut ainsi être obtenue. La matrice recodée comprend autant de lignes que de tags textuels associés à l'image de test 533, et autant de colonnes que de mots multimédia du dictionnaire multimédia Wm.
Une étape d'agrégation 415 telle que décrite précédemment en référence à la figure 4 peut alors être appliquée à la matrice recodée Z, pour obtenir une signature de type sac de mots multimédia notée BoMW, suivant le sigle correspondant à la terminologie anglaise « Bag of Multimedia Words », cette signature étant de taille réduite, et formant un unique vecteur représentatif de l'image de test 533. La figure 7 présente un schéma illustrant de manière synoptique un dispositif de reconnaissance de contexte visuel selon un exemple de réalisation de la présente invention.
Un dispositif de classification selon la présente invention peut être mis en œuvre par des moyens de calcul dédiés, ou bien via des instructions logicielles exécutées par un microprocesseur relié à une mémoire de données. Dans un souci de clarté de l'exposé, l'exemple illustré par la figure 7 décrit de manière non-limitative le dispositif de classification en termes de modules logiciels, étant considéré que certains modules décrits peuvent être subdivisés en plusieurs modules, ou bien regroupés.
Le dispositif de classification 70 reçoit en entrée un objet multimédia I sous une forme numérique, par exemple saisi par des moyens de saisie disposés en amont, non représentés sur la figure. Un microprocesseur 700 relié à une mémoire de données 702 permet la mise en œuvre de modules logiciels dont les instructions logicielles sont stockées dans la mémoire de données 702 ou une mémoire dédiée. Les images, les tags textuels ou autres objets suivant des modalités déterminées, et les descripteurs peuvent être stockés dans une mémoire 704 formant une base de données.
Le dispositif de classification peut être configuré pour mettre en œuvre un procédé de classification selon l'un des modes de réalisation décrits.
La mise en œuvre d'un procédé de classification peut être réalisée au moyen d'un programme d'ordinateur comportant des instructions prévues à cet effet. Le programme d'ordinateur peut être enregistré sur un support d'enregistrement lisible par un processeur.

Claims

REVENDICATIONS
1 - Procédé de classification d'un objet de test (133, 533) multimodal dit objet de test multimédia décrit selon au moins une première et une deuxième modalités, caractérisé en ce qu'il comprend une étape de construction hors-ligne par classification non supervisée d'un dictionnaire multimédia (Wm), défini par une pluralité Km de mots multimédia, à partir d'une matrice de recodage (X) des représentants de la première modalité formant un dictionnaire de la première modalité comprenant une pluralité KT de mots de la première modalité, la matrice de recodage (X) étant construite de sorte que chacune de ses composantes est une information représentative de la fréquence de chaque mot de la deuxième modalité d'un dictionnaire de la deuxième modalité comprenant une pluralité Kv de mots de la deuxième modalité, pour chaque mot de la première modalité, la classification d'un objet multimédia de test (133, 533) étant réalisée en ligne au moyen d'une étape de recodage (413) de chaque représentant de la première modalité relatif à l'objet multimédia considéré sur la base du dictionnaire multimédia (Wm), suivie d'une étape d'agrégation (415) des représentants de la première modalité codés à l'étape de recodage en un unique vecteur (BoMW) représentatif de l'objet multimédia considéré. 2- Procédé de classification suivant la revendication 1 , caractérisé en ce que ladite matrice de recodage (X) est construite au moins à l'aide des étapes suivantes :
• Construire une matrice d'occurrence (501 ) de mots de la deuxième modalité sur une pluralité de N images,
· Construire une matrice intermédiaire (503) comprenant KT colonnes, chaque colonne correspondant à un mot de la première modalité, ladite matrice intermédiaire contenant, pour chaque image parmi la pluralité N, une information représentative de la présence ou l'absence de chaque mot de la deuxième modalité, • Construire, à partir de la matrice d'occurrence (501 ) et de la matrice intermédiaire (503), la matrice de recodage (X) qui contient pour chaque mot de la première modalité et chaque mot de la deuxième modalité, une agrégation sur la pluralité de N images de l'occurrence du mot de la deuxième modalité pour le mot de la première modalité.
3- Procédé de classification suivant l'une des revendications 1 ou 2, caractérisé en ce que ladite première modalité est textuelle, et ladite deuxième modalité est visuelle, l'objet de test (133, 533) étant une image de test (533) associée à des tags textuels, ledit dictionnaire suivant la première modalité étant un dictionnaire textuel (WT) et ledit dictionnaire suivant la deuxième modalité étant un dictionnaire visuel (Wv).
4- Procédé de classification suivant la revendication 3, caractérisé en ce qu'il comprend un enchaînement d'au moins les étapes suivantes, réalisées hors ligne :
• une étape d'extraction (405) des caractéristiques visuelles d'une pluralité N d'images formant une base d'apprentissage, lors de laquelle les caractéristiques locales de chaque image sont extraites et codées sur le dictionnaire visuel (Wv) ;
• une étape de construction (407) de la matrice de recodage (X) ;
• une étape de normalisation (409) de la matrice de recodage (X) ; · une étape de classification non supervisée, dite étape de clustering (41 1 ) de la matrice de recodage normalisée, générant le dictionnaire multimédia (Wm).
5- Procédé de classification suivant l'une quelconque des revendications 3 ou 4, caractérisé en ce qu'il comprend un enchaînement d'au moins les étapes suivantes, réalisées en ligne :
• ladite étape de recodage (413) de chaque tag textuel de l'image de test (533) sur le dictionnaire multimédia (Wm), générant une matrice recodée (Z) ; • ladite étape d'agrégation (415), agrégeant la matrice recodée (Z) et générant une signature multimédia (BoMW) de l'image de test (533).
6- Procédé de classification suivant l'une quelconque des revendications précédentes, caractérisé en ce que l'étape de recodage (413) est basée sur une technique de codage linéaire localement contraint.
7- Procédé de classification suivant la revendication 4, caractérisé en ce que ladite étape de normalisation (409) comprend une normalisation de la matrice de recodage (X) par lignes suivant la norme L1 .
8- Procédé de classification suivant la revendication 4, caractérisé en ce que ladite étape de clustering (41 1 ) est réalisée à partir d'un algorithme des K-moyennes.
9- Dispositif de classification d'un objet de test (133, 533) comprenant des moyens adaptés pour la mise en œuvre d'un procédé de classification selon l'une quelconque des revendications 1 à 8.
10- Programme d'ordinateur comportant des instructions pour mettre en œuvre un procédé de classification selon l'une des revendications 1 à 8.
1 1 - Support d'enregistrement lisible par un processeur sur lequel est enregistré un programme comportant des instructions pour l'exécution du procédé de classification selon l'une quelconque des revendications 1 à 8, lorsque le programme est exécuté par un processeur.
EP13774134.4A 2012-10-12 2013-10-07 Procede de classification d'un objet multimodal Withdrawn EP2907079A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1259769A FR2996939B1 (fr) 2012-10-12 2012-10-12 Procede de classification d'un objet multimodal
PCT/EP2013/070776 WO2014056819A1 (fr) 2012-10-12 2013-10-07 Procede de classification d'un objet multimodal

Publications (1)

Publication Number Publication Date
EP2907079A1 true EP2907079A1 (fr) 2015-08-19

Family

ID=47741006

Family Applications (1)

Application Number Title Priority Date Filing Date
EP13774134.4A Withdrawn EP2907079A1 (fr) 2012-10-12 2013-10-07 Procede de classification d'un objet multimodal

Country Status (4)

Country Link
US (1) US9569698B2 (fr)
EP (1) EP2907079A1 (fr)
FR (1) FR2996939B1 (fr)
WO (1) WO2014056819A1 (fr)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239359B (zh) * 2013-06-24 2017-09-01 富士通株式会社 基于多模态的图像标注装置以及方法
CN103561276B (zh) * 2013-11-07 2017-01-04 北京大学 一种图像视频编解码方法
US9964499B2 (en) * 2014-11-04 2018-05-08 Toshiba Medical Systems Corporation Method of, and apparatus for, material classification in multi-energy image data
CN105095863B (zh) * 2015-07-14 2018-05-25 西安电子科技大学 基于相似性权值的半监督字典学习的人体行为识别方法
CA3017697C (fr) * 2016-03-17 2021-01-26 Imagia Cybernetics Inc. Procede et systeme pour traiter une tache avec robustesse par rapport a des informations d'entree manquantes
KR102593438B1 (ko) 2017-11-17 2023-10-24 삼성전자주식회사 뉴럴 네트워크 학습 방법 및 디바이스
US11528248B2 (en) * 2020-06-10 2022-12-13 Bank Of America Corporation System for intelligent multi-modal classification in a distributed technical environment
CN113642598B (zh) * 2021-06-25 2024-02-23 南京邮电大学 基于显著性编码和软分配的局部聚合描述子向量算法
CN117476247B (zh) * 2023-12-27 2024-04-19 杭州乐九医疗科技有限公司 一种疾病多模态数据智能分析方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6298169B1 (en) * 1998-10-27 2001-10-02 Microsoft Corporation Residual vector quantization for texture pattern compression and decompression
US6968092B1 (en) * 2001-08-21 2005-11-22 Cisco Systems Canada Co. System and method for reduced codebook vector quantization
US7129954B2 (en) * 2003-03-07 2006-10-31 Kabushiki Kaisha Toshiba Apparatus and method for synthesizing multi-dimensional texture
JP4199170B2 (ja) * 2004-07-20 2008-12-17 株式会社東芝 高次元テクスチャマッピング装置、方法及びプログラム
US8532927B2 (en) * 2008-11-07 2013-09-10 Intellectual Ventures Fund 83 Llc Generating photogenic routes from starting to destination locations
US8442309B2 (en) * 2009-06-04 2013-05-14 Honda Motor Co., Ltd. Semantic scene segmentation using random multinomial logit (RML)
US8171049B2 (en) * 2009-09-18 2012-05-01 Xerox Corporation System and method for information seeking in a multimedia collection
FR2989494B1 (fr) * 2012-04-16 2014-05-09 Commissariat Energie Atomique Procede de reconnaissance d'un contexte visuel d'une image et dispositif correspondant
US20140229307A1 (en) * 2013-02-12 2014-08-14 Ebay Inc. Method of identifying outliers in item categories

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
None *
See also references of WO2014056819A1 *

Also Published As

Publication number Publication date
FR2996939B1 (fr) 2014-12-19
US9569698B2 (en) 2017-02-14
WO2014056819A1 (fr) 2014-04-17
US20150294194A1 (en) 2015-10-15
FR2996939A1 (fr) 2014-04-18

Similar Documents

Publication Publication Date Title
EP2907079A1 (fr) Procede de classification d'un objet multimodal
US11709883B2 (en) Image based content search and recommendations
US8213725B2 (en) Semantic event detection using cross-domain knowledge
JP5351958B2 (ja) デジタルコンテンツ記録のための意味論的イベント検出
US20230376527A1 (en) Generating congruous metadata for multimedia
US10528613B2 (en) Method and apparatus for performing a parallel search operation
US20120179704A1 (en) Textual query based multimedia retrieval system
Natarajan et al. BBN VISER TRECVID 2013 Multimedia Event Detection and Multimedia Event Recounting Systems.
US10489681B2 (en) Method of clustering digital images, corresponding system, apparatus and computer program product
Jiang Super: towards real-time event recognition in internet videos
EP2839410B1 (fr) Procédé de reconnaissance d'un contexte visuel d'une image et dispositif correspondant
Kalaiarasi et al. Clustering of near duplicate images using bundled features
JP5592337B2 (ja) コンテンツ変換方法、コンテンツ変換装置及びコンテンツ変換プログラム
Guzman-Zavaleta et al. A robust and low-cost video fingerprint extraction method for copy detection
Bhattacharya et al. A survey of landmark recognition using the bag-of-words framework
Belhi et al. CNN Features vs Classical Features for Largescale Cultural Image Retrieval
US12020484B2 (en) Methods and systems for grouping of media based on similarities between features of the media
US20220292809A1 (en) Methods and systems for grouping of media based on similarities between features of the media
Diou et al. Vitalas at trecvid-2008
Lisena et al. Understanding videos with face recognition: a complete pipeline and applications
SOMASEKAR et al. VECTORIZATION USING LONG SHORT-TERM MEMORY NEURAL NETWORK FOR CONTENT-BASED IMAGE RETRIEVAL MODEL
Ishikawa et al. Uni-and multimodal methods for single-and multi-label recognition
Wang et al. Scene image retrieval via re-ranking semantic and packed dense interestpoints
EP3420470A1 (fr) Procédé de description de documents multimedia par traduction inter-modalités, système et programme d'ordinateur associés
Anwar et al. Recent progress in attributes based learning: A survey

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20150325

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

AX Request for extension of the european patent

Extension state: BA ME

DAX Request for extension of the european patent (deleted)
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS

17Q First examination report despatched

Effective date: 20190129

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

RIC1 Information provided on ipc code assigned before grant

Ipc: G06K 9/00 20060101AFI20200113BHEP

Ipc: G06F 17/18 20060101ALI20200113BHEP

Ipc: G06F 16/40 20190101ALI20200113BHEP

Ipc: G06K 9/62 20060101ALI20200113BHEP

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: GRANT OF PATENT IS INTENDED

INTG Intention to grant announced

Effective date: 20200220

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20200702