EP1697862A1 - Method for indexing and identifying multimedia documents - Google Patents

Method for indexing and identifying multimedia documents

Info

Publication number
EP1697862A1
EP1697862A1 EP04805546A EP04805546A EP1697862A1 EP 1697862 A1 EP1697862 A1 EP 1697862A1 EP 04805546 A EP04805546 A EP 04805546A EP 04805546 A EP04805546 A EP 04805546A EP 1697862 A1 EP1697862 A1 EP 1697862A1
Authority
EP
European Patent Office
Prior art keywords
terms
image
document
concepts
concept
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP04805546A
Other languages
German (de)
French (fr)
Other versions
EP1697862B1 (en
Inventor
Hassane Essafi
Larbi Résidence les Fonds Fanettes GUEZOULI
Salima c/o Advestigo SAYAH
Ali c/o Advestigo BEHLOUL
Clarisse Mandridake
Louafi Essafi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Surys SA
Original Assignee
Advestigo
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advestigo filed Critical Advestigo
Priority to PL04805546T priority Critical patent/PL1697862T3/en
Publication of EP1697862A1 publication Critical patent/EP1697862A1/en
Application granted granted Critical
Publication of EP1697862B1 publication Critical patent/EP1697862B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99937Sorting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing

Definitions

  • the present invention relates to methods for indexing and identifying multimedia documents.
  • the identification of a multimedia document comprises two phases: - A so-called indexing phase, where one seeks to characterize each document of a database previously recorded by a finite number of parameters that can easily be stored and manipulated later. "A so-called research phase, where following a request formulated by the user, for example the identification of an image question, one seeks all the multimedia documents similar or responding to this request.
  • the present invention aims at remedying the aforementioned drawbacks and at providing a method indexing and identifying multimedia documents of a general application that streamlines the processing process and leads to shorter processing times while increasing quality of the results and their reliability, which makes it possible to carry out effective searches by the content.
  • identification and extraction for each term document b. constituted by vectors characterizing properties of the multimedia document to be indexed, such as the shape, the texture, the color or the structure of an image, the energy, the oscillation rate or frequency information of an audio signal, or a group of characters of a text, (b) storage of the terms fc. characterizing properties of the multimedia document in a term base comprising P terms, (c) determining a maximum number N of desired concepts grouping the most relevant terms tj, N being an integer less than P, and each concept c, being intended to group together all the related terms from the point of view of their characteristics,
  • each concept q of the fingerprint database is associated with a set of information comprising the number NbT of terms in the documents where the concept q is present.
  • a print of the concept q is recorded in the document, this print comprising the frequency of occurrence of the concept q, the identification of the concepts that are related of the concept q in the document and a score which is an average value of the similarity measures between the concept q and the terms tj of the document which are the closest to the concept q.
  • the method according to the invention comprises a step of optimizing the partition of the set P of terms of the term base to decompose this set P into M classes Q (1 ⁇ i ⁇ M, with M ⁇ P) , so as to reduce the error of the distribution of the set P of the terms of the term base in N parts (Pi, P 2 , ... PN) where each part Pj is represented by the term t
  • which will be taken as concept q, the error N committing ⁇ being such that ⁇ ⁇ t .
  • the method may comprise the following steps: (i) decomposing the set P of two-part terms Pi and P 2 ;
  • step (ii) we determine the two farthest terms t ⁇ and tj of the set P corresponding to the largest distance Dy of the matrix T of distances; (iii) for each term t k of the set P, it is examined whether the distance D k ⁇ between the term t k and the term tj is smaller than the distance D k j between the term t k and the term tj, if it is the case we assign the term t k to the part Pi and if this is not the case we assign the term t k to the part P 2 ; (iv) step (i) is iterated until the desired number N of points Pj is obtained and at each iteration steps (ii) and (iii) are applied to the terms of the parts Pi and P 2 .
  • the method according to the invention can be more particularly characterized in that it comprises an optimization from the N disjoint parts Pi, P 2 , ... P N ⁇ of the set P as well as the N terms t 2 , t N r which represent them to reduce the decomposition error of the set P in N parts, and in that it comprises the following steps:
  • a navigation map by starting by splitting the set of concepts into two subsets, then selecting a subset at each iteration until the desired number of groups is obtained or until a stopping criterion is satisfied.
  • the stopping criterion can be characterized by the fact that the subsets obtained are all homogeneous with a low standard deviation.
  • (v) we store in the node associated with C the information ⁇ u, w,
  • the structural components and the complement of these structural components constituted by the textural components of an image of the document are analyzed, and:
  • the boundary zones of the image structures are distributed in different classes according to the orientation of the local variation of intensity so as to define Structural Support Elements (ESS) of the image, and
  • (c) we group in a limited number of concepts the set of descriptive elements of the image constituted by, on the one hand, the terms describing the local and global properties of the structural support elements and, on the other hand, the parameters of the parametric characterizations random, periodic and directional components defining the textural components of the image, and
  • the local properties of the structural support elements taken into account for the construction of terms comprise at least the type of support chosen from a linear strip or a curve arc, the dimensions in length and width of the support, the direction of the support and the shape and the statistical properties of the pixels constituting the support.
  • the overall properties of the structural support elements taken into account for the construction of terms include at least the number of each type of media and their spatial arrangement.
  • a preliminary test for detecting the presence of at least one structure in the image is carried out and, in the absence of a structure, one goes directly to the step of analyzing the textural components of the image.
  • the vertical gradient image g v (i, j) is calculated with (i, j) e I x J and the gradient image horizontal g *, with (i, j) e I x J and partitioning the image according to the local orientation of its gradient into a finite number of equidistant classes, the image containing the orientation of the gradient being defined by the formula
  • the classes constituting support regions that can contain significant support elements are identified, and from the support regions, the significant support elements are determined and listed according to predetermined criteria.
  • the shapes of an image of a document are analyzed according to the following steps: (a) a multiresolution is followed followed by a decimation of the image, (b) the image in polar logarithmic space.
  • the shape of the image is represented by a term tj consisting of the values of the statistical properties of each projection vector.
  • terms tj consisting of keyframes representing groups of consecutive homogeneous images are chosen, and concepts are determined which by grouping terms tj.
  • a score vector VS is first constructed comprising a set of elements VS (i) materializing the difference or the similarity between the content of an image of index i and that of an image of index i-1, and the score vector VS is analyzed in order to determine the keyframes which correspond to the maximums of the values of the elements VS (i) of the score vector VS.
  • an index image j is considered to be a keyframe if the value VS (j) of the corresponding element of the score vector VS is a maximum and the value VS (j) is located between two minimums min G and min D and that the minimum Ml such that
  • Ml (
  • the parameters taken into account for the definition of the terms tj comprise temporal information corresponding to at least one of the following parameters: the energy of the frames of the audio signal, the standard deviation of the energies of the frames in the clips, the ratio of sound variations, the low energy ratio, the oscillation rate around a predetermined value, the high rate of oscillation around a predetermined value, the difference between the number of oscillation rates above above and below the average oscillation rate of the clip frames, the variance of the oscillation rate, the ratio of the silent frames.
  • the parameters taken into account for the definition of the terms tj comprise frequency information corresponding to at least one of the following parameters: the center of gravity of the frequency spectrum of the transform of Fourier of the audio signal, the bandwidth of the audio signal, the ratio of the energy in a frequency band and the total energy throughout the frequency band of the sampled audio signal, the average value of the variation of the audio spectrum. two adjacent frames in a clip, the cutoff frequency of a clip. More particularly, the parameters taken into account for the definition of the terms tj may comprise at least the energy modulation at 4 Hz.
  • FIG. 1 is a block diagram showing the process of producing a dictionary of concepts from a database, according to the invention
  • FIG. 2 shows the principle of constructing a basis of concepts from terms
  • FIG. 3 is a block diagram showing the structuring process of a dictionary of concepts, according to the invention
  • FIG. 4 shows the structuring of an impression base implemented in the context of the process according to the invention
  • FIG. 5 is a flowchart showing the various steps of construction of an impression base
  • Figure 6 is a flowchart showing the different steps of document identification
  • Figure 7 is a flowchart showing the selection of a first list of responses
  • Figure 8 is a flowchart showing the different steps of a phase of the process
  • indexing of documents according to the method according to the invention 9 is a flowchart showing the different steps of term extraction in the case of image processing
  • FIG. 10 is a diagram summarizing the decomposition process of a regular and homogeneous image
  • FIGS. 13 show three examples of images containing different types of elements
  • FIG. 14a to 14f respectively show an example of an original image, an example of an image after processing taking into account the gradient module, and four examples of processed images with dismantling of the border areas of the image
  • - Figure 15a shows a first example of an image containing a directional element
  • - Figure 15al is a 3D view of the spectrum of the image of Figure 15a
  • - Figure 15b is a second exemplary image containing a directional element
  • FIG. 15bl is a Fourier module image of the image of FIG. 15b
  • FIG. 15c represents a third exemplary image containing two elem
  • Figure 15c is a Fourier module image of the image of Figure 15c
  • - Figure 16 illustrates projection directions for pairs of integers ( ⁇ , ⁇ ) as part of the transform calculation.
  • FIG. 20 shows an example of partitioning an image and Figure 21 shows a rotation of 90 ° of the partitioned image of Figure 20 and the creation of a characteristic vector of this image, Figure 22 shows the decomposition of the image.
  • - Figure 23a shows the variation of the energy of a speech signal
  • - Figure 23b shows the variation of the energy of a music signal
  • - Figure 24a shows the Zero crossing rate of a speech signal
  • - Figure 24b shows the zero crossing rate of a music signal
  • - Figure 25a shows the center of gravity of the frequency spectrum of the short Fourier transform
  • a speech signal - Figure 25 b shows the center of gravity of the frequency spectrum of the short Fourier transform of a music signal
  • - Figure 26a shows the bandwidth of a speech signal
  • - Figure 26b shows the bandwidth of a musical signal
  • - Figure 27a shows for three frequency sub-bands 1, 2, 3 the ratio of energy in each frequency sub-band to the total energy of the whole frequency band, for a signal of Figure 27b shows for three frequency sub-bands 1, 2, 3 the ratio of energy in each frequency sub-band to the total energy of the entire frequency band, for a music signal
  • a first step 2 consists of identifying and extracting, for each document, terms tj constituted by vectors characterizing properties of the document to be indexed.
  • terms tj constituted by vectors characterizing properties of the document to be indexed.
  • An audio document 140 is first decomposed into frames 160 which are subsequently grouped into clips 150, each of which will be characterized by a term consisting of a vector of parameters (FIG. 22).
  • An audio document 140 will therefore be characterized by a set of terms tj which will be stored in a term base 3 (FIG. 1).
  • the audio documents from which their characteristic vector has been extracted can be sampled for example at 22 050 Hz in order to avoid the aliasing effect.
  • the document is then divided into a set of frames whose number of samples per frame is set according to the type of file to be analyzed. For a high frequency audio document that contains a lot of.
  • Variations such as films, variety programs or sports programs, the number of samples in a frame must be low, of the order of 512 samples for example. On the other hand, for a homogeneous audio document containing only speech or music for example, this number must be large, for example of the order of 2048 samples.
  • An audio document clip may be characterized by different parameters used to form the terms and characterizing time or frequency information. It is possible to use all or part of the parameters that will be mentioned below to form parameter vectors constituting the terms identifying the successive clips of the sampled audio document.
  • the energy of the frames of the audio signal constitutes a first parameter representing temporal information. The energy of the audio signal varies a lot for the speech whereas it is rather stable for the music.
  • the energy can be coupled to another temporal parameter such as the oscillation rate (TO) around a value, which can correspond for example to the zero crossing rate (TPZ).
  • TO oscillation rate
  • TPZ zero crossing rate
  • a weak TO and a strong energy are synonymous with a voiced sound while a high TO induces an unvoiced zone.
  • Figure 25a shows a signal 141 which illustrates the variation of the energy in the case of a speech signal.
  • Figure 23b shows a signal 142 which illustrates the variation of the energy in the case of a music signal.
  • TPZ zero crossing rate
  • the TPZ can also be defined by the number of times the wave goes through zero.
  • the value of sample i, of the frame n number of samples in a frame f s : sampling frequency This characteristic is frequently used for the speech / music classification, since the sudden variations of the TPZ are significant for the voiced / unvoiced alternation.
  • FIG. 24a shows a curve 143 illustrating a example of TPZ for a speech signal
  • Figure 24b shows a curve 144 illustrating an example of TPZ for a music signal
  • Another parameter characterizing the temporal aspect of a clip may be the high rate of oscillation around a predetermined value which, when this predetermined value is zero, defines a high step rate wise by zero (or HTPZ)
  • N n o with: n: index of the frame. N: number of frames in a clip.
  • n index of the frame.
  • N number of frames in a clip.
  • the clips are from 0 to 200 s with an HTPZ around 0.15.
  • the clips are from 200 to 350 s and the HTPZ varies around 0,05 and is generally almost zero.
  • the segments corresponding to the clips are from 351 to 450 s, The HTPZ is weak for the white noise and large for a deafening sound (drum for example).
  • the parameter DTPZ which is constituted by the difference between the number of TPZs above and below the average TPZ of the frames of a clip, as well as the parameter VTPZ which is constituted by the variance of the TPZ.
  • Another parameter characterizing the temporal aspect of a clip is the silent frame ratio (RFS) which is the percentage of non-silent frames in a clip.
  • a frame is non-silent if its volume exceeds a certain threshold (10) and if the value of the TPZ is less than a threshold Tpz.
  • the report of non-silent frames in a clip can detect silence.
  • statistical properties of the TPZ can be used as characteristic parameters, such as: i) third-order moment of the mean, ii) the number of TPZs exceeding a certain threshold.
  • the parameters taken into account for the definition of the terms tj may also include frequency information which takes into account the calculation of the Fast Fourier Transform (FFT) of the audio signal.
  • FFT Fast Fourier Transform
  • CS spectacle centroid
  • STFT Short Fourier Transform
  • the CS parameter is high for music because the heights are spread over a wider area than the speech (usually 6 octaves for music and 3 for speech). It has a relationship with the sensation of the brilliance of the sound you hear. It is an important perceptual attribute for the characterization of the timbre.
  • Figure 25a shows a curve 145 illustrating an example of CS for a speech signal.
  • Figure 25b shows a curve 146 illustrating an example of CS for a music signal.
  • Another parameter is the bandwidth LB which can be calculated from the variance of the previous parameter CS (n).
  • FIG. 26a shows a graph 147 illustrating an exemplary bandwidth of a speech signal.
  • Figure 26b shows a curve 148 illustrating an example of a bandwidth of a music signal.
  • Another useful parameter is the ERSB ratio between the energy in a frequency sub-band i and the total energy in the entire frequency band of the sampled audio signal.
  • the frequency band has been divided into four sub-bands where the latter correspond to Cochlear filters.
  • the frequency bands are: 0-630Hz, 630-1720HZ, 1720-4400Hz and 4400-11025Hz.
  • FIG. 27a shows three curves 151, 152, 153 illustrating for three frequency sub-bands 1, 2, 3 the ratio of energy in each frequency sub-band to the total energy of the entire frequency band, for a example of speech signal.
  • Figure 27b shows three curves 154, 155, 156 illustrating for three frequency sub-bands 1, 2, 3 the ratio of energy in each frequency sub-band to the total energy of the whole frequency band, for a example of a music signal.
  • the spectral flow of speech is generally greater than that of music, and the sound of the environment is the largest. It varies considerably in comparison with the other two signals.
  • Figure 28a shows a curve 157 illustrating the spectral flow of an exemplary speech signal.
  • Figure 28b shows a curve 158 illustrating the spectral flow of an example of a music signal.
  • Another useful parameter is the cutoff frequency of a clip (FCC).
  • Figure 29 shows a curve 149 illustrating the amplitude spectrum as a function of the frequency fe, and the cutoff frequency fc which is the frequency below which 95% of the spectrum energy (the spectral power) is concentrated.
  • W (j) Triangular window centered at 4Hz.
  • T Width of a clip. Speech is 4ME more important than music because, for speech, syllable changes are around 4Hz. A syllable is indeed a combination of a zone of low energy (consonant) and a zone of high energy (vowel).
  • FIG. 30 shows a curve 161 illustrating an example of an audio signal and a curve 162 showing for this signal the modulation of the energy around 4 Hz.
  • multimedia documents comprising audio components has been described above.
  • tj constituted by key-images representing groups of consecutive homogeneous images.
  • tj can in turn represent for example the dominant colors, the textural properties, the dominant zone structures of the keyframes of the video document.
  • the terms can represent the dominant colors, the textural properties, the structures of the dominant areas of the image.
  • Several methods can be implemented alternatively or cumulatively, as well over the entire image as on portions of the image, to determine the terms tj to characterize the image.
  • the terms tj may consist of words spoken or written, numbers and other identifiers consisting of combinations of characters (eg combinations of letters and numbers ).
  • the grouping of the images of the video document is based on the production of a score vector called VS representing the content of the video, it characterizes the variation of the consecutive images of the video (the element VSj materializes the difference between the content of the image of index i and that of the index image i-1), VS is equal to zero when the contents irrij and irrij-i are identical and it is important when the difference between the two contents is important.
  • the three bands of each Irrij RGB image of video index i are summed to constitute a single image called TRi.
  • the image TRi is decomposed into several frequency bands to keep only the low frequency component TRBi.
  • Two mirror filters (a PB Low Pass filter and a High Pass PH filter) are used, which are applied successively to the rows and columns of the image.
  • Two mirror filters a PB Low Pass filter and a High Pass PH filter
  • the direction vectors of the image TRBi are compared with the direction vectors of TRBi-1 to obtain a score i which measures the similarity between these two images.
  • This score is obtained by averaging all the distances of the vectors of the same direction: for each k the distance between the vector Vk of the image i and the vector Vk of the image i-1 is calculated and all these distances are calculated. .
  • the set of all the scores constitutes the score vector VS: the element i of VS measures the similarity between the image TRBi and the image TRBi-1.
  • the vector VS is smoothed to eliminate irregularities due to the noise generated when handling the video. An example of grouping the images and extracting the keyframes will be described below.
  • the VS vector is analyzed to determine the keyframes that correspond to the maximums of the VS values.
  • An index image j is considered a keyframe if the value VS (j) is a maximum and if VSO) is located between two minimums minG (minimum left) and minD
  • Ml min (
  • minG the index j corresponding to the maximum value located between two minimums (minG and minD) is determined and then, depending on the result of the equation defining M1, it is decided to consider j as an index of a keyframe or no. It is possible to take a group of several neighboring keyframes, for example keyframes of indices j-1, j and j + 1.
  • minD will take the value closest to the minimum located to the right of minD. iii) If both slopes are below the threshold, minG is retained and minD and j are ignored. After selecting a keyframe, iterates the process. At each iteration minD becomes minG.
  • a base of terms 3 including P terms we proceed in a step 4 to a treatment of the terms tj and their grouping in concepts q ( Figure 2) to be stored in a dictionary of concepts 5. It s' is here to develop a set of signatures characterizing a class of documents. Signatures are descriptors that, for example in the case of the image, represent color, shape and texture.
  • a document can then be characterized and represented by the concepts of the dictionary.
  • a print of a document can then be formed by the signature vectors of each concept of the dictionary 5.
  • the signature vector is constituted by the documents where the concept q is present as well as by the positions and the weight of this concept in the document.
  • the terms tj extracted from a database 1 are stored in a database of terms 3 and processed in a module 4 for extracting concepts q which are themselves grouped in a dictionary of concepts 5.
  • Figure 2 illustrates the process constructing a base of concepts q (1 ⁇ i ⁇ m) from terms tj (l ⁇ j ⁇ n) having similarity scores wij.
  • the concept dictionary production module receives as input the set P of the terms of the database 3 and the desired maximum number N of concepts is set by the user.
  • Each concept q is designed to group together all the neighboring terms from the point of view of their characteristics.
  • To produce the dictionary of concepts we start by calculating the distance matrix r between the terms of the base 3, this matrix is used to create a partition whose cardinal is equal to the desired number N of concepts.
  • step 1 of decomposition of the set of terms P into two parts Pi and P 2 :
  • t k is assigned to Pi if the distance D ki is smaller than the distance D k j and to P 2 otherwise.
  • Step 1 is iterated until the desired number of parts is obtained and at each iteration the steps (a) and (b) are applied to the terms of the set PI and the set P2.
  • the starting point for the optimization process is the N disjoint parts of P ⁇ Pi, P 2 , ..., PN ⁇ as well as the N terms ⁇ ti, t 2 , ..., t N ⁇ which represent them and it is used to reduce the decomposition of P in ⁇ Pi, P 2 , ..., PN ⁇ parts.
  • Terror ⁇ c, ⁇ ⁇ 2 2 (t ,, t,) that we compare with ⁇ c ( and we replace ti tjeP, by Ci if ⁇ i is lower than to ⁇ t i.
  • Terror ⁇ c, ⁇ ⁇ 2 2 (t ,, t,) that we compare with ⁇ c ( and we replace ti tjeP, by Ci if ⁇ i is lower than to ⁇ t i.
  • Ci ⁇ ⁇ 2 2 (t ,, t,)
  • the stop condition is defined by that is the order of 10 "3- ⁇ c t being Terror committed at time t which represents the iteration.
  • T the matrix of distances between terms, where Djj denotes the distance between the term tj and the term t j .
  • FIG. 3 illustrates, in the case of multimedia documents of various contents, an example of structuring of the concept dictionary 5.
  • the dictionary 5 is analyzed and a navigation map 9 inside the dictionary is established.
  • the production of the navigation map 9 is done iteratively.
  • This stopping criterion can be for example that the subsets obtained are all homogeneous with a low standard deviation for example.
  • the final result is a binary tree where the sheets contain the concepts of the dictionary and the nodes of the tree contain the information needed to scan the tree during the identification phase of a document.
  • An example of a module 6 for distributing a set of concepts will be described below.
  • Different methods are possible to ensure an axial distribution. In this case, we start by calculating the center of gravity C as well as the tax used to break the whole into two subsets.
  • the processing steps are as follows: Step 1: calculate a representative of the matrix M such as the centroid w of the matrix M: (13)
  • Step 3 we compute a projection axis of the elements of the matrix M, for example the eigenvector U associated with the largest eigenvalue of the covariance matrix.
  • the information stored in the node associated with C is ⁇ u, w,
  • a singularity detector module 8 may be associated with the module 6 for distributing the concepts. This singularity detector makes it possible to select the set Ci to be broken down. One of the possible methods is to select the least compact set.
  • Figures 4 and 5 illustrate the indexing of a document or database and the construction of a fingerprint database 10.
  • the fingerprint database 10 consists of the set of concepts representing the terms of the documents. documents to protect.
  • Each concept Ci of the fingerprint base 10 is associated with a fingerprint 11, 12, 13 constituted by a set of information such as the number of terms in the documents where the concept is present, and for each of these documents, it is recorded an imprint 11a, 11b, 11c including the index of the document which refers to the address of the document, the number of terms, the number of occurrences of the concept (frequency), the score, as well as the concepts which are neighbors to it in the document.
  • the score is an average value of similarity measures between the concept and the terms of the document that are closest to the concept.
  • the index of a given document which refers to the address of this document is stored in a base 14 of the addresses of the protected documents.
  • FIG. 5 The process of generating fingerprints or signatures of documents to be indexed is illustrated in FIG. 5.
  • the relevant terms of the document are extracted (step 21) and the dictionary of concepts is taken into account. (step 22).
  • Each of the terms tj of the document is projected in the space of the dictionary of concepts to determine the concept q representing the term tj (step 23).
  • the signature of a concept in a document is materialized mainly by the following information: Address of the document, NbTermes, Frequency, Neighbors Concepts and score. If the concept q exists in the database, we add to the entry associated with the concept its signature in the document which is composed of (Document address, NbTerms, Frequency, Neighbors concepts and score).
  • the fingerprint base is constructed (step 25)
  • the fingerprint database is recorded (step 26).
  • Figure 6 illustrates a process of identifying a document that is implemented on an online search platform. The purpose of identifying a document is to determine whether a document posed as a question is the reuse of a document from the database.
  • pdj pdj
  • f (frequency, score) frequency x score
  • frequency means the number of occurrences of the concept Ci in the document dj
  • score is the average of the resemblance scores of the terms of the document dj with the concept Cj.
  • the p dj are ordered and those higher than a given threshold are retained (step 333).
  • the confirmation and validation of the responses is then carried out (step 34).
  • Confirmation of answers the list of answers is filtered in order to keep only the most relevant answers. The filtering used is based on the correlation between the terms of the question and each answer.
  • Validation it allows to keep only the answers where there is a great certainty of content recovery.
  • the answers are filtered taking into account the algebraic and topological properties of the concepts inside a document: it is required that the neighborhood in the document question be respected in the documents answers, that is to say that two concepts Neighbors in the question document must be neighbors in the response document.
  • the list of response documents is then provided (step 35).
  • multimedia documents containing images In particular, for the construction of the fingerprint base, which will serve as a tool for the identification of a document, will be described quick and efficient image identification methods which take into account all the relevant information contained in the images. ranging from the characterization of the structures or objects that compose it, to that of the textured zones and to the background color.
  • the objects of the image are identified by the production of a table summarizing different statistics made on information of the frontier zones of the objects as well as information on the neighborhoods of these border zones.
  • the characterization of textured areas can be carried out using a very fine description of both the spatial and spectral texture according to three fundamental characteristics which are its periodicity, its global orientation and the randomness of its pattern.
  • the texture is here assimilated to a realization of two-dimensional random process.
  • the characterization of color is an important part of the method. It can be used as a first sort of similar answers based on color, or a last decision made to refine the search.
  • each document in the database is analyzed to extract relevant information. This information will then be listed and analyzed. This analysis is done following a series of procedures that can be summarized in three steps: - Extraction for each document of predefined characteristics and storage of this information in a vector called term. - Grouping in a concept of all the terms "neighbors" from the point of view of their characteristics, which makes the search more concise. - Construction of a footprint that characterizes this document by a small number of entities. Each document is thus associated with an imprint of its own.
  • Figure 8 illustrates the case of indexing an image document 52 contained in a previously recorded image database 51, to characterize this image 52 by a finite number of parameters that can be easily stored and subsequently manipulated.
  • Step 53 is used to extract terms from the document to be searched which are stored in a buffer (step 54).
  • step 55 a projection in the space of the terms of the reference database is carried out.
  • step 56 a vector description giving the values of relevance of the terms in the document to be searched is carried out.
  • Step 57 consists of a distribution of the terms in N groups 58 of concepts.
  • Step 59 consists of a space projection of the concepts of each group 58 to obtain N partitions 61.
  • an orthogonal projection 62 leads to N sets 63 of reduced vector descriptions.
  • the construction phase of the terms of an image will be described in more detail below.
  • the phase of construction of the terms of an image usefully implements the characterization of the structural supports of the image.
  • Structural supports are the elements that make up the scene of the image. The most significant are those that delimit the objects of the scene because they are the ones that characterize the different forms that are perceived when observing any image.
  • This step concerns the extraction of these structural supports. It consists of a dismantling of the border zones of the image objects, which are characterized by places between two zones where strong variations of intensity are observed. This dismantling is carried out by a process which consists in dividing these border zones among different
  • Each ESS actually belonging to a contour of a scene is characterized by a similarity in the local orientation of its gradient. This is a first step that aims to list all structural support elements of the image. The following approach is now taking place from these ESSs, namely the construction of terms describing the local and global properties of the ESSs. The information extracted from each medium is considered to be local properties. Two types of media can be distinguished: straight line elements (EDRs) and curve arcs (EACs).
  • EDRs straight line elements
  • EACs curve arcs
  • the elements of linear straight EDR are characterized by the local properties which are: - The dimension (length, width) • Main direction (slope) » Statistical properties of the pixels constituting the support (average value of energy, the moments)» Informations neighborhood (Local Fourier Transform)
  • the EAC curve arcs elements are characterized in the same way as before, in addition to the curvature of the arcs.
  • Global properties include statistics such as the number of each media type and their spatial arrangement (geometric associations between media: connexites, left, right, media ). In summary, for a given image, the relevant information extracted from the constituent objects are grouped together in Table 1.
  • the construction phase of the terms of an image also implements the characterization of the relevant textural information of the image.
  • the information coming from the texture of the image is divided according to three visual aspects of the image: » the random aspect (as a picture of fine sand, or grass) where no particular arrangement can be detected, - l periodical appearance (like a jacquard sweater) where a pattern repetition (pixel or pixel grouping) is observed, and finally the directional aspect where the patterns generally tend to orient towards one or more preferred directions.
  • This information is obtained by approaching the image by parametric models or representations.
  • Each aspect is taken into account by its spatial and spectral representations which constitute the relevant information of this part of the image.
  • the periodicity and orientation are characterized by the spectral supports whereas the random aspect is expressed by the estimation of the parameters of a two-dimensional autoregressive model.
  • the phase of construction of the terms of an image can finally also implement the characterization of the color of the image.
  • Color is often represented by color histograms, which are invariant to rotation and robust against occlusion and changes in camera views.
  • Color quantization can be done in the RGB (Red, Green, Blue), HSV (Hue Saturation Value) space, or the LUV space, but the color histogram indexing method has proved its worth. limits because it gives a global information of the image, and when indexing can be found images having the same color histogram, but which are completely different.
  • Many authors propose color histograms by integrating spatial information.
  • a pixel is coherent if it belongs to a fairly wide region grouping identical pixels, it is classified as inconsistent if it is part of a region of reduced size.
  • a method of characterizing the spatial distribution of the constituents of the image which is less costly in computation time than the methods mentioned above, and which is robust to rotations and to translation is described below.
  • the various characteristics extracted from the structural support elements as well as the parameters of the periodic, directional and random components of the texture field as well as the parameters of the spatial distribution of the constituents of the image constitute the terms that can be used to describe the content of the image. a document. These terms are grouped into concepts to reduce the useful information of a document.
  • FIG. 9 shows an exemplary flow chart of a process for extracting the terms of an image with a first step 71 of characterizing the image objects in structural supports, which may optionally be preceded by a test detection of structural elements to omit this step 71 in cases where the structural elements are absent.
  • Step 72 consists of a test to determine if there is a texture background.
  • step 73 of characterizing the texture background in spectral supports and autoregressive parameters AR, then to a step 74 of characterizing the background color. If there is no structured background, we go directly from step 72 to step 74. Finally, step 75 resides in terms storage and fingerprinting.
  • ESSs significant media elements
  • the support regions likely to contain the ESSs. From these support regions, the ESSs are determined, they are listed according to certain criteria which may be: • The length (a threshold lo is determined for this and the 55 " below and above this threshold) • The intensity defined by the mean of the module of the gradient of the pixels composing each ESS (a threshold noted lo is then defined, we list those which are lower and higher than this threshold).
  • the image 103 corresponds to a class 0 (0 ° - 45 °)
  • the image 104 corresponds to a class 1 (45 ° - 90 °)
  • l image 105 corresponds to a class 2 (90 ° - 135 °)
  • the image 106 corresponds to a class 3 (135 ° - 180 °).
  • the image is textured with more or less regular patterns and a characterization of the field of texture is carried out.
  • ⁇ w (i, j) ⁇ is the purely random component 16
  • ⁇ h (i, j) ⁇ is the harmonic component 17
  • ⁇ e ⁇ i, j) ⁇ the directional component 18.
  • the directional component ⁇ e (i, j) ⁇ is thus perfectly defined by the knowledge of the parameters contained in the Fsuivant vector: To estimate these parameters, we use the fact that the directional component of an image is represented in the spectral domain by a set of straight lines with orthogonal slopes to those defined by the pairs of integers (a lt ⁇ ,) of the model that will be noted ( ⁇ ⁇ ,) 1 . These lines can be decomposed into a subset of lines of the same slope each associated with a directional element.
  • Figures 15a and 15b show images 84
  • Figure 15al shows a three-dimensional view of the spectrum of image 84 of Figure 15a.
  • Figures 15bl and 15cl show images Fourier module
  • the method consists first of all in ensuring the presence of the directional component before estimating its parameters.
  • the detection of the directional component of the image is based on the knowledge of the spectral properties thereof. If we assimilate the spectrum of the image to a 3D image (X, Y, Z), where (X, Y) represent the coordinates of the pixels and Z the amplitude, the lines we want to detect are represented by a set of concentrated peaks along straight whose slopes are defined by the pairs ( ⁇ ⁇ ⁇ sought).
  • Each projection generates a vector of dimension 1, v ⁇ ak, ⁇ k) ⁇ No side Vk to simplify the notation, which contains directional information sought.
  • ⁇ (, y) is the Fourier transform module of the image to be characterized.
  • the elements of strong energies and their spatial positions are selected. These elements of high energy are those which have a maximum value with respect to a threshold calculated according to the size of the image.
  • the number of lines is known.
  • the number of directional components Ne is deduced by using the simple spectral properties of the directional component of a textured image. These properties are: 1. The lines observed in the spectral domain of a directional component are symmetrical with respect to the origin. The field of investigation can therefore be reduced to only one half of the domain under consideration. 2.
  • the maxima retained in the vector are candidates to represent lines belonging to directional elements.
  • Step 1 Calculate the set of projection pairs (a k , ⁇ k ) e P r
  • Step 2 Calculate the module of the DFT of the image y (i, j):
  • Step 4- Straight line detection: For all (a k , ⁇ k ) e P r , • determine: M k ⁇ maxJF * (/ ' ) ⁇ , j • calculate n k .-, the number of pixels of significant values encountered along the projection save • n k ej A ⁇ the index of the maximum in V k. • select the directions that justify the criterion, -> s e n k where s e is a threshold to be defined, depending on the size of the image,
  • Step 5- Save the couples are the orthogonal pairs (a k , ⁇ k ) retained in step 4.
  • FIG. 18al shows an image 91 containing periodic components and, in FIG. 18b, a synthetic image containing a periodic component.
  • Figure 18a2 shows an image 92 which is a module image of the DFT having a set of peaks.
  • Figure 18b2 shows a 3D view, 94, of the DFT which shows the presence of a pair of symmetric peaks 95, 96.
  • the harmonic component thus appears as pairs of isolated peaks symmetrical with respect to the origin (see Figure 18 (a2) - (b2)).
  • This component is a reflection of the existence of periodicities in the image.
  • the information that one seeks to determine are the elements of the vector:
  • the detection of the periodic component consists in determining the presence of isolated peaks on the module image of the DFT.
  • the value n k obtained in phase 4 of the method described in Table 1 is below a threshold, then we are in the presence of isolated peaks which characterize the presence of harmonic component rather only peaks forming a straight line.
  • the characterization of the periodic component amounts to locating the isolated peaks on the module image of the DFT.
  • a method of estimating the periodic component comprises the following steps:
  • Step l Locate the isolated peaks in the second half of the Fourier module image and count their number
  • the latest information to be extracted is contained in the purely random component ⁇ w (i, j) ⁇ .
  • the pair (N, M) is called the order of the model • ⁇ «(* > ./) ⁇ is a Gaussian white noise of finite variance ⁇ ⁇ .
  • the parameters of the model are given by:
  • the methods for estimating the elements of W are numerous, for example the 2D Levinson algorithm or the least-squares adaptive methods (MCR).
  • MCR least-squares adaptive methods
  • Each iconic component Ci is represented by a vector of M values. These values represent the angular and annular distribution of the points representing each component as well as the number of points of the component in question.
  • a first main step 110 from an image 11 of the RGB space, the image 111 of the space (R, G, B) is transformed to the HSV space (step 112) to obtain an image in the space HSV.
  • the HSV model can be defined as follows.
  • Tint H: varies from [0 360], and each angle represents a hue.
  • Saturation S: varies from [0 1], it measures the purity of the colors, and makes it possible to distinguish the colors "bright”, “pastels”, or “faded”.
  • V k M ⁇ (R k, B k, G k)
  • the HSV space is then partitioned (step 113).
  • N colors From the values of Hue, Saturation, Value, N colors have been defined. In the case where N is equal to 16, we have: Black, White, Light Gray, Dark Gray,
  • each partition Ci is defined by its iconic component and the coordinates of the pixels that make it up.
  • the description of a partition is based on the characterization of the spatial distribution of these pixels (point cloud).
  • the method begins with the calculation of the center of gravity, I ⁇ the main axis of the scatter plot and the axis perpendicular to this axis.
  • the new cue is used as a reference in the decomposition of partition Ci into several sub-partitions which are represented by the percentage of points constituting each of the sub-partitions.
  • the process of characterizing a partition Ci is as follows: - calculate the center of gravity and the angle of orientation of the components Ci defining the partitioning coordinate system, - calculate the angular distribution of the points of the partition Ci in the N directions in the opposite direction of clockwise, into N sub-partitions defined by: o 360 2x360 ix360 (N -l) x360 C 'N' N '- "' N"" 'N ⁇ - partition Tespace of image in squares of concentric rays, with calculation in each radius of the number of points corresponding to each iconic component, the characteristic vector is obtained from the number of points of each color distribution Ci, the number of points in the angular distributions as well as the number of points of the image
  • the characteristic vector is represented by 17 values in the example considered
  • the second processing step 120 is illustrated from the iconic components C0 to C15 showing for the components C0 (module 121) and C15 (module 131) the various steps performed, namely the angular partitioning 122, 132 leading to a
  • Steps 123, 125, 126 lead to the production of 17 values for the CO component (step 127) while steps 133, 135, 136 lead to the production of 17 values for the C15 component (step 137).
  • the process is analogous for the other components Cl to C14.
  • Figures 20 and 21 illustrate that the method described above is rotational invariant.
  • the image is partitioned into two subsets, one containing the crosses x, the other the rounds 0.
  • After calculating the center of gravity as well as the angle of orientation ⁇ one obtains the orientation mark which will make it possible to obtain the 04 angular sub-distributions (0 °, 90 °, 180 °, 270 °).
  • the methods for obtaining for an image the terms representing the dominant colors, the textural properties or the structures of the dominant zones of the image can be applied both to the entire image and to portions of the image. Briefly described below are processes of segmentation of a document that make it possible to produce the portions of the image to be characterized. According to a first possible technique, a static decomposition is carried out. The image is decomposed into blocks with overlap or without overlap. According to a second possible technique, a dynamic decomposition is carried out.
  • the decomposition of the image into portions is a function of the content of the image.
  • the portions are produced from the seeds that are the points of singularity of the image (inflection points). We start by calculating the seeds, which are then merged so that only a small number of them remain and finally the points of Timages are merged with the seeds. having the same visual (statistical) properties to produce the portions or segments of the image to be characterized.
  • the points of the image are merged to form the first n classes. Then the points of each class are decomposed into m classes and so on until reaching the desired number of classes. At merge, the points are assigned to the nearest class.
  • a class is represented by the center of gravity and / or a delimiter (bounding box, segment, curve, ).
  • the main steps of a method for characterizing the shapes of an image will now be described.
  • the characterization of the shape is done in several steps: For a suppression of zoom effect or variation due to the movement of the non-rigid elements of the image (movement of the lips, the leaves of tree, ...), one proceeds by a multiresolution followed by a decimation of the image.
  • the image or portion of the image is represented by its Fourier Transform.
  • the image is defined in the polar logarithmic space.
  • the term representing the form consists of the values of the statistical properties of each projection vector.

Abstract

The method of indexing multimedia documents comprises the following steps: a) for each document identifying and extracting terms ti constituted by vectors characterizing properties of the; b) storing terms ti in a term base comprising P terms; c) determining a maximum number N of desired concepts that group together the most pertinent terms ti; d) calculating the matrix T of distances between the terms ti of the term base; e) decomposing the set P of terms ti of the term base into N portions Pj (1<=j<=N) such that P=P1∪ P2 . . . ∪ Pj . . . ∪ PN, each portion Pj comprising a set of terms tij and being represented by a concept cj, the terms ti being distributed in such a manner that the terms that are farther apart are to be found in distinct portions Pl, Pm, and the terms that are closer together are to be found in the same portion Pl; f) structuring the concept dictionary; and g) constructing a fingerprint base made up of the set of concepts ci representing the terms ti of the documents, each document being associated with a fingerprint that is specific thereto.

Description

Procédé d'indexation et d'identification de documents multimédias Method for indexing and identifying multimedia documents
La présente invention se rapporte aux procédés d'indexation et d'identification de documents multimédias. Du point de vue général, l'identification d'un document multimédia comporte deux phases : - Une phase dite d'indexation, où l'on cherche à caractériser chaque document d'une base préalablement enregistrée par un nombre fini de paramètres pouvant facilement être stockés et manipulés ultérieurement. " Une phase dite de recherche, où suite à une requête formulée par l'utilisateur, par exemple l'identification d'une image question, l'on cherche tous les documents multimédias similaires ou répondant à cette requête. Il existe déjà de nombreux procédés d'indexation d'images qui mettent en oeuvre l'extraction des attributs de la forme des objets composants l'image s'ils existent, ainsi que ceux de la texture ou de la couleur de fond de l'image Toutefois, les procédés connus s'appliquent dans des domaines très spécialisés ou impliquent le traitement d'un très grand nombre d'informations qui conduisent à une complexité et une lenteur dans le traitement de ces informations. La présente invention vise à remédier aux inconvénients précités et à fournir un procédé d'indexation et d'identification de documents multimédias d'une application générale qui rationalise le processus de traitement et conduit à des temps de traitement plus courts tout en augmentant la qualité des résultats et leur fiabilité, ce qui permet notamment de procéder à des recherches efficaces par le contenu. Ces buts sont atteints conformément à l'invention, grâce à un procédé d'indexation de documents multimédias, caractérisé en ce qu'il comprend les étapes suivantes :The present invention relates to methods for indexing and identifying multimedia documents. From a general point of view, the identification of a multimedia document comprises two phases: - A so-called indexing phase, where one seeks to characterize each document of a database previously recorded by a finite number of parameters that can easily be stored and manipulated later. "A so-called research phase, where following a request formulated by the user, for example the identification of an image question, one seeks all the multimedia documents similar or responding to this request. indexing images that implement the extraction of the attributes of the shape of the image component objects if they exist, as well as those of the texture or the background color of the image However, the known methods apply in very specialized fields or involve the processing of a very large amount of information which leads to a complexity and a slowness in the processing of this information The present invention aims at remedying the aforementioned drawbacks and at providing a method indexing and identifying multimedia documents of a general application that streamlines the processing process and leads to shorter processing times while increasing quality of the results and their reliability, which makes it possible to carry out effective searches by the content. These objects are achieved according to the invention, thanks to a method of indexing multimedia documents, characterized in that it comprises the following steps:
(a) identification et extraction pour chaque document de termes b. constitués par des vecteurs caractérisant des propriétés du document multimédia à indexer, telles que la forme, la texture, la couleur ou la structure d'une image, l'énergie, le taux d'oscillation ou des informations fréquentielles d'un signal audio, ou un groupe de caractères d'un texte , (b) stockage des termes fc. caractérisant des propriétés du document multimédia dans une base de termes comprenant P termes, (c) détermination d'un nombre maximum N de concepts souhaités regroupant les termes tj les plus pertinents, N étant un nombre entier inférieur à P, et chaque concept c, étant prévu pour regrouper tous les termes voisins du point de vue de leurs caractéristiques,(a) identification and extraction for each term document b. constituted by vectors characterizing properties of the multimedia document to be indexed, such as the shape, the texture, the color or the structure of an image, the energy, the oscillation rate or frequency information of an audio signal, or a group of characters of a text, (b) storage of the terms fc. characterizing properties of the multimedia document in a term base comprising P terms, (c) determining a maximum number N of desired concepts grouping the most relevant terms tj, N being an integer less than P, and each concept c, being intended to group together all the related terms from the point of view of their characteristics,
(d) calcul de la matrice T de distances entre les termes tι de la base de termes,(d) calculating the matrix T of distances between the terms tι of the term base,
(e) décomposition de l'ensemble P des termes tj de la base de termes en N parties Pj (1 ≤ j≤N) telles que P = PI UP2 ~ UPj ... UPN, chaque partie Pj comprenant un ensemble de termes ty et étant représentée par un concept q, les termes tj étant répartis de telle façon que les termes les plus éloignés se trouvent dans des parties P-, Pm distinctes et les termes proches se trouvent dans la même partie P(,(e) decomposing the set P of terms tj of the term base into N parts P j (1 ≤ j N N) such that P = PI UP 2 ~ UPj ... UP N , each part P j comprising a a set of terms ty and being represented by a concept q, the terms tj being distributed in such a way that the most distant terms are in distinct parts P-, P m and the close terms are in the same part P ( ,
(f) structuration du dictionnaire de concepts de manière à constituer un arbre binaire où les feuilles contiennent les concepts Q du dictionnaire et les nœuds de l'arbres contiennent les informations nécessaires à la scrutation de l'arbre lors d'une phase d'identification d'un document par comparaison avec les documents précédemment indexés, et(f) structuring the dictionary of concepts so as to constitute a binary tree where the sheets contain the concepts Q of the dictionary and the nodes of the tree contain the information necessary for the scanning of the tree during an identification phase a document by comparison with previously indexed documents, and
(g) construction d'une base d'empreintes constituée de l'ensemble des concepts q représentant les termes ι des documents à indexer, chaque document étant associé à une empreinte qui lui est propre.(g) constructing an imprint base constituted by the set of concepts q representing the terms ι of the documents to be indexed, each document being associated with an imprint of its own.
De façon plus particulière, on associe à chaque concept q de la base d'empreintes un ensemble d'informations comprenant le nombre NbT de termes dans les documents où le concept q est présent. Selon un aspect particulier et l'invention, pour chaque document où un concept q est présent, on enregistre une empreinte du concept q dans le document, cette empreinte comprenant la fréquence d'occurrence du concept q, l'identification des concepts qui sont voisins du concept q dans le document et un score qui est une valeur moyenne des mesures de similarités entre le concept q et les termes tj du document qui sont les plus proches du concept q. Avantageusement, le procédé selon l'invention comprend une étape d'optimisation de la partition de l'ensemble P des termes de la base de termes pour décomposer cet ensemble P en M classes Q (1 < i < M, avec M < P), de manière à réduire l'erreur de la répartition de l'ensemble P des termes de la base de termes en N parties (Pi, P2,... PN) OÙ chaque partie Pj est représentée par le terme t| qui sera pris comme concept q, l'erreur N commise ε étant telle que ε = ∑εt. où εtt = d2 tt,tj) est l'erreur !=ι l tj p, commise lorsqu'on remplace les termes tj d'une partie Pi par tj. Dans ce cas, le procédé peut comprendre les étapes suivantes : (i) on décompose l'ensemble P de termes en deux parties Pi et P2 ;More particularly, each concept q of the fingerprint database is associated with a set of information comprising the number NbT of terms in the documents where the concept q is present. According to a particular aspect and the invention, for each document where a concept q is present, a print of the concept q is recorded in the document, this print comprising the frequency of occurrence of the concept q, the identification of the concepts that are related of the concept q in the document and a score which is an average value of the similarity measures between the concept q and the terms tj of the document which are the closest to the concept q. Advantageously, the method according to the invention comprises a step of optimizing the partition of the set P of terms of the term base to decompose this set P into M classes Q (1 <i <M, with M <P) , so as to reduce the error of the distribution of the set P of the terms of the term base in N parts (Pi, P 2 , ... PN) where each part Pj is represented by the term t | which will be taken as concept q, the error N committing ε being such that ε = Σε t . where ε tt = d 2 t t , t j ) is the error! = ι lt j p, made when replacing the terms tj of a Pi by tj. In this case, the method may comprise the following steps: (i) decomposing the set P of two-part terms Pi and P 2 ;
(ii) on détermine les deux termes les plus éloignés tι et tj de l'ensemble P correspondant à la plus grande distance Dy de la matrice T de distances ; (iii) pour chaque terme tk de l'ensemble P, on examine si la distance Dkι entre le terme tket le terme tj est plus petite que la distance Dkj entre le terme tk et le terme tj, si c'est le cas on affecte le terme tk à la partie Pi et si ce n'est pas le cas on affecte le terme tk à la partie P2; (iv) on itère l'étape (i) jusqu'à l'obtention du nombre N de points Pj souhaité et à chaque itération on applique les étapes (ii) et (iii) sur les termes des parties Pi et P2. Le procédé selon l'invention peut être plus particulièrement caractérisé en ce qu'il comprend une optimisation à partir des N parties disjointes Pi, P2,... PN Γ de l'ensemble P ainsi que des N termes t2, tN r qui les représentent pour réduire l'erreur de décomposition de l'ensemble P en N parties, et en ce qu'il comprend les étapes suivantes :(ii) we determine the two farthest terms tι and tj of the set P corresponding to the largest distance Dy of the matrix T of distances; (iii) for each term t k of the set P, it is examined whether the distance D k ι between the term t k and the term tj is smaller than the distance D k j between the term t k and the term tj, if it is the case we assign the term t k to the part Pi and if this is not the case we assign the term t k to the part P 2 ; (iv) step (i) is iterated until the desired number N of points Pj is obtained and at each iteration steps (ii) and (iii) are applied to the terms of the parts Pi and P 2 . The method according to the invention can be more particularly characterized in that it comprises an optimization from the N disjoint parts Pi, P 2 , ... P N Γ of the set P as well as the N terms t 2 , t N r which represent them to reduce the decomposition error of the set P in N parts, and in that it comprises the following steps:
(i) calcul des centres de gravité Q des parties Pj(i) calculation of the centers of gravity Q of the parts Pj
(ii) calcul des erreurs ε = d2(Ci,tj) et εtj = ^ - 2(t.,t.) lorsqu'on </eΛ tjePi remplace les termes tj de la partie Pj respectivement par Q et par tj,(ii) computation of the errors ε = d 2 (C i , t j ) and εtj = ^ - 2 (t, t.) when </ eΛ tjePi replaces the terms tj of the part Pj respectively by Q and by tj
(iii) comparaison de εtj et εq et remplacement de tj par Q si εq < εtj, (iv) calcul de la nouvelle matrice T de distances entre les termes tj de la base de termes et processus de décomposition de l'ensemble P des termes de la base de termes en N parties, sauf si une condition d'arrêt est remplie avec ε°t _ a?'+1 < seuil, où εct représente l'erreur εc, commise à l'instant t.(iii) comparison of εtj and εq and replacement of tj by Q if εq <εtj, (iv) calculation of the new matrix T of distances between the terms tj of the terms base and decomposition process of the set P of the terms of the term base in N parts, unless a condition stop is filled with ε ° t _ a? ' +1 <threshold, where εc t represents the error εc, committed at time t.
Afin de faciliter la recherche et l'identification de documents, pour effectuer une structuration du dictionnaire de concepts on produit de façon itérative à chaque itération une carte de navigation en commençant par scinder l'ensemble des concepts en deux sous-ensembles, puis en sélectionnant un sous-ensemble à chaque itération jusqu'à l'obtention du nombre de groupes souhaité ou jusqu'à ce qu'un critère d'arrêt soit satisfait. Le critère d'arrêt peut être caractérisé par le fait que les sous- ensembles obtenus sont tous homogènes avec un écart-type faible. De façon plus particulière, lors de la structuration du dictionnaire de concepts, on détermine des indicateurs de navigation à partir d'une matrice M = [Ci, c2,... cN] e 9 p*N de l'ensemble C des concepts q e 9îp où Ci représente un concept de p valeurs, selon les étapes suivantes : (i) on calcule un représentant w de la matrice M ,In order to facilitate the search and the identification of documents, to carry out a structuring of the dictionary of concepts it is produced iteratively at each iteration a navigation map by starting by splitting the set of concepts into two subsets, then selecting a subset at each iteration until the desired number of groups is obtained or until a stopping criterion is satisfied. The stopping criterion can be characterized by the fact that the subsets obtained are all homogeneous with a low standard deviation. More particularly, during the structuring of the dictionary of concepts, navigation indicators are determined from a matrix M = [Ci, c 2 , ... c N ] e 9 p * N of the set C concepts where p represents a concept of p values, according to the following steps: (i) a representative w of the matrix M is computed,
(ii) on calcule la matrice de covariance M entre les éléments de la matrice M et le représentant w de la matrice M, (iii) on calcule un axe de projection uàes éléments de la matrice M,(ii) calculating the covariance matrix M between the elements of the matrix M and the representative w of the matrix M, (iii) calculating a projection axis uas elements of the matrix M,
(iv) on calcule la valeur pi = d(u, Ci) - d(u, w) et on décompose l'ensemble de concepts C en deux sous-ensembles Cl et C2 de la manière suivante :(iv) the value pi = d (u, Ci) - d (u, w) is calculated and the set of concepts C is decomposed into two subsets C1 and C2 as follows:
(v) on stocke dans le nœud associé à C les informations {u, w, |pl|, p2} où pi est le maximum de tous les pi < 0 et p2 est le minimum de tous les pi > 0, l'ensemble des informations {u, w, |pl|, p2} constituant les indicateurs de navigation dans le dictionnaire de concept. Selon un mode particulier de réalisation, on analyse à la fois les composantes structurelles et le complément de ces composantes structurelles constitué par les composantes texturales d'une image du document, et :(v) we store in the node associated with C the information {u, w, | pl |, p2} where pi is the maximum of all pi <0 and p2 is the minimum of all pi> 0, the set information {u, w, | pl |, p2} constituting the navigation indicators in the concept dictionary. According to a particular embodiment, the structural components and the complement of these structural components constituted by the textural components of an image of the document are analyzed, and:
(a) lors de l'analyse des composantes structurelles de l'image (al) on procède à une répartition des zones frontières des structures de l'image en différentes classes selon l'orientation de la variation locale d'intensité de manière à définir des éléments de support structurel (ESS) de l'image, et(a) during the analysis of the structural components of the image (a1), the boundary zones of the image structures are distributed in different classes according to the orientation of the local variation of intensity so as to define Structural Support Elements (ESS) of the image, and
(a2) on procède par analyse statistique à la construction de termes constitués par des vecteurs décrivant les propriétés locales et globales des éléments de support structurels,(a2) the construction of terms consisting of vectors describing the local and global properties of the structural support elements is carried out by statistical analysis,
(b) lors de l'analyse des composantes texturales de l'image(b) when analyzing the textural components of the image
(bl) on procède à une détection et une caracterisation paramétrique d'une composante purement aléatoire de l'image, (b2) on procède à une détection et une caracterisation paramétrique d'une composante périodique de l'image, (b3) on procède à une détection et une caracterisation paramétrique d'une composante directionnelle de l'image,(bl) parametric detection and characterization of a purely random component of the image, (b2) parametric detection and characterization of a periodic component of the image, (b3) parametric detection and characterization of a directional component of the image,
(c) on regroupe dans un nombre limité de concepts l'ensemble des éléments descriptifs de l'image constitués par d'une part les termes décrivant les propriétés locales et globales des éléments de support structurels et d'autre part les paramètres des caractérisations paramétriques des composantes aléatoire, périodique et directionnelle définissant les composantes texturales de l'image, et(c) we group in a limited number of concepts the set of descriptive elements of the image constituted by, on the one hand, the terms describing the local and global properties of the structural support elements and, on the other hand, the parameters of the parametric characterizations random, periodic and directional components defining the textural components of the image, and
(d) on définit pour chaque document une empreinte à partir des occurrences, des positions et des fréquences desdits concepts. Avantageusement, les propriétés locales des éléments de support structurels prises en compte pour la construction de termes comprennent au moins le type de support choisi parmi une bande linéaire ou un arc de courbe, les dimensions en longueur et largeur du support, la direction principale du support et la forme et les propriétés statistiques des pixels constituant le support. Les propriétés globales des éléments de support structurels prises en compte pour la construction de termes comprennent au moins le nombre de chaque type de supports et leur disposition spatiale. De préférence, lors de l'analyse des composantes structurelles de l'image on procède à un test préalable de détection de la présence d'au moins une structure dans l'image et, en cas d'absence de structure, on passe directement à l'étape de l'analyse des composantes texturales de l'image. Avantageusement, pour procéder à une répartition des zones frontières des structures de l'image en différentes classes, à partir de l'image numérisée définie par l'ensemble des pixels y(i,j) où (i,j) e I x J, avec I et J désignant respectivement le nombre de lignes et le nombre de colonnes de l'image, on calcule l'image gradient vertical gv (i,j) avec (i,j) e I x J et l'image gradient horizontal g*, avec (i,j) e I x J et on procède au partitionnement de l'image selon l'orientation locale de son gradient en un nombre fini de classes équidistantes, l'image contenant l'orientation du gradient étant définie par la formule(d) defining for each document an imprint from the occurrences, positions and frequencies of said concepts. Advantageously, the local properties of the structural support elements taken into account for the construction of terms comprise at least the type of support chosen from a linear strip or a curve arc, the dimensions in length and width of the support, the direction of the support and the shape and the statistical properties of the pixels constituting the support. The overall properties of the structural support elements taken into account for the construction of terms include at least the number of each type of media and their spatial arrangement. Preferably, during the analysis of the structural components of the image, a preliminary test for detecting the presence of at least one structure in the image is carried out and, in the absence of a structure, one goes directly to the step of analyzing the textural components of the image. Advantageously, to proceed to a distribution of the frontier zones of the image structures into different classes, from the digitized image defined by the set of pixels y (i, j) where (i, j) e I x J with I and J respectively denoting the number of rows and the number of columns of the image, the vertical gradient image g v (i, j) is calculated with (i, j) e I x J and the gradient image horizontal g *, with (i, j) e I x J and partitioning the image according to the local orientation of its gradient into a finite number of equidistant classes, the image containing the orientation of the gradient being defined by the formula
O (i,j) = arc tan gh( j) (1) gv(i,j)O (i, j) = arc tan gh (j) (1) gv (i, j)
on identifie les classes constituant des régions de support susceptibles de contenir des éléments de support significatifs, et à partir des régions de support, on détermine les éléments de support significatifs et on les répertorie selon des critères prédéterminés. Selon un aspect particulier de l'invention, on analyse les formes d'une image d'un document selon les étapes suivantes : (a) on procède à une multirésolution suivie d'une décimation de l'image, (b) on définit l'image dans l'espace logarithmique polaire.the classes constituting support regions that can contain significant support elements are identified, and from the support regions, the significant support elements are determined and listed according to predetermined criteria. According to a particular aspect of the invention, the shapes of an image of a document are analyzed according to the following steps: (a) a multiresolution is followed followed by a decimation of the image, (b) the image in polar logarithmic space.
(c) on représente l'image ou la portion de l'image concernée par sa transformée de Fourier H,(c) representing the image or portion of the image concerned by its Fourier transform H,
(d) on procède à une caracterisation de la transformée de Fourier H de la façon suivante : (dl) on projette H dans plusieurs directions pour obtenir un ensemble de vecteurs dont la dimension est égale à la dimension du mouvement de projection, (d2) on calcule les propriétés statistiques de chaque vecteur de projection, et(d) Characterization of the Fourier transform H is carried out as follows: (dl) we project H in several directions to obtain a set of vectors whose dimension is equal to the dimension of the projection motion, (d2) we compute the statistical properties of each projection vector, and
(e) on représente la forme de l'image par un terme tj constitué des valeurs des propriétés statistiques de chaque vecteur de projection. Selon un aspect particulier de l'invention, lors de l'indexation d'un document multimédia comportant des signaux vidéo, on choisit des termes tj constitués par des images-clés représentant des groupes d'images homogènes consécutives, et on détermine des concepts q par regroupement de termes tj. Pour déterminer des images-clés constituant des termes tj , on élabore d'abord un vecteur score VS comprenant un ensemble d'éléments VS(i) matérialisant la différence ou la similarité entre le contenu d'une image d'indice i et celui d'une image d'indice i-1, et on analyse le vecteur score VS afin de déterminer les images-clés qui correspondent aux maximums des valeurs des éléments VS(i) du vecteur score VS. De façon plus particulière, une image d'indice j est considérée comme une image-clé si la valeur VS(j) de l'élément correspondant du vecteur score VS est un maximum et que la valeur VS(j) est située entre deux minimums min G et min D et que le minimum Ml tel que(e) the shape of the image is represented by a term tj consisting of the values of the statistical properties of each projection vector. According to one particular aspect of the invention, when indexing a multimedia document comprising video signals, terms tj consisting of keyframes representing groups of consecutive homogeneous images are chosen, and concepts are determined which by grouping terms tj. To determine keyframes constituting terms tj, a score vector VS is first constructed comprising a set of elements VS (i) materializing the difference or the similarity between the content of an image of index i and that of an image of index i-1, and the score vector VS is analyzed in order to determine the keyframes which correspond to the maximums of the values of the elements VS (i) of the score vector VS. More particularly, an index image j is considered to be a keyframe if the value VS (j) of the corresponding element of the score vector VS is a maximum and the value VS (j) is located between two minimums min G and min D and that the minimum Ml such that
Ml = (|VS(j) - min Gl , |VSQ) - min D| ) est supérieur à un seuil donné. On considérera à nouveau l'indexation d'un document multimédia, comportant des composantes audio, on échantillonne et décompose le document en trames, qui sont ensuite regroupées en clips dont chacun est caractérisé par un terme tj constitué par un vecteur de paramètre. Une trame peut comprendre par exemple entre environ 512 et 2048 échantillons du document audio échantillonné. Avantageusement, les paramètres pris en compte pour la définition des termes tj comprennent des informations temporelles correspondant à au moins l'un des paramètres suivants : l'énergie des trames du signal audio, l'écart-type des énergies des trames dans les clips, le rapport des variations sonores, le rapport de basse énergie, le taux d'oscillation autour d'une valeur prédéterminée, le haut taux d'oscillation autour d'une valeur prédéterminée,, la différence entre le nombre de taux d'oscillation au- dessus et au-dessous du taux d'oscillation moyen des trames de clips, la variance du taux d'oscillation, le rapport des trames silencieuses. Toutefois, de façon alternative ou complémentaires, de façon avantageuse, les paramètres pris en compte pour la définition des termes tj comprennent des informations frequentielles correspondant à au moins l'un des paramètres suivants : le centre de gravité du spectre de fréquence de la transformée de Fourier courte du signal audio, la largeur de bande du signal audio, le rapport entre l'énergie dans une bande de fréquence et l'énergie totale dans toute la bande de fréquence du signal audio échantillonné, la valeur moyenne de la variation du spectre de deux trames adjacentes dans un clip, la fréquence de coupure d'un clip. De façon plus particulière, les paramètres pris en compte pour la définition des termes tj peuvent comprendre au moins la modulation d'énergie à 4 Hz. D'autres caractéristiques et avantages de l'invention ressortiront de la description suivantes de modes particuliers de réalisation, donnés à titre d'exemples, en référence aux dessins annexés, sur lesquels : - la Figure 1 est un schéma-bloc montrant le processus de production d'un dictionnaire de concepts à partir d'une base de documents, conformément à l'invention, - la Figure 2 montre le principe de construction d'une base de concepts à partir de termes, - la Figure 3 est un schéma-bloc montrant le processus de structuration d'un dictionnaire de concepts, conformément à l'invention, - la Figure 4 montre la structuration d'une base d'empreintes mise en œuvre dans le cadre du procédé selon l'invention, - la Figure 5 est un organigramme montrant les différentes étapes de construction d'une base d'empreintes, - la Figure 6 est un organigramme montrant les différentes étapes d'identification de documents, - la Figure 7 est un organigramme montrant la sélection d'une première liste de réponses, - la Figure 8 est un organigramme montrant les différentes étapes d'une phase d'indexation de documents conformément au procédé selon l'invention, - la Figure 9 est un organigramme montrant les différentes étapes d'extraction de termes dans le cas du traitement d'images, - la Figure 10 est un schéma résumant le processus de décomposition d'une image régulière et homogène, - les Figures 11 à 13 montrent trois exemples d'images contenant différents types d'éléments, - les Figures 14a à 14f montrent respectivement un exemple d'image originale, un exemple d'image après traitement en prenant en compte le module du gradient, et quatre exemples d'images traitées avec démantèlement des zones frontières de l'image, - la Figure 15a représente un premier exemple d'image contenant un élément directionnel, - la Figure 15al est une vue 3D du spectre de l'image de la Figure 15a, - la Figure 15b représente un deuxième exemple d'image contenant un élément directionnel, - la Figure 15bl est une image module de Fourier de l'image de la Figure 15b, - la Figure 15c représente un troisième exemple d'image contenant deux éléments directionnels, - la Figure 15cl est une image module de Fourier de l'image de la Figure 15c, - la Figure 16 illustre des directions de projection pour des couples d'entiers (α, β) dans le cadre du calcul de la transformée de Fourier Discrète d'une image, - la Figure 17 illustre un exemple de mécanisme de projection avec l'exemple d'un couple d'entrées (αk, βk) = (2, -1), - la Figure 18al représente un exemple d'image contenant des composantes périodiques, - la Figure 18a2 représente l'image module de la transformée deMl = (| VS (j) - min G1, | VS Q ) - min D | ) is greater than a given threshold. We will again consider the indexing of a multimedia document, comprising audio components, we sample and break the document into frames, which are then grouped into clips each of which is characterized by a term tj constituted by a parameter vector. A frame may comprise, for example, between about 512 and 2048 samples of the sampled audio document. Advantageously, the parameters taken into account for the definition of the terms tj comprise temporal information corresponding to at least one of the following parameters: the energy of the frames of the audio signal, the standard deviation of the energies of the frames in the clips, the ratio of sound variations, the low energy ratio, the oscillation rate around a predetermined value, the high rate of oscillation around a predetermined value, the difference between the number of oscillation rates above above and below the average oscillation rate of the clip frames, the variance of the oscillation rate, the ratio of the silent frames. However, alternatively or additionally, advantageously, the parameters taken into account for the definition of the terms tj comprise frequency information corresponding to at least one of the following parameters: the center of gravity of the frequency spectrum of the transform of Fourier of the audio signal, the bandwidth of the audio signal, the ratio of the energy in a frequency band and the total energy throughout the frequency band of the sampled audio signal, the average value of the variation of the audio spectrum. two adjacent frames in a clip, the cutoff frequency of a clip. More particularly, the parameters taken into account for the definition of the terms tj may comprise at least the energy modulation at 4 Hz. Other features and advantages of the invention will emerge from the following description of particular embodiments, given by way of example, with reference to the accompanying drawings, in which: - Figure 1 is a block diagram showing the process of producing a dictionary of concepts from a database, according to the invention; FIG. 2 shows the principle of constructing a basis of concepts from terms; FIG. 3 is a block diagram showing the structuring process of a dictionary of concepts, according to the invention; FIG. 4 shows the structuring of an impression base implemented in the context of the process according to the invention; FIG. 5 is a flowchart showing the various steps of construction of an impression base; Figure 6 is a flowchart showing the different steps of document identification; Figure 7 is a flowchart showing the selection of a first list of responses; Figure 8 is a flowchart showing the different steps of a phase of the process; indexing of documents according to the method according to the invention, 9 is a flowchart showing the different steps of term extraction in the case of image processing, FIG. 10 is a diagram summarizing the decomposition process of a regular and homogeneous image, FIGS. 13 show three examples of images containing different types of elements; FIGS. 14a to 14f respectively show an example of an original image, an example of an image after processing taking into account the gradient module, and four examples of processed images with dismantling of the border areas of the image, - Figure 15a shows a first example of an image containing a directional element, - Figure 15al is a 3D view of the spectrum of the image of Figure 15a, - Figure 15b is a second exemplary image containing a directional element; FIG. 15bl is a Fourier module image of the image of FIG. 15b; FIG. 15c represents a third exemplary image containing two elem Figure 15c is a Fourier module image of the image of Figure 15c, - Figure 16 illustrates projection directions for pairs of integers (α, β) as part of the transform calculation. Discrete Fourier of an Image, - Figure 17 illustrates an example of a projection mechanism with the example of a pair of inputs (α k , β k ) = (2, -1), - Figure 18al represents an example of an image containing periodic components, - Figure 18a2 represents the module image of the
Fourier Discrète de l'image de la Figure 18al, - la Figure 18bl représente un exemple d'image synthétique contenant une composante périodique, - la Figure 18b2 représente une vue en 3D de la transformée de Fourier Discrète de l'image de la Figure 18bl, faisant apparaître une paire de pics symétriques, - la Figure 19 est un organigramme montrant les différentes étapes de traitement d'une image avec établissement d'un vecteur caractérisant la distribution spatiale des propriétés iconiques de l'image, - la Figure 20 montre un exemple de partitionnement d'une image et de création d'un vecteur caractéristique de cette image, - la Figure 21 montre une rotation de 90° de l'image partitionnée de la Figure 20 et la création d'un vecteur caractéristique de cette image, - la Figure 22 montre la décomposition d'un signal sonore en trames en clips, - la Figure 23a montre la variation de l'énergie d'un signal de parole, - la Figure 23b montre la variation de l'énergie d'un signal de musique, - la Figure 24a montre le taux de passage par zéro d'un signal de parole, - la Figure 24b montre le taux de passage par zéro d'un signal de musique, - la Figure 25a montre le centre de gravité du spectre de fréquence de la transformée de Fourier courte d'un signal de parole, - la Figure 25b montre le centre de gravité du spectre de fréquence de la transformée de Fourier courte d'un signal de musique, - la Figure 26a montre la largeur de bande d'un signal de parole, - la Figure 26b montre la largeur de bande d'un signal de musique, - la Figure 27a montre pour trois sous-bandes de fréquence 1, 2, 3 le rapport d'énergie dans chaque sous-bande de fréquence sur l'énergie totale de toute la bande de fréquence, pour un signal de parole, - la Figure 27b montre pour trois sous-bandes de fréquence 1, 2, 3 le rapport d'énergie dans chaque sous-bande de fréquence sur l'énergie totale de toute la bande de fréquence, pour un signal de musique, - la Figure 28a montre le flux spectral d'un signal de parole, - la Figure 28b montre le flux spectral d'un signal de musique, - la Figure 29 est un graphique illustrant la définition de la fréquence de coupure d'un clip, et - la Figure 30 illustre, pour un signal audio, la modulation de l'énergie autour de 4 Hz. On décrira d'abord en référence aux Figures 1 à 5 le principe général du procédé d'indexation de documents multimédias selon l'invention, qui conduit à la construction d'une base d'empreintes, chaque document indexé étant associé à une empreinte qui lui est propre. A partir d'une base de documents multimédias 1, une première étape 2 consiste en l'identification et l'extraction, pour chaque document, de termes tj constitués par des vecteurs caractérisant des propriétés du document à indexer. A titre d'exemples, on décrira, en référence aux Figures 22 à 30, la façon dont il est possible d'identifier et d'extraire des termes tj pour un document sonore. Un document audio 140 est d'abord décomposé en trames 160 qui sont regroupées par la suite en clips 150 dont chacun va être caractérisé par un terme constitué par un vecteur de paramètres (Figure 22). Un document audio 140 sera donc caractérisé par un ensemble de termes tj qui seront stockés dans une base de termes 3 (Figure 1). Les documents audio dont on a extrait leur vecteur caractéristique peuvent être échantillonnés par exemple à 22 050 Hz afin d'éviter l'effet de crénelage. Le document est ensuite divisé en un ensemble de trames dont le nombre d'échantillons par trame est fixé en fonction du type de fichier à analyser. Pour un document audio riche en fréquences et qui contient beaucoup de . variations, comme les films par exemple, les émissions de variétés ou encore les émissions sportives, le nombre d'échantillons dans une trame doit être faible, de l'ordre de 512 échantillons par exemple. En revanche, pour un document audio homogène ne contenant que de la parole ou de la musique par exemple, ce nombre doit être important, par exemple de l'ordre de 2 048 échantillons. Un clip de document audio peut être caractérisé par différents paramètres servant à constituer les termes et caractérisant des informations temporelles ou frequentielles. Il est possible d'utiliser tout ou partie des paramètres qui seront mentionnés ci-dessous pour former des vecteurs de paramètres constituant les termes identifiant les clips successifs du document audio échantillonné. L'énergie des trames du signal audio constitue un premier paramètre représentant une information temporelle. L'énergie du signal audio varie beaucoup pour la parole alors qu'elle est plutôt stable pour la musique. Elle permet donc de discriminer la parole de la musique mais aussi de détecter les silences. L'énergie peut être couplée à un autre paramètre temporel tel que le taux d'oscillation (TO) autour d'une valeur, qui peut correspondre par exemple au taux de passage par zéro (TPZ). En effet un TO faible et une énergie forte sont synonymes d'un son voisé tandis qu'un TO élevé induit une zone non voisée. La Figure 25a représente un signal 141 qui illustre la variation de l'énergie dans le cas d'un signal de parole. La Figure 23b représente un signal 142 qui illustre la variation de l'énergie dans le cas d'un signal de musique. Soit N le nombre d'échantillons dans une trame, le volume ou énergie E(n) est défini par :Discrete Fourier of the Figure 18al image, - Figure 18bb represents an example of a synthetic image containing a periodic component, - Figure 18b2 is a 3D view of the Discrete Fourier transform of the image of Figure 18b , showing a pair of symmetrical peaks, 19 is a flowchart showing the various steps of processing an image with establishment of a vector characterizing the spatial distribution of the iconic properties of the image; FIG. 20 shows an example of partitioning an image and Figure 21 shows a rotation of 90 ° of the partitioned image of Figure 20 and the creation of a characteristic vector of this image, Figure 22 shows the decomposition of the image. a sound signal in clip frames, - Figure 23a shows the variation of the energy of a speech signal, - Figure 23b shows the variation of the energy of a music signal, - Figure 24a shows the Zero crossing rate of a speech signal; - Figure 24b shows the zero crossing rate of a music signal; - Figure 25a shows the center of gravity of the frequency spectrum of the short Fourier transform; a speech signal, - Figure 25 b shows the center of gravity of the frequency spectrum of the short Fourier transform of a music signal, - Figure 26a shows the bandwidth of a speech signal, - Figure 26b shows the bandwidth of a musical signal, - Figure 27a shows for three frequency sub-bands 1, 2, 3 the ratio of energy in each frequency sub-band to the total energy of the whole frequency band, for a signal of Figure 27b shows for three frequency sub-bands 1, 2, 3 the ratio of energy in each frequency sub-band to the total energy of the entire frequency band, for a music signal, Fig. 28a shows the spectral flow of a speech signal; Fig. 28b shows the spectral flow of a music signal; Fig. 29 is a graph illustrating the definition of the cutoff frequency of a clip, and - Figure 30 illustrates, for an audio signal, the modulation of energy around 4 Hz. The general principle of the method of indexing multimedia documents according to the invention, which leads to the construction of a fingerprint database, is described first with reference to FIGS. 1 to 5, each indexed document being associated with a fingerprint which it's clean. From a multimedia document base 1, a first step 2 consists of identifying and extracting, for each document, terms tj constituted by vectors characterizing properties of the document to be indexed. By way of example, reference will be made to FIGS. 22 to 30 as to how it is possible to identify and extract terms tj for a sound document. An audio document 140 is first decomposed into frames 160 which are subsequently grouped into clips 150, each of which will be characterized by a term consisting of a vector of parameters (FIG. 22). An audio document 140 will therefore be characterized by a set of terms tj which will be stored in a term base 3 (FIG. 1). The audio documents from which their characteristic vector has been extracted can be sampled for example at 22 050 Hz in order to avoid the aliasing effect. The document is then divided into a set of frames whose number of samples per frame is set according to the type of file to be analyzed. For a high frequency audio document that contains a lot of. Variations, such as films, variety programs or sports programs, the number of samples in a frame must be low, of the order of 512 samples for example. On the other hand, for a homogeneous audio document containing only speech or music for example, this number must be large, for example of the order of 2048 samples. An audio document clip may be characterized by different parameters used to form the terms and characterizing time or frequency information. It is possible to use all or part of the parameters that will be mentioned below to form parameter vectors constituting the terms identifying the successive clips of the sampled audio document. The energy of the frames of the audio signal constitutes a first parameter representing temporal information. The energy of the audio signal varies a lot for the speech whereas it is rather stable for the music. It thus makes it possible to discriminate the speech of the music but also to detect the silences. The energy can be coupled to another temporal parameter such as the oscillation rate (TO) around a value, which can correspond for example to the zero crossing rate (TPZ). Indeed a weak TO and a strong energy are synonymous with a voiced sound while a high TO induces an unvoiced zone. Figure 25a shows a signal 141 which illustrates the variation of the energy in the case of a speech signal. Figure 23b shows a signal 142 which illustrates the variation of the energy in the case of a music signal. Let N be the number of samples in a frame, the volume or energy E (n) is defined by:
E(n)= N∑SZ(ι) - (2) où Sn(i) représente la valeur de l'échantillon i de la trame d'indice n d'un signal audio.E (n) = N ΣSZ (ι) - (2) where S n (i) represents the value of the sample i of the index frame n of an audio signal.
D'autres paramètres représentatifs d'informations temporelles peuvent être déduits de l'énergie, comme par exemple : - l'écart type des énergies des trames dans les clips (encore appelé EEC ou VSTD) qui constitue un état défini comme la variance des volumes des trames dans un clip normalisé par le maximum du volume des trames du clip, - le rapport des variations sonores (RVS) qui est constitué par la différence entre le maximum et le minimum des volumes des trames d'un clip divisé par le maximum des volumes de ces trames, - le rapport de basse énergie (ou LER) qui est le pourcentage des trames dont le volume est inférieur à un seuil (qui est fixé par exemple à 95% du volume moyen d'un clip). D'autres paramètres permettent de caractériser l'aspect temporel d'un clip, en particulier le taux d'oscillation autour d'une valeur prédéterminée, qui, lorsque cette valeur prédéterminée est zéro, définit un taux de passage par zéro (ou TPZ). Le TPZ peut aussi être défini par le nombre de fois où l'onde passe par zéro . Z(n) = ∑\Sign(S„(i)\\-(Sign(Sn(i-l)i) - (3) ^ ι=0 M Sn (i) Naleur de l'échantillon i, de la trame n. N : nombre d'échantillons dans une trame. fs : fréquence d'échantillonnage. Cette caractéristique est fréquemment utilisée pour la classification parole / musique. En effet, les brusques variations du TPZ sont significatives de l'alternance voisée / non voisée donc de la présence de parole. Pour la parole, le TPZ est faible pour les zones voisées et très élevé pour les zones non voisées alors que pour la musique, les variations du TPZ sont très faibles. La Figure 24a montre une courbe 143 illustrant un exemple de TPZ pour un signal de parole. La Figure 24b montre une courbe 144 illustrant un exemple de TPZ pour un signal de musique. Un autre paramètre caractérisant l'aspect temporel d'un clip peut être constitué par le haut taux d'oscillation autour d'une valeur prédéterminée qui, lorsque cette valeur prédéterminée est zéro, définit un haut taux de passage par zéro (ou HTPZ). Le HTPZ peut être défini comme étant le rapport du nombre de trames dont le TPZ est à une valeur α, par exemple 1,5 au-dessus du TPZ moyen du clip (ls) : (4) Λ"-l tel que : avTPZ = — TPZ(n) . (5) N n=o avec: n : indice de la trame . N : nombre de trames dans un clip. Pour les segments de parole les clips sont de 0 à 200 s avec un HTPZ autour de 0,15. En revanche, pour les segments de musique, les clips sont de 200 à 350 s et le HTPZ varie autour de 0,05 et est en général quasi nul. Pour le son d'environnement les segments correspondant aux clips sont de 351 à 450 s, Le HTPZ est faible pour le bruit blanc et grand pour un son assourdissant (tambour par exemple). On peut encore définir le paramètre DTPZ qui est constitué par la différence entre le nombre de TPZ au-dessus et en-dessous du TPZ moyen des trames d'un clip, ainsi que le paramètre VTPZ qui est constitué par la variance du TPZ. Un autre paramètre caractérisant l'aspect temporel d'un clip est le rapport des trames silencieuses (RFS) qui est le pourcentage des trames non silencieuses dans un clip. Une trame est non silencieuse si son volume dépasse un certain seuil (10) et si la valeur du TPZ est inférieure à un Tpz seuil. Ainsi le rapport de trames non silencieuses dans un clip, permet de détecter le silence. D'autres, propriétés statistiques du TPZ peuvent être utilisées comme paramètres caractéristiques, telles que : i) moment du troisième ordre de la moyenne, ii) le nombre de TPZ dépassant un certain seuil.Other parameters representative of temporal information can be deduced from the energy, for example: the standard deviation of the energies of the frames in the clips (also called EEC or VSTD) which constitutes a state defined as the variance of the volumes frames in a clip normalized by the maximum of the frame volume of the clip, - the ratio of the sound variations (RVS) which is constituted by the difference between the maximum and the minimum of the frame volumes of a clip divided by the maximum of the volumes of these frames, - the low energy ratio (or LER) which is the percentage of the frames whose volume is below a threshold (which is fixed for example at 95% of the average volume of a clip). Other parameters make it possible to characterize the temporal aspect of a clip, in particular the rate of oscillation around a value predetermined, which, when this predetermined value is zero, defines a zero crossing rate (or TPZ). The TPZ can also be defined by the number of times the wave goes through zero. Z (n) = Σ \ Sign (S "(i) \\ - (Sign (S n (il) i) - (3) ^ ι = 0 M Sn (i) The value of sample i, of the frame n: number of samples in a frame f s : sampling frequency This characteristic is frequently used for the speech / music classification, since the sudden variations of the TPZ are significant for the voiced / unvoiced alternation. therefore, the presence of speech For speech, the TPZ is low for the voiced areas and very high for the unvoiced areas, whereas for the music, the variations of the TPZ are very low Figure 24a shows a curve 143 illustrating a example of TPZ for a speech signal Figure 24b shows a curve 144 illustrating an example of TPZ for a music signal Another parameter characterizing the temporal aspect of a clip may be the high rate of oscillation around a predetermined value which, when this predetermined value is zero, defines a high step rate wise by zero (or HTPZ) The HTPZ can be defined as the ratio of the number of frames whose TPZ is at a value α, for example 1.5 above the average TPZ of the clip (ls): (4) Λ " -l such that: avTPZ = - TPZ (n). (5) N n = o with: n: index of the frame. N: number of frames in a clip. For speech segments the clips are from 0 to 200 s with an HTPZ around 0.15. On the other hand, for the music segments, the clips are from 200 to 350 s and the HTPZ varies around 0,05 and is generally almost zero. For the environment sound the segments corresponding to the clips are from 351 to 450 s, The HTPZ is weak for the white noise and large for a deafening sound (drum for example). It is also possible to define the parameter DTPZ which is constituted by the difference between the number of TPZs above and below the average TPZ of the frames of a clip, as well as the parameter VTPZ which is constituted by the variance of the TPZ. Another parameter characterizing the temporal aspect of a clip is the silent frame ratio (RFS) which is the percentage of non-silent frames in a clip. A frame is non-silent if its volume exceeds a certain threshold (10) and if the value of the TPZ is less than a threshold Tpz. Thus the report of non-silent frames in a clip, can detect silence. Other, statistical properties of the TPZ can be used as characteristic parameters, such as: i) third-order moment of the mean, ii) the number of TPZs exceeding a certain threshold.
Les paramètres pris en compte pour la définition des termes tj peuvent comprendre également des informations frequentielles qui prennent en compte le calcul de la transformée de Fourier rapide (FFT) du signal audio. Ainsi, un paramètre appelé centroïde spectacle (CS) peut être défini comme étant le centre de gravité du spectre de fréquence de la transformée de Fourier courte (STFT) du signal audio : telle que S„( : Puissance spectrale de la trame i du clip n .The parameters taken into account for the definition of the terms tj may also include frequency information which takes into account the calculation of the Fast Fourier Transform (FFT) of the audio signal. Thus, a parameter called spectacle centroid (CS) can be defined as the center of gravity of the frequency spectrum of the Short Fourier Transform (STFT) of the audio signal: such that S "(: Spectral power of the frame i of the clip n.
Le paramètre CS est élevé pour la musique car les hauteurs sont réparties sur une zone plus étendue que celle de la parole (en général 6 octaves pour la musique et 3 pour la parole ). Il a une relation avec la sensation de la brillance du son qu'on entend. C'est un attribut perceptuel important pour la caracterisation du timbre . La Figure 25a montre une courbe 145 illustrant un exemple de CS pour un signal de parole. La Figure 25b montre une courbe 146 illustrant un exemple de CS pour un signal de musique. Un autre paramètre est constitué par la largeur de bande LB qui peut être calculée à partir de la variance du paramètre précédent CS(n).The CS parameter is high for music because the heights are spread over a wider area than the speech (usually 6 octaves for music and 3 for speech). It has a relationship with the sensation of the brilliance of the sound you hear. It is an important perceptual attribute for the characterization of the timbre. Figure 25a shows a curve 145 illustrating an example of CS for a speech signal. Figure 25b shows a curve 146 illustrating an example of CS for a music signal. Another parameter is the bandwidth LB which can be calculated from the variance of the previous parameter CS (n).
La largeur de bande LB est importante tant en musique qu'en parole. La Figure 26a montre une courbe 147 illustrant un exemple de largeur de bande d'un signal de parole. La Figure 26b montre une courbe 148 illustrant un exemple de largeur de bande d'un signal de musique. Un autre paramètre utile est constitué par le rapport ERSB entre l'énergie dans une sous-bande de fréquence i et l'énergie totale dans toute la bande de fréquence du signal audio échantillonné. En considérant les propriétés perceptuelles de l'oreille humaine, la bande de fréquence à été divisée en quatre sous-bandes où ces dernières correspondent aux filtres de Cochlear. Quand la fréquence d'échantillonnage est de 22025 Hz, les bandes de fréquences sont : 0-630Hz , 630-1720HZ , 1720-4400Hz et 4400-11025Hz .Pour chacune de ces bandes on calcule son énergie ERSBi, qui correspond au rapport de l'énergie de cette dernière sur l'énergie dans toute la bande de fréquence . La Figure 27a montre trois courbes 151, 152, 153 illustrant pour trois sous-bandes de fréquence 1, 2, 3 le rapport d'énergie dans chaque sous-bande de fréquence sur l'énergie totale de toute la bande de fréquence, pour un exemple de signal de parole. La Figure 27b montre trois courbes 154, 155, 156 illustrant pour trois sous-bandes de fréquence 1, 2, 3 le rapport d'énergie dans chaque sous-bande de fréquence sur l'énergie totale de toute la bande de fréquence, pour un exemple de signal de musique. Un autre paramètre est constitué par le flux spectral qui est défini comme la valeur moyenne de la variation du spectre de deux trames adjacentes dans un clip : FS(n) ≈ η ∑ [log(S„ (0 + δ)- log(S„ ( - 1) + δ)]2 (8) N ,-=ιLB bandwidth is important in both music and speech. Figure 26a shows a graph 147 illustrating an exemplary bandwidth of a speech signal. Figure 26b shows a curve 148 illustrating an example of a bandwidth of a music signal. Another useful parameter is the ERSB ratio between the energy in a frequency sub-band i and the total energy in the entire frequency band of the sampled audio signal. Considering the perceptual properties of the human ear, the frequency band has been divided into four sub-bands where the latter correspond to Cochlear filters. When the sampling frequency is 22025 Hz, the frequency bands are: 0-630Hz, 630-1720HZ, 1720-4400Hz and 4400-11025Hz. For each of these bands we calculate its energy ERSBi, which is the ratio of the energy of the latter on the energy in the whole frequency band. Figure 27a shows three curves 151, 152, 153 illustrating for three frequency sub-bands 1, 2, 3 the ratio of energy in each frequency sub-band to the total energy of the entire frequency band, for a example of speech signal. Figure 27b shows three curves 154, 155, 156 illustrating for three frequency sub-bands 1, 2, 3 the ratio of energy in each frequency sub-band to the total energy of the whole frequency band, for a example of a music signal. Another parameter consists of the spectral flux which is defined as the average value of the variation of the spectrum of two adjacent frames in a clip: FS (n) ≈ η Σ [log (S "(0 + δ) - log (S "(- 1) + δ)] 2 (8) N, - = ι
OÙ δ : Une constante de faible valeur,WHERE δ: A constant of low value,
Sn(i) : Puissance spectrale de la trame i du clip n. Le flux spectral de la parole est en général plus important que celui de la musique, et celui du son d'environnement est le plus grand. Il varie considérablement en comparaison avec les deux autres signaux. La Figure 28a montre une courbe 157 illustrant le flux spectral d'un exemple de signal de parole. La Figure 28b montre une courbe 158 illustrant le flux spectral d'un exemple de signal de musique. Un autre paramètre utile est constitué par la fréquence de coupure d'un clip (FCC). La Figure 29 montre une courbe 149 illustrant le spectre d'amplitude en fonction de la fréquence fe, et la fréquence de coupure fc qui est la fréquence en dessous de laquelle 95% de l'énergie du spectre (la puissance spectrale) est concentrée. Pour déterminer la fréquence de coupure du clip, on calcule la transformée de Fourier du clip DS(n) N-l DS(ή) = ∑S2(i) (9) . La fréquence rest déterminée par : ι=0 fC JC- ∑Sn 2(i) ≥ Q.95xDS (10)et ∑S„2 ( < 0.95xZ)S) (11) ι=0 ι=0 La FCC est plus élevée pour un son non voisé (son riche en hautes fréquences ) que pour un son voisé (présence de parole où la puissance est concentrée dans les basses fréquences). Cette mesure permet de caractériser les alternances voisées/non voisées de la parole car cette valeur est faible pour les clips contenant uniquement de la musique. D'autres paramètres peuvent encore être pris en compte pour la définition des termes tj d'un document audio, comme la modulation d'énergie autour de 4 Hz, qui constitue un paramètre issu à la fois d'une analyse fréquentielle et d'une analyse temporelle. La modulation d'énergie à 4 Hz (4 ME) est calculée à partir du contour du volume, selon la formule suivante :S n (i): Spectral power of the frame i of the clip n. The spectral flow of speech is generally greater than that of music, and the sound of the environment is the largest. It varies considerably in comparison with the other two signals. Figure 28a shows a curve 157 illustrating the spectral flow of an exemplary speech signal. Figure 28b shows a curve 158 illustrating the spectral flow of an example of a music signal. Another useful parameter is the cutoff frequency of a clip (FCC). Figure 29 shows a curve 149 illustrating the amplitude spectrum as a function of the frequency fe, and the cutoff frequency fc which is the frequency below which 95% of the spectrum energy (the spectral power) is concentrated. To determine the cutoff frequency of the clip, calculate the Fourier transform of the DS clip (n) N1 DS (ή) = ΣS 2 (i) (9). The frequency remains determined by: ι = 0 fC JC- ΣS n 2 (i) ≥ Q.95xDS (10) and ΣS " 2 (<0.95xZ) S) (11) ι = 0 ι = 0 The FCC is higher for unvoiced sound (high frequency sound) than for voiced sound (presence of speech where the power is concentrated in the low frequencies). This measurement makes it possible to characterize voiced / unvoiced alternations of speech because this value is low for clips containing only music. Other parameters can still be taken into account for the definition of the terms tj of an audio document, such as the modulation of energy around 4 Hz, which constitutes a parameter resulting from both a frequency analysis and a temporal analysis. The energy modulation at 4 Hz (4 ME) is calculated from the contour of the volume, according to the following formula:
où Sn(i) : Puissance spectrale de la trame i du clip n .where S n (i): Spectral power of the frame i of the clip n.
W(j) : Fenêtre triangulaire centrée à 4Hz.W (j): Triangular window centered at 4Hz.
T : Largeur d'un clip. La parole a une 4ME plus importante que la musique car, pour la parole, les changements de syllabe se situent autour de 4Hz. Une syllabe est en effet une combinaison d'une zone de faible énergie (consonne) et d'une zone de forte énergie (voyelle). La Figure 30 montre une courbe 161 illustrant un exemple de signal audio et une courbe 162 montrant pour ce signal la modulation de l'énergie autour de 4 Hz. On a décrit ci-avant le cas de documents multimédias comportant des composantes audio. Dans le cas de l'indexation de documents multimédias comportant des signaux vidéo, on peut choisir des termes tj constitués par des images-clés représentant des groupes d'images homogènes consécutives. Les termes tj peuvent à leur tour représenter par exemple les couleurs dominantes, les propriétés texturales, les structures de zones dominantes des images-clés du document vidéo. D'une manière générale, dans le cas des images qui sera développé plus en détail plus loin, les termes peuvent représenter les couleurs dominantes, les propriétés texturales, les structures des zones dominantes de l'image. Plusieurs procédés peuvent être mis en œuvre de façon alternative ou cumulative, aussi bien sur la totalité de l'image que sur des portions de l'image, pour déterminer les termes tj devant caractériser l'image. Dans le cas d'un document contenant du texte, les termes tj peuvent être constitués par des mots du langage parlé ou écrit, par des nombres et par d'autres identificateurs constitués de combinaisons de caractères (par exemple des combinaisons de lettres et de chiffres). On considérera à nouveau l'indexation d'un document multimédia comportant des signaux vidéo, pour lequel on choisit des termes tj constitués par des images-clés représentant des groupes d'images homogènes consécutives, et on détermine des concepts q par regroupement des termes tj. La détection des images clés repose sur le regroupement des images d'un document vidéo en groupes contenant chacun uniquement des images homogènes. De chacun des groupes on extrait une ou plusieurs images (appelées images clés) représentant le document vidéo. Le regroupement des images du document vidéo repose sur la production d'un vecteur score appelé VS représentant le contenu de la vidéo, il caractérise la variation des images consécutives de la vidéo (l'élément VSj matérialise la différence entre le contenu de l'image d'indice i et celui de l'image d'indice i-1), VS est égal à zéro quand les contenus irrij et irrij-i sont identiques et il est important quand la différence entre les deux contenus est importante. Pour calculer le signal VS, les trois bandes de chaque image irrij RGB d'indice i de vidéo sont additionnées pour ne constituer qu'une seule image qu'appelée TRi. Ensuite, l'image TRi est décomposée en plusieurs bandes de fréquence pour ne conserver que la composante basse fréquence TRBi. On utilise pour cela deux filtres à miroir (un filtre Passe bas PB et un filtre Passe Haut PH) qui sont appliqués successivement sur les lignes et sur les colonnes de l'image. On considérera deux types de filtre : rondelette de Haar et le filtre dont l'algorithme est le suivant :T: Width of a clip. Speech is 4ME more important than music because, for speech, syllable changes are around 4Hz. A syllable is indeed a combination of a zone of low energy (consonant) and a zone of high energy (vowel). FIG. 30 shows a curve 161 illustrating an example of an audio signal and a curve 162 showing for this signal the modulation of the energy around 4 Hz. The case of multimedia documents comprising audio components has been described above. In the case of the indexing of multimedia documents comprising video signals, it is possible to choose terms tj constituted by key-images representing groups of consecutive homogeneous images. The terms tj can in turn represent for example the dominant colors, the textural properties, the dominant zone structures of the keyframes of the video document. In general, in the case of images which will be developed in more detail later, the terms can represent the dominant colors, the textural properties, the structures of the dominant areas of the image. Several methods can be implemented alternatively or cumulatively, as well over the entire image as on portions of the image, to determine the terms tj to characterize the image. In the case of a document containing text, the terms tj may consist of words spoken or written, numbers and other identifiers consisting of combinations of characters (eg combinations of letters and numbers ). We will again consider the indexing of a multimedia document comprising video signals, for which we choose terms tj constituted by keyframes representing groups of consecutive homogeneous images, and we determine concepts q by grouping the terms tj . The detection of keyframes is based on the grouping of the images of a video document into groups each containing only homogeneous images. From each of the groups, one or more images (called keyframes) representing the video document are extracted. The grouping of the images of the video document is based on the production of a score vector called VS representing the content of the video, it characterizes the variation of the consecutive images of the video (the element VSj materializes the difference between the content of the image of index i and that of the index image i-1), VS is equal to zero when the contents irrij and irrij-i are identical and it is important when the difference between the two contents is important. To calculate the signal VS, the three bands of each Irrij RGB image of video index i are summed to constitute a single image called TRi. Then, the image TRi is decomposed into several frequency bands to keep only the low frequency component TRBi. Two mirror filters (a PB Low Pass filter and a High Pass PH filter) are used, which are applied successively to the rows and columns of the image. We will consider two types of filter: Haar's rondelette and the filter whose algorithm is as follows:
Balayage ligneSweep line
A partir de TRk on produit l'image Bas Pour chaque point a^y de l'image TR faire Calculer le point bi;j de l'image basse fréquence bas, bj,j prend la valeur médiane de a2Xj,j et aadj+i-From TRk the image Low is produced For each point a ^ y of the image TR to calculate the point b i; j of the low frequency low image, bj, j takes the median value of a 2X j, j and aadj + i-
Balayage ColonneColumn Sweeping
A partir des deux images Bas on produit l'image TRBk Pour chaque point bj,2χj de l'image TR faireFrom the two images down we produce the image TRBk For each point bj, 2 χj of the image TR make
Calculer le point bbjj de l'image basse fréquence bas, bbj,j prend la valeur médiane de et bi,2xj+ι Les balayages ligne et colonne sont appliqués autant de fois qu'on le souhaite. Le nombre d'itérations dépend de la résolution des images de la vidéo. Pour des images de taille 512x512 ou peut fixer n à trois. L'image résultat TRBi est projetée dans plusieurs directions pour obtenir un ensemble de vecteurs Vk, k est l'angle de projectionCalculate the point bbjj of the low frequency low image, bbj, j takes the median value of and bi, 2xj + ι Line and column scans are applied as many times as desired. The number of iterations depends on the resolution of the images in the video. For images of size 512x512 or can set n to three. The result image TRBi is projected in several directions to obtain a set of vectors Vk, k is the projection angle
(l'élément j de VO, vecteur obtenu suite à la projection horizontale de l'image, est égal à la somme de tous les points de la ligne j de l'image).(the element j of VO, vector obtained following the horizontal projection of the image, is equal to the sum of all the points of the line j of the image).
Les vecteurs de directions de l'image TRBi sont comparés aux vecteurs de direction de TRBi-1 pour obtenir un score i qui mesure la similarité entre ces deux images. Ce score est obtenu par la moyenne de toutes les distances des vecteurs de même direction : pour chaque k on calcule la distance entre le vecteur Vk de l'image i et le vecteur Vk de l'image i-1 puis on calcule toutes ces distances. L'ensemble de tous les scores constitue le vecteur score VS : l'élément i de VS mesure la similarité entre l'image TRBi et l'image TRBi-1. Le vecteur VS est lissé afin d'éliminer les irrégularités du au bruit engendré lors la manipulation de la vidéo. On décrira ci-après un exemple de regroupement des images et d'extraction des images clés. Le vecteur VS est analysé afin de déterminer les images clés qui correspondent aux maximums des valeurs de VS. Une image d'indice j est considérée comme une image-clé si la valeur VS(j) est un maximum et si VSO) est situé entre deux minimums minG (minimum gauche) et minDThe direction vectors of the image TRBi are compared with the direction vectors of TRBi-1 to obtain a score i which measures the similarity between these two images. This score is obtained by averaging all the distances of the vectors of the same direction: for each k the distance between the vector Vk of the image i and the vector Vk of the image i-1 is calculated and all these distances are calculated. . The set of all the scores constitutes the score vector VS: the element i of VS measures the similarity between the image TRBi and the image TRBi-1. The vector VS is smoothed to eliminate irregularities due to the noise generated when handling the video. An example of grouping the images and extracting the keyframes will be described below. The VS vector is analyzed to determine the keyframes that correspond to the maximums of the VS values. An index image j is considered a keyframe if the value VS (j) is a maximum and if VSO) is located between two minimums minG (minimum left) and minD
(minimum droite) et si le minimum Ml tel que(minimum right) and if the minimum Ml such that
Ml = min ( | VS(Cj)-minG 1 , | VS(j)-min D | ) est supérieur à un seuil donné. Pour détecter les images-clés, on initialise minG avec VS(0) puis on parcourt le vecteur VS de la gauche vers la droite. A chaque étape, on détermine l'Indice j correspondant à la valeur maximale située entre deux minimums (minG et minD) puis en fonction du résultat de l'équation définissant Ml on décide de considérer j comme un indice d'une image-clé ou non. Il est possible de prendre un groupe de plusieurs images-clés voisines, par exemple des images-clés d'indices j-1, j et j+1. Trois cas se présentent si le minimum des deux pentes, définies par les deux minimums (minG et minD) et la valeur maximale, n'est pas supérieur au seuil : i) Si |VS(j) - minGI est inférieur au seuil et que minG ne correspond pas à VS(o), le maximum VS(j) est ignoré et minD devient minG, ii) Si |VS(j) - minGI est supérieur au seuil et si | VS(j)-minD | est inférieure au seuil, le minD et le maximum VS(j) sont conservés et minD est ignoré sauf si le plus proche maximum à droite de min D est supérieur à un seuil. Dans ce cas, on conserve aussi minD et on déclare j comme un indice d'une image-clé. Dans le cas où minD est ignoré, minD prendra la valeur la plus proche du minimum situé à droite de minD. iii) Si les deux pentes sont inférieures au seuil, minG est conservé et minD et j sont ignorés. Après sélection d'une image-clé, on itère le processus. A chaque itération minD devient minG. Si l'on se reporte à nouveau à la Figure 1; à partir d'une base de termes 3 comprenant P termes, on procède dans une étape 4 à un traitement des termes tj et à leur regroupement en concepts q (Figure 2) destinés à être stockés dans un dictionnaire de concepts 5. Il s'agit ici d'élaborer un ensemble de signatures caractérisant une classe de documents. Les signatures sont des descripteurs qui, par exemple dans le cas de l'image, représentent la couleur, la forme et la texture. Un document peut alors être caractérisé et représenté par les concepts du dictionnaire. Une empreinte d'un document peut alors être formée par les vecteurs signatures de chaque concept du dictionnaire 5. Le vecteur signature est constitué par les documents où le concept q est présent ainsi que par les positions et le poids de ce concept dans le document. Les termes tj extraits d'une base de documents 1 sont stockés dans une base de termes 3 et traités dans un module 4 d'extraction de concepts q qui sont eux-mêmes regroupés dans un dictionnaire de concepts 5. La Figure 2 illustre le processus de construction d'une base de concepts q (1< i < m) à partir de termes tj (l≤ j < n) présentant des scores de similarité wij. Le module de la production du dictionnaire de concepts reçoit en entrée l'ensemble P des termes de la base 3 et le nombre maximum N de concepts souhaité est fixé par l'utilisateur. Chaque concept q est prévu pour regrouper tous les termes voisins du point de vue de leurs caractéristiques. Pour produire le dictionnaire de concepts, on commence par calculer la matrice de distance r entre les termes de la base 3, cette matrice est utilisée pour créer une partition dont le cardinal est égal au nombre N de concepts souhaité. La création du dictionnaire de concepts s'effectue en deux phases : Décomposition de Pen Nparties P= P_ U P_ ... U /foMl = min (| VS (Cj) -minG 1, | VS (j) -min D |) is greater than a given threshold. To detect the keyframes, we initialize minG with VS (0) then we traverse the vector VS from left to right. At each step, the index j corresponding to the maximum value located between two minimums (minG and minD) is determined and then, depending on the result of the equation defining M1, it is decided to consider j as an index of a keyframe or no. It is possible to take a group of several neighboring keyframes, for example keyframes of indices j-1, j and j + 1. Three cases occur if the minimum of the two slopes, defined by the two minimums (minG and minD) and the maximum value, is not greater than the threshold: i) If | VS (j) - minGI is below the threshold and that minG does not correspond to VS (o), the maximum VS (j) is ignored and minD becomes minG, ii) If | VS (j) - minGI is greater than the threshold and if | VS (j) -minD | is below the threshold, the minD and the maximum VS (j) are kept and minD is ignored unless the closest maximum right of min D is greater than a threshold. In this case, we also keep minD and declare j as an index of a keyframe. In the case where minD is ignored, minD will take the value closest to the minimum located to the right of minD. iii) If both slopes are below the threshold, minG is retained and minD and j are ignored. After selecting a keyframe, iterates the process. At each iteration minD becomes minG. Referring back to Figure 1; from a base of terms 3 including P terms, we proceed in a step 4 to a treatment of the terms tj and their grouping in concepts q (Figure 2) to be stored in a dictionary of concepts 5. It s' is here to develop a set of signatures characterizing a class of documents. Signatures are descriptors that, for example in the case of the image, represent color, shape and texture. A document can then be characterized and represented by the concepts of the dictionary. A print of a document can then be formed by the signature vectors of each concept of the dictionary 5. The signature vector is constituted by the documents where the concept q is present as well as by the positions and the weight of this concept in the document. The terms tj extracted from a database 1 are stored in a database of terms 3 and processed in a module 4 for extracting concepts q which are themselves grouped in a dictionary of concepts 5. Figure 2 illustrates the process constructing a base of concepts q (1 <i <m) from terms tj (l≤ j <n) having similarity scores wij. The concept dictionary production module receives as input the set P of the terms of the database 3 and the desired maximum number N of concepts is set by the user. Each concept q is designed to group together all the neighboring terms from the point of view of their characteristics. To produce the dictionary of concepts, we start by calculating the distance matrix r between the terms of the base 3, this matrix is used to create a partition whose cardinal is equal to the desired number N of concepts. The creation of the dictionary of concepts is carried out in two phases: Decomposition of Pen Nparties P = P_ U P_ ... U / fo
Processus d'optimisation de la partition qui décompose Pen /^classes P= c U C_ ... U G/avec Λ/est inférieur ou égal à P. Le processus d'optimisation a pour but de réduire l'erreur de la répartition de P en N parties {P P_, ..., P/v} où chaque partie Pf est représentée par le terme t; qui sera pris comme concept, l'erreur commise est alors égale à l'expression suivante : ε = ∑εt , εt. = jd2(ti,tj) est Terreur commise lorsqu'on i=l tj≡Pi remplace les termes t de P, par t,-. On peut décomposer P en N parties de manière à répartir les termes de telle façon que les termes les plus éloignés se trouvent dans des parties distinctes et les termes proches se trouvent dans la même partie. On décrira d'abord l'étape 1 de décomposition de l'ensemble de termes P en deux parties Pi et P2 : (a) On détermine les deux termes les plus éloignés t/ et tj de P correspondant à la plus grande distance y de la matrice 77 (b) Pour chaque & de P, tk est affecté à Pi si la distance Dki est plus petite que la distance Dkj et à P2 sinon. On itère l'étape 1 jusqu'à l'obtention du nombre de parties souhaité et à chaque itération on applique les étapes (a) et (b) sur les termes de l'ensemble PI et de l'ensemble P2. On décrira maintenant une phase d'optimisation. Le processus d'optimisation a pour point de départ les N parties disjointes de P {Pi, P2, ..., PN} ainsi que les N termes {ti, t2, ..., tN} qui les représentent et il est utilisé afin de réduire Terreur de décomposition de P en {Pi, P2, ..., PN} parties. On commence par calculer les centres de gravités Ci des Pi. Ensuite on calcule Terreur εc, = ∑<22(t,,t,) qu'on compare à εc( et on remplace ti tjeP, par Ci si ε i est inférieur à εti . Puis, après avoir calculé la nouvelle matrice T et si la convergence n'est pas atteinte , on procède à une décomposition. La condition d'arrêt est définie par qui est de Tordre de 10"3- εct étant Terreur commise à l'instant t qui représente l'itération. On présente ci-dessous une matrice T de distances entre les termes, où Djj désigne la distance entre le terme tj et le terme tj.Optimization process of the partition which decomposes Pen / ^ classes P = c U C_ ... UG / with Λ / is less than or equal to P. The optimization process aims at reducing the error of the distribution of P in N parts {P P_, ..., P / v} where each part P f is represented by the term t; which will be taken as a concept, the error committed is then equal to the following expression: ε = Σε t , ε t . = j d 2 (t i , t j ) is Terror committed when i = l tj≡Pi replaces the terms t of P, by t, -. P can be broken down into N parts so that the terms are distributed in such a way that the farthest terms are in separate parts and the close terms are in the same part. We will first describe the step 1 of decomposition of the set of terms P into two parts Pi and P 2 : (a) We determine the two most distant terms t / and tj of P corresponding to the greatest distance y 77 (b) For each & of P, t k is assigned to Pi if the distance D ki is smaller than the distance D k j and to P 2 otherwise. Step 1 is iterated until the desired number of parts is obtained and at each iteration the steps (a) and (b) are applied to the terms of the set PI and the set P2. We will now describe an optimization phase. The starting point for the optimization process is the N disjoint parts of P {Pi, P 2 , ..., PN} as well as the N terms {ti, t 2 , ..., t N } which represent them and it is used to reduce the decomposition of P in {Pi, P 2 , ..., PN} parts. We begin by calculating the centers of gravities Ci of Pi. Then we calculate Terror εc, = Σ <2 2 (t ,, t,) that we compare with εc ( and we replace ti tjeP, by Ci if ε i is lower than to εt i. Then, after calculating the new matrix T and if convergence is not reached, one proceeds to decomposition. the stop condition is defined by that is the order of 10 "3- εc t being Terror committed at time t which represents the iteration.There is presented below a matrix T of distances between terms, where Djj denotes the distance between the term tj and the term t j .
La Figure 3 illustre, dans le cas de documents multimédias de contenus divers, un exemple de structuration du dictionnaire de concept 5. Afin de faciliter la navigation à l'intérieur du dictionnaire 5 et de déterminer rapidement lors d'une phase d'identification le concept le plus proche d'un terme donné, le dictionnaire 5 est analysé et une carte de navigation 9 à l'intérieur du dictionnaire est établie. La production de la carte de navigation 9 s'effectue de façon itérative. A chaque itération, on commence par scinder l'ensemble de concepts en deux sous-ensembles, puis à chaque itération on sélectionne un sous-ensemble jusqu'à l'obtention du nombre de groupes souhaité ou bien jusqu'à ce que le critère d'arrêt soit satisfait. Ce critère d'arrêt peut être par exemple que les sous-ensembles obtenus sont tous homogènes avec un écart-type faible par exemple. Le résultat final est un arbre binaire où les feuilles contiennent les concepts du dictionnaire et les nœuds de l'arbre contiennent les informations nécessaires à la scrutation de l'arbre lors de la phase d'identification d'un document. On décrira ci-dessous un exemple de module 6 de répartition d'un ensemble de concepts. L'ensemble de concepts C est représenté sous la forme d'une matrice M = [cl,c2,...,cN]e *N , avec c,. e SRp, où ci représente un concept de p valeurs. Différentes méthodes sont possibles pour assurer une répartition axiale. Dans ce cas, on commence par calculer le centre de gravité C ainsi que Taxe utilisé pour décomposer l'ensemble en deux sous- ensembles. Les étapes de traitement sont les suivantes : Etape 1 : on calcule un représentant de la matrice M tel que le centroïde w de la matrice M : (13) FIG. 3 illustrates, in the case of multimedia documents of various contents, an example of structuring of the concept dictionary 5. In order to facilitate the navigation inside the dictionary 5 and to determine rapidly during an identification phase the concept closest to a given term, the dictionary 5 is analyzed and a navigation map 9 inside the dictionary is established. The production of the navigation map 9 is done iteratively. At each iteration, we start by splitting the set of concepts into two subsets, then at each iteration we select a subset until we obtain the desired number of groups or until the criterion of stop is satisfied. This stopping criterion can be for example that the subsets obtained are all homogeneous with a low standard deviation for example. The final result is a binary tree where the sheets contain the concepts of the dictionary and the nodes of the tree contain the information needed to scan the tree during the identification phase of a document. An example of a module 6 for distributing a set of concepts will be described below. The set of concepts C is represented as a matrix M = [c l , c 2 , ..., c N ] e * N , with c ,. e SR p , where c i represents a concept of p values. Different methods are possible to ensure an axial distribution. In this case, we start by calculating the center of gravity C as well as the tax used to break the whole into two subsets. The processing steps are as follows: Step 1: calculate a representative of the matrix M such as the centroid w of the matrix M: (13)
Étape 2 : on calcule la matrice de covariance M entre les éléments de la matrice M et le représentant de la matrice M avec, dans le cas particulier ci-dessus M - M - we , où e = [l,l,l>»ι] (14)Step 2: calculate the covariance matrix M between the elements of the matrix M and the representative of the matrix M with, in the particular case above M - M - we, where e = [l, l, l > - » (14)
Étape 3 : on calcule un axe de projection des éléments de la matrice M, par exemple le vecteur propre U associé à la plus grande valeur propre de la matrice de covariance.Step 3: we compute a projection axis of the elements of the matrix M, for example the eigenvector U associated with the largest eigenvalue of the covariance matrix.
Étape 4: on calcule la valeur pi = uτ{ct -w) et on décompose l'ensemble de concepts C en deux sous-ensembles Cl et C2 de la manière suivante :Step 4: calculate the value pi = u τ (c t -w) and break the set of concepts C into two subsets C1 and C2 as follows:
Les informations stockées dans le nœud associé à C sont {u, w, |pl|, p2} avec pi est le maximum de tous les pi ≤ o et p2 est le minimum de tous les pi > 0.The information stored in the node associated with C is {u, w, | pl |, p2} where pi is the maximum of all pi ≤ o and p2 is the minimum of all pi> 0.
L'ensemble {u, w, |pl|, p2} constitue les indicateurs de navigation dans le dictionnaire de concept. En effet pour déterminer, lors de la phase d'identification par exemple, le concept le plus proche d'un terme ti, on calcule la valeur pti = uτ{t, -w) puis on sélectionne le nœud associé à Cl si et on sélectionne le nœud C2 si non. On itère le processus jusqu'à ce que Ton ait atteint une des feuilles de l'arbre. Un module détecteur de singularité 8 peut être associé au module 6 de répartition des concepts. Ce détecteur de singularité permet de sélectionner l'ensemble Ci à décomposer. Une des méthodes possibles consiste à sélectionner l'ensemble le moins compact. Les Figures 4 et 5 illustrent l'indexation d'un document ou d'une base de documents et la construction d'une base d'empreintes 10. La base d'empreintes 10 est constituée de l'ensemble des concepts représentant les termes des documents à protéger. A chaque concept Ci de la base d'empreintes 10 est associée une empreinte 11, 12, 13 constituée par un ensemble d'informations telles que le nombre de termes dans les documents où le concept est présent, et pour chacun de ces documents on enregistre une empreinte lia, 11b, lie comprenant l'indice du document qui renvoie à l'adresse du document, le nombre de termes, le nombre d'occurrences du concept (fréquence), le score, ainsi que les concepts qui lui sont voisins dans le document. Le score est une valeur moyenne des mesures de similarité entre le concept et les termes du document qui sont les plus proches du concept. L'indice d'un document donné qui renvoie à l'adresse de ce document est stocké dans une base 14 des adresses des documents protégés. Le processus 20 de génération des empreintes ou signatures de documents à indexer est illustré sur la Figure 5. Lors de l'enregistrement d'un document, on extrait les termes pertinents du document (étape 21) et on prend en compte le dictionnaire des concepts (étape 22). Chacun des termes tj du document est projeté dans l'espace du dictionnaire de concepts afin de déterminer le concept q représentant le terme tj (étape 23). On met ensuite à jour l'empreinte du concept q (étape 24). Cette mise à jour s'effectue selon que le concept a déjà été rencontré, c'est-à- dire est présent dans les documents qui sont déjà enregistrés ou non. Si le concept q n'est pas encore présent dans la base, on crée une nouvelle entrée dans la base (une entrée dans la base correspond à un objet dont les éléments sont des objets contenant la signature du concept dans les documents où ce concept est présent). On initialise l'entrée créée avec la signature du concept. La signature d'un concept dans un document est matérialisée principalement par les informations suivantes : Adresse du document, NbTermes, Fréquence, Concepts Voisins et score. Si le concept q existe dans la base, on ajoute à l'entrée associée au concept sa signature dans le document qui est composée de (Adresse du document, NbTermes, Fréquence, Concepts Voisins et score). Lorsque la base d'empreintes est construite (étape 25), on procède à l'enregistrement de la base d'empreintes (étape 26). La Figure 6 illustre un processus d'identification d'un document qui est implémenté sur une plate-forme 30 de recherche en ligne. L'identification d'un document a pour objectif de déterminer si un document posé comme question est la réutilisation d'un document de la base. Elle est basée sur la mesure de similarité entre documents. Le but est d'identifier les documents contenant des éléments protégés. La reprise peut être totale ou partielle. Dans ce dernier cas, élément copie a subi des modifications telles que : suppression de phrases dans un texte, suppression de motif dans une image, suppression de plan ou de séquence dans un document vidéo,... changement d'ordre des termes ou substitution de termes par d'autres termes dans un texte. Après présentation d'un document à identifier (étape 31), on procède à l'extraction des termes de ce document (étape 32). En liaison avec une base d'empreintes (étape 25), on met en correspondance les concepts calculés à partir des termes extraits de la question, avec les concepts de base (étape 33), afin d'établir une liste de documents ayant des contenus similaires aux contenus du document question. Le processus d'établissement de la liste est le suivant : On note p^ : le degré de ressemblance du document dj au document question, avec l < j ≤ N , N est le nombre de documents de la base de référence On initialise à zéro tous les pdj Pour chaque terme ti de la question fourni à l'étape 331 (Figure 7) on détermine le concept Ci qui le représente (étape 332). Pour chaque document dj où le concept est présent on met à jour son pdj de la manière suivante : pdj =pdj , plusieurs fonctions f peuvent être utilisées par exemple f(fréquence, score) = fréquence x score , fréquence désigne le nombre d'occurrences du concept Ci dans le document dj et score désigne la moyenne des scores de ressemblance des termes du document dj avec le concept Cj. On ordonne les pdj et on conserve ceux qui sont supérieurs à un seuil donné (étape 333). On procède ensuite à une confirmation et une validation des réponses (étape 34). Confirmation des réponses : la liste des réponses est filtrée afin de n'en garder que les réponses les plus pertinentes. Le filtrage utilisé est basé sur la corrélation entre les termes de la question et de chacune des réponses. Validation: elle permet de ne conserver que les réponses où il y a une grande certitude de reprise de contenu. Dans cette étape les réponses sont filtrées en tenant compte des propriétés algébriques et topologiques des concepts à l'intérieur d'un document : on exige que le voisinage dans le document question soit respecté dans les documents réponses, c'est à dire que deux concepts voisins dans le document question doivent être voisins dans le document réponse. On fournit alors la liste des documents réponses (étape 35). On considérera maintenant plus particulièrement le cas de documents multimédias contenant des images. On décrira en particulier pour la construction de la base d'empreintes qui servira d'outil pour l'identification d'un document, des procédés rapides et efficaces d'identification d'images qui tiennent compte de toutes les informations pertinentes contenues dans les images allant de la caracterisation des structures ou objets qui la composent, à celle des zones texturées et à la couleur de fond. Les objets de l'image sont identifiés par la production d'une table résumant différentes statistiques faites sur des informations des zones frontières des objets ainsi que des informations sur les voisinages de ces zones frontières. La caracterisation des zones texturées peut être effectuée à l'aide d'une description très fine à la fois spatiale et spectrale de la texture suivant trois caractéristiques fondamentales qui sont sa périodicité, son orientation globale et l'aspect aléatoire de son motif. La texture est ici assimilée à une réalisation de processus aléatoire bidimensionnel. La caracterisation de la couleur est un volet important de la méthode. Elle peut être utilisée comme un premier tri des réponses similaires basées sur la couleur, ou alors une dernière décision faite pour affiner la recherche. Dans le premier volet de la phase de construction d'empreintes, on prend en compte des informations classifiées sous forme de composants appartenant à deux grandes catégories : - les composants dits structurels qui décrivent la perception par l'œil d'un objet pouvant être isolé ou d'un ensemble d'objets disposé selon un arrangement spatial (images 81 et 82 des Figures 11 et 12), - les composants dits texturaux qui sont le complément des composants structurels et qui traduisent la régularité ou l'homogénéité des motifs de texture (images 82 et 83 des Figures 12 et 13). La Figure 11 montre ainsi une image 81 contenant des éléments structurels et ne présentant pas de motifs de texture. La Figure 12 montre une image 81 contenant des éléments structurels et un fond texture. La Figure 13 montre une image 83 sans éléments structurels mais entièrement texturée. Comme indiqué plus haut, lors de la phase de construction d'empreintes, chaque document de la base de documents est analysé afin d'en extraire les informations pertinentes. Ces informations seront ensuite répertoriées et analysées. Cette analyse se fait suivant un enchaînement de procédures qui se résume en trois étapes : - Extraction pour chaque document de caractéristiques prédéfinies et stockage de ces informations dans un vecteur appelé terme. - Regroupement dans un concept de tous les termes "voisins" du point de vue de leurs caractéristiques, ce qui permet de rendre la recherche plus concise. - Construction d'une empreinte qui caractérise ce document par un nombre réduit d'entités. Chaque document est ainsi associé à une empreinte qui lui est propre. La Figure 8 illustre le cas de l'indexation d'un document image 52 contenu dans une base d'images 51 préalablement enregistrée, pour caractériser cette image 52 par un nombre fini de paramètres pouvant être facilement stockés et manipulés ultérieurement. On procède à l'étape 53 à Textraction de termes du document à chercher qui sont stockés dans une mémoire tampon (étape 54). On opère à l'étape 55 une projection dans l'espace des termes de la base de références. A l'étape 56, on procède à une description vectorielle donnant les valeurs de pertinence des termes dans le document à chercher. L'étape 57 consiste en une répartition des termes dans N groupes 58 de concepts. L'étape 59 consiste en une projection dans l'espace des concepts de chaque groupe 58 pour obtenir N partitions 61. Enfin, une projection orthogonale 62 conduit à N ensembles 63 de descriptions vectorielles réduites. Lors d'une phase ultérieure de recherche, suite à une requête formulée par un utilisateur, par exemple Tidentification d'une image question, on recherche tous les documents multimédias similaires ou répondant à cette requête. Pour ce faire, comme indiqué plus haut, on calcule les termes du document question et on les compare aux concepts de la base afin de déduire le ou les documents de la base qui sont similaires au document question. On décrira ci-dessous de façon plus détaillée la phase de construction des termes d'une image. La phase de construction des termes d'une image met en œuvre utilement la caracterisation des supports structurels de l'image. Les supports structurels sont les éléments qui composent la scène de l'image. Les plus significatifs sont ceux qui délimitent les objets de la scène car ce sont eux qui caractérisent les différentes formes qui sont perçues lorsqu'on observe une quelconque image. Cette étape concerne Textraction de ces supports structurels. Elle consiste en un démantèlement des zones frontières des objets de l'image, qui sont caractérisées par des endroits entre deux zones où de fortes variations d'intensité sont observées. Ce démantèlement s'opère par un procédé qui consiste à répartir ces zones frontières parmi différentesThe set {u, w, | pl |, p2} constitutes the navigation indicators in the concept dictionary. Indeed to determine, during the identification phase for example, the concept closest to a term ti, we calculate the value pti = u τ {t, -w) and select the node associated with Cl if and select node C2 if not. The process is iterated until one of the leaves of the tree has been reached. A singularity detector module 8 may be associated with the module 6 for distributing the concepts. This singularity detector makes it possible to select the set Ci to be broken down. One of the possible methods is to select the least compact set. Figures 4 and 5 illustrate the indexing of a document or database and the construction of a fingerprint database 10. The fingerprint database 10 consists of the set of concepts representing the terms of the documents. documents to protect. Each concept Ci of the fingerprint base 10 is associated with a fingerprint 11, 12, 13 constituted by a set of information such as the number of terms in the documents where the concept is present, and for each of these documents, it is recorded an imprint 11a, 11b, 11c including the index of the document which refers to the address of the document, the number of terms, the number of occurrences of the concept (frequency), the score, as well as the concepts which are neighbors to it in the document. The score is an average value of similarity measures between the concept and the terms of the document that are closest to the concept. The index of a given document which refers to the address of this document is stored in a base 14 of the addresses of the protected documents. The process of generating fingerprints or signatures of documents to be indexed is illustrated in FIG. 5. When recording a document, the relevant terms of the document are extracted (step 21) and the dictionary of concepts is taken into account. (step 22). Each of the terms tj of the document is projected in the space of the dictionary of concepts to determine the concept q representing the term tj (step 23). We then update the footprint of the concept q (step 24). This update is carried out according to whether the concept has already been met, that is to say is present in documents that are already registered or not. If the concept q is not yet present in the database, we create a new entry in the database (an entry in the database corresponds to an object whose elements are objects containing the concept's signature in documents where this concept is present). We initialize the entry created with the signature of the concept. The signature of a concept in a document is materialized mainly by the following information: Address of the document, NbTermes, Frequency, Neighbors Concepts and score. If the concept q exists in the database, we add to the entry associated with the concept its signature in the document which is composed of (Document address, NbTerms, Frequency, Neighbors concepts and score). When the fingerprint base is constructed (step 25), the fingerprint database is recorded (step 26). Figure 6 illustrates a process of identifying a document that is implemented on an online search platform. The purpose of identifying a document is to determine whether a document posed as a question is the reuse of a document from the database. It is based on the measure of similarity between documents. The goal is to identify documents containing protected elements. The recovery can be total or partial. In the latter case, copy item has undergone modifications such as: deleting sentences in a text, deleting a pattern in an image, deleting a clip or sequence in a video document, ... changing the order of the terms or substituting terms in other words in a text. After presenting a document to be identified (step 31), the terms of this document are extracted (step 32). In connection with an impression database (step 25), the concepts calculated from the terms extracted from the question are mapped to the basic concepts (step 33) in order to establish a list of documents having contents. similar to the contents of the document question. The process of establishing the list is as follows: Note p ^: the degree of similarity of the document dj to the document question, with l <j ≤ N, N is the number of documents of the reference base One initializes to zero For each term ti of the question provided in step 331 (FIG. 7), the concept Ci representing it (step 332) is determined. For each document dj where the concept is present, we update its pdj in the following way: pdj = pdj , several functions f can be used for example f (frequency, score) = frequency x score, frequency means the number of occurrences of the concept Ci in the document dj and score is the average of the resemblance scores of the terms of the document dj with the concept Cj. The p dj are ordered and those higher than a given threshold are retained (step 333). The confirmation and validation of the responses is then carried out (step 34). Confirmation of answers: the list of answers is filtered in order to keep only the most relevant answers. The filtering used is based on the correlation between the terms of the question and each answer. Validation: it allows to keep only the answers where there is a great certainty of content recovery. In this step the answers are filtered taking into account the algebraic and topological properties of the concepts inside a document: it is required that the neighborhood in the document question be respected in the documents answers, that is to say that two concepts Neighbors in the question document must be neighbors in the response document. The list of response documents is then provided (step 35). We will now consider more particularly the case of multimedia documents containing images. In particular, for the construction of the fingerprint base, which will serve as a tool for the identification of a document, will be described quick and efficient image identification methods which take into account all the relevant information contained in the images. ranging from the characterization of the structures or objects that compose it, to that of the textured zones and to the background color. The objects of the image are identified by the production of a table summarizing different statistics made on information of the frontier zones of the objects as well as information on the neighborhoods of these border zones. The characterization of textured areas can be carried out using a very fine description of both the spatial and spectral texture according to three fundamental characteristics which are its periodicity, its global orientation and the randomness of its pattern. The texture is here assimilated to a realization of two-dimensional random process. The characterization of color is an important part of the method. It can be used as a first sort of similar answers based on color, or a last decision made to refine the search. In the first part of the fingerprinting phase, we take into account information classified as components belonging to two main categories: - the so-called structural components that describe the perception by the eye of an object that can be isolated or a set of objects arranged according to a spatial arrangement (images 81 and 82 of FIGS. 11 and 12), the so-called textural components which are the complement of the structural components and which reflect the regularity or the homogeneity of the texture patterns (Figures 82 and 83 of Figures 12 and 13). Figure 11 thus shows an image 81 containing structural elements and having no texture patterns. Figure 12 shows an image 81 containing structural elements and a textured background. Figure 13 shows an image 83 without structural elements but fully textured. As noted above, during the fingerprint construction phase, each document in the database is analyzed to extract relevant information. This information will then be listed and analyzed. This analysis is done following a series of procedures that can be summarized in three steps: - Extraction for each document of predefined characteristics and storage of this information in a vector called term. - Grouping in a concept of all the terms "neighbors" from the point of view of their characteristics, which makes the search more concise. - Construction of a footprint that characterizes this document by a small number of entities. Each document is thus associated with an imprint of its own. Figure 8 illustrates the case of indexing an image document 52 contained in a previously recorded image database 51, to characterize this image 52 by a finite number of parameters that can be easily stored and subsequently manipulated. Step 53 is used to extract terms from the document to be searched which are stored in a buffer (step 54). In step 55, a projection in the space of the terms of the reference database is carried out. In step 56, a vector description giving the values of relevance of the terms in the document to be searched is carried out. Step 57 consists of a distribution of the terms in N groups 58 of concepts. Step 59 consists of a space projection of the concepts of each group 58 to obtain N partitions 61. Finally, an orthogonal projection 62 leads to N sets 63 of reduced vector descriptions. During a subsequent search phase, following a request made by a user, for example the identification of a question image, all the multimedia documents that are similar or responding to this request are searched for. To do this, as mentioned above, we calculate the terms of the document question and compare them to the concepts of the database in order to deduce the document (s) from the database that are similar to the document question. The construction phase of the terms of an image will be described in more detail below. The phase of construction of the terms of an image usefully implements the characterization of the structural supports of the image. Structural supports are the elements that make up the scene of the image. The most significant are those that delimit the objects of the scene because they are the ones that characterize the different forms that are perceived when observing any image. This step concerns the extraction of these structural supports. It consists of a dismantling of the border zones of the image objects, which are characterized by places between two zones where strong variations of intensity are observed. This dismantling is carried out by a process which consists in dividing these border zones among different
« classes» selon l'orientation locale du gradient de l'image (orientation de la variation locale d'intensité). On obtient ainsi une multitude de petits éléments dénommés les « Eléments de Support structurels» (ESS)."Classes" according to the local orientation of the gradient of the image (orientation of the local variation of intensity). This results in a multitude of small elements called "Structural Support Elements" (ESS).
Chaque ESS appartenant effectivement à un contour d'une scène est caractérisé par une similarité au niveau de l'orientation locale de son gradient. Ceci est une première étape qui vise à répertorier tous les éléments de Support structurels de l'image. La démarche suivante s'opère désormais à partir de ces ESS, à savoir la construction de termes décrivant les propriétés locales et globales des ESS Sont considérées comme propriétés locales les informations extraites de chaque support. Deux types de supports peuvent être distingués : les éléments de droites rectilignes (EDR) et les éléments d'arcs de courbes (EAC). Les éléments de droites rectilignes EDR sont caractérisés par les propriétés locales qui sont.: - La dimension (longueur, largeur) • Direction principale (pente) » Propriétés statistiques des pixels constituant le support (valeur moyenne d'énergie, les moments) » Informations du voisinage ( Transformée de Fourier locale) Les éléments d'arcs de courbes EAC quant à eux sont caractérisés de la même façon que précédemment, en plus de la courbure des arcs. Les propriétés globales englobent les statistiques telles que le nombre de chaque type de supports et leurs dispositions spatiales (associations géométriques entre les supports : connexites, gauche, droite, milieux...). En résumé, pour une image donnée, les informations pertinentes extraites des objets la constituant sont regroupées sur le tableau 1. Each ESS actually belonging to a contour of a scene is characterized by a similarity in the local orientation of its gradient. This is a first step that aims to list all structural support elements of the image. The following approach is now taking place from these ESSs, namely the construction of terms describing the local and global properties of the ESSs. The information extracted from each medium is considered to be local properties. Two types of media can be distinguished: straight line elements (EDRs) and curve arcs (EACs). The elements of linear straight EDR are characterized by the local properties which are: - The dimension (length, width) • Main direction (slope) » Statistical properties of the pixels constituting the support (average value of energy, the moments)» Informations neighborhood (Local Fourier Transform) The EAC curve arcs elements are characterized in the same way as before, in addition to the curvature of the arcs. Global properties include statistics such as the number of each media type and their spatial arrangement (geometric associations between media: connexites, left, right, media ...). In summary, for a given image, the relevant information extracted from the constituent objects are grouped together in Table 1.
Tableau 1 Table 1
La phase de construction des termes d'une image met en œuvre également la caracterisation des informations texturales pertinentes de l'image. Les informations venant de la texture de l'image sont divisées selon trois aspects visuels de l'image : » l'aspect aléatoire (comme une image de sable fin, ou d'herbe) où aucun arrangement particulier ne peut être décelé, - l'aspect périodique (comme un pull en jacquard) où une répétition de motifs (pixel ou groupement de pixels) dominants est observée, • et enfin l'aspect directionnel où les motifs tendent globalement à s'orienter vers une ou des directions privilégiées. Ces informations sont obtenues en approchant l'image par des modèles ou représentations paramétriques. Chaque aspect est pris en compte par ses représentations spatiale et spectrale qui constituent les informations pertinentes de cette partie de l'image. La périodicité et l'orientation sont caractérisées par les supports spectraux tandis que l'aspect aléatoire se traduit par Testimation des paramètres d'un modèle autorégressif bidimensionnel. Une fois toutes les informations pertinentes extraites, on peut procéder à la structuration des termes des textures. The construction phase of the terms of an image also implements the characterization of the relevant textural information of the image. The information coming from the texture of the image is divided according to three visual aspects of the image: » the random aspect (as a picture of fine sand, or grass) where no particular arrangement can be detected, - l periodical appearance (like a jacquard sweater) where a pattern repetition (pixel or pixel grouping) is observed, and finally the directional aspect where the patterns generally tend to orient towards one or more preferred directions. This information is obtained by approaching the image by parametric models or representations. Each aspect is taken into account by its spatial and spectral representations which constitute the relevant information of this part of the image. The periodicity and orientation are characterized by the spectral supports whereas the random aspect is expressed by the estimation of the parameters of a two-dimensional autoregressive model. Once all relevant information extracted, we can proceed to the structuring of the terms of the textures.
Tableau 2 Table 2
La phase de construction des termes d'une image peut enfin mettre également en œuvre la caracterisation de la couleur de l'image. La couleur est souvent représentée par les histogrammes de couleur, ces derniers sont invariants à la rotation et robustes contre l'occlusion et les changements de points de vue de la caméra. La quantification des couleurs peut se faire dans l'espace RVB (Rouge, Vert, Bleu), TSV (Teinte Saturation Valeur), ou l'espace LUV mais la méthode d'indexation par les histogrammes de couleurs a prouvé ses limites car elle donne une information globale de l'image, et lors de l'indexation on peut trouver des images ayant le même histogramme de couleur, mais qui sont complètement différentes. Beaucoup d'auteurs proposent des histogrammes de couleurs en intégrant l'information spatiale. Ceci consiste par exemple à distinguer les pixels cohérents des pixels incohérents, un pixel est cohérent s'il appartient à une région assez large regroupant des pixels identiques,il est classé incohérent s'il fait partie d'une région de taille réduite. On décrira plus loin un procédé de caracterisation de la distribution spatiale des constituants de l'image (par exemple la couleur) qui est moins coûteux en temps de calcul que les méthodes citées ci dessus, et est robuste aux rotations et à la translation. Les différentes caractéristiques extraites des éléments de support structurels ainsi que les paramètres des composants périodique, directionnel et aléatoire du champ de texture ainsi que les paramètres de la distribution spatiale des constituants de l'image constituent les termes pouvant servir à la description du contenu d'un document. Ces termes sont regroupés dans des concepts afin de réduire les informations utiles d'un document. Les occurrences de ces concepts ainsi que leurs positions et leurs fréquences constituent ce qu'on appelle Y empreinte d'un document. Ces empreintes vont ensuite servir de trait d'union entre un document question et les documents d'une base, lors d'une phase de recherche de document. Une image ne contient pas forcément tous les éléments et les caractéristiques décrits plus haut. Par conséquent, identifier une image commence par la détection de la présence de ses éléments constituants. La Figure 9 montre un exemple d'organigramme d'un processus d'extraction des termes d'une image avec une première étape 71 de caracterisation des objets de l'image en supports structurels, qui peut le cas échéant être précédé d'un test de détection d'éléments structurels permettant d'omettre cette étape 71 dans les cas où les éléments structurels sont absents. L'étape 72 consiste en un test pour déterminer s'il existe un fond texture. Si c'est le cas, on passe à une étape 73 de caracterisation du fond texture en supports spectraux et paramètres autorégressifs AR, puis à une étape 74 de caracterisation de la couleur de fond. S'il n'existe pas de fond structuré, on passe directement de l'étape 72 à l'étape 74. Enfin, une étape 75 réside dans le stockage des termes et la construction d'empreintes. On reviendra maintenant de façon plus détaillée sur la caracterisation des éléments de support structurels d'une image. Le principe de base de cette caracterisation consiste en un démantèlement des zones frontières des objets de l'image en multitudes de petits éléments de base appelés éléments de supports significatifs (ESS) qui véhiculent les informations utiles des zones frontières qui sont composées de bandes linéaires de taille variable, ou des coudes de différentes courbures. Des statistiques faites sur ces objets seront alors analysées et utilisées pour construire les termes de ces supports structurels . Afin de décrire plus rigoureusement les principaux procédés composant cette approche, on notera une image numérisée par l'ensemble {y{i,j),{i, j) e lxJ}/ où /et Jsont respectivement le nombre de lignes et de colonnes de l'image. A partir des i mages gradient vertical {gv {i, j), (i, j)e lx J}et horizontal {gh(i,j),(i,j)e lχj} préalablement calculées, cette approche consiste à partitionner l'image selon l'orientation locale de son gradient en un nombre fini de classes équidistantes. L'image contenant l'orientation du gradient est définie par la formule :The phase of construction of the terms of an image can finally also implement the characterization of the color of the image. Color is often represented by color histograms, which are invariant to rotation and robust against occlusion and changes in camera views. Color quantization can be done in the RGB (Red, Green, Blue), HSV (Hue Saturation Value) space, or the LUV space, but the color histogram indexing method has proved its worth. limits because it gives a global information of the image, and when indexing can be found images having the same color histogram, but which are completely different. Many authors propose color histograms by integrating spatial information. This consists, for example, in distinguishing the coherent pixels from the incoherent pixels, a pixel is coherent if it belongs to a fairly wide region grouping identical pixels, it is classified as inconsistent if it is part of a region of reduced size. A method of characterizing the spatial distribution of the constituents of the image (for example the color) which is less costly in computation time than the methods mentioned above, and which is robust to rotations and to translation is described below. The various characteristics extracted from the structural support elements as well as the parameters of the periodic, directional and random components of the texture field as well as the parameters of the spatial distribution of the constituents of the image constitute the terms that can be used to describe the content of the image. a document. These terms are grouped into concepts to reduce the useful information of a document. The occurrences of these concepts as well as their positions and frequencies constitute what is called the footprint of a document. These fingerprints will then serve as a link between a question document and the documents of a database, during a document search phase. An image does not necessarily contain all the elements and characteristics described above. Therefore, identifying an image begins with detecting the presence of its constituent elements. FIG. 9 shows an exemplary flow chart of a process for extracting the terms of an image with a first step 71 of characterizing the image objects in structural supports, which may optionally be preceded by a test detection of structural elements to omit this step 71 in cases where the structural elements are absent. Step 72 consists of a test to determine if there is a texture background. If this is the case, we proceed to a step 73 of characterizing the texture background in spectral supports and autoregressive parameters AR, then to a step 74 of characterizing the background color. If there is no structured background, we go directly from step 72 to step 74. Finally, step 75 resides in terms storage and fingerprinting. We will now come back in more detail on the characterization of the structural support elements of an image. The basic principle of this characterization is the dismantling of the border areas of image objects into multitudes of small basic elements called significant media elements (ESSs) which convey useful information from the border areas which are composed of linear bands of variable size, or elbows of different curvatures. Statistics made on these objects will then be analyzed and used to construct the terms of these structural supports. In order to describe more rigorously the principal methods composing this approach, we will note an image digitized by the set {y {i, j), {i, j) e lxJ} / where / and J are respectively the number of rows and columns of the image. From the images vertical gradient {g v {i, j), (i, j) e lx J} and horizontal {g h (i, j), (i, j) e lχj} previously calculated, this approach consists of partitioning the image according to the local orientation of its gradient into a finite number of equidistant classes. The image containing the gradient orientation is defined by the formula:
(D La partition n'est autre qu'une subdivision angulaire du plan 2D (de(D The partition is no more than an angular subdivision of the 2D plane (of
0° à 360°) par un pas de discrétisation bien défini. Le fait d'utiliser l'orientation locale du gradient comme critère de décomposition des zones frontières permet un meilleur groupement des pixels faisant partie d'une même zone frontière. Afin de résoudre le problème des points frontières qui peuvent être partagés entre deux classes juxtaposées, une deuxième partition avec le même nombre de classes que précédemment, mais décalées de λ classe est utilisée. A partir des classes issues des deux partitions, une simple procédure consiste à choisir celles qui totalisent le plus grand nombre de pixels. En effet, chaque pixel appartient à deux classes chacune issue des deux partitions. Sachant que chaque pixel est un élément potentiel d'un éventuel ESS, il vote alors pour la classe qui contient le plus de pixels parmi les deux. Il s'agit d'une région où la probabilité de trouver un ESS de taille plus élevée est la plus forte possible. A la suite des votes, on retient uniquement les classes qui totalisent plus de 50% des suffrages. Ce sont les régions de support susceptibles de contenir les ESS A partir de ces régions de support, on détermine les ESS, on les répertorie selon certains critères qui peuvent être : • La longueur (on détermine pour cela un seuil lo et on comptabilise les £55" inférieurs et supérieurs à ce seuil) • L'intensité définie par la moyenne du module du gradient des pixels composant chaque ESS. ( un seuil noté lo est alors défini, on répertorie ceux qui sont inférieurs et supérieurs à ce seuil). • Le contraste défini par la différence entre le maximum et le minimum des pixels. A cette étape du procédé, tous les éléments dits structurels sont connus et répertoriés conformément aux types de supports structurels pré-identifiés. Ils peuvent être extraits de l'image d'origine pour laisser place à la caracterisation du champ de textures. A titre d'exemple, considérons l'image 81 de la Figure 11, reprise comme image 101 de la Figure 14a, les zones frontières sont illustrées sur l'image 102 de la Figure 14b. Les éléments de ces zones frontières sont ensuite démantelés et répartis selon l'orientation de leur gradient parmi différentes classes représentées par les images 103 à 106 des Figures 14c à 14f.. Ces différents éléments constituent les éléments de supports significatifs, et leurs analyses statistiques permettent de construire les termes du composant structurel. Dans le cas des Figures 14c à 14f, à titre d'exemple, l'image 103 correspond à une classe 0 (0° - 45°), l'image 104 correspond à une classe 1 (45° - 90°), l'image 105 correspond à une classe 2 (90° - 135°) et l'image 106 correspond à une classe 3 (135° - 180°). En l'absence d'éléments structurels, on suppose que l'image est texturée avec des motifs plus ou moins réguliers et on procède à une caracterisation du champ de la texture. Pour cela, on peut procéder à une décomposition de l'image en trois composantes qui sont : • Une composante texturale contenant les informations anarchiques ou aléatoires (comme une image de sable fin, ou d'herbe) où aucun arrangement particulier ne peut être décelé, • Une composante périodique (comme un pull en jacquard) où une répétition de motifs dominants est observée, • et enfin une composante directionnelle où les motifs tendent globalement vers une ou des directions privilégiées. L'objectif étant de caractériser parfaitement la texture de l'image à partir d'un ensemble de paramètres, ces trois composantes sont représentées par des modèles paramétriques. Ainsi, la texture de l'image 15 régulière et homogène notée y(i,j),{i, j)e lχj} est décomposée en trois composantes 16, 17, 18 comme illustré sur la Figure 10, conformément à la relation suivante :0 ° to 360 °) by a step of well-defined discretization. The fact of using the local orientation of the gradient as a decomposition criterion of the frontier zones allows a better grouping of the pixels forming part of the same border zone. In order to solve the problem of boundary points that can be shared between two juxtaposed classes, a second partition with the same number of classes as before, but shifted by λ class is used. From classes from both partitions, a simple procedure consists of choosing the ones that total the largest number of pixels. Indeed, each pixel belongs to two classes each resulting from the two partitions. Knowing that each pixel is a potential element of a possible ESS, it then votes for the class that contains the most pixels of the two. This is a region where the probability of finding a larger ESS is as high as possible. As a result of the votes, only the classes that total more than 50% of the votes are retained. These are the support regions likely to contain the ESSs. From these support regions, the ESSs are determined, they are listed according to certain criteria which may be: • The length (a threshold lo is determined for this and the 55 " below and above this threshold) • The intensity defined by the mean of the module of the gradient of the pixels composing each ESS (a threshold noted lo is then defined, we list those which are lower and higher than this threshold). The contrast defined by the difference between the maximum and the minimum of the pixels At this stage of the process, all the so-called structural elements are known and listed according to the types of pre-identified structural supports They can be extracted from the image of the image origin to make room for the characterization of the texture field, for example, consider the image 81 of Figure 11, taken as image 101 of Figure 14a, the border areas are illustrated in image 102 of Figure 14b. The elements of these frontier zones are then dismantled and distributed according to the orientation of their gradient among different classes represented by the images 103 to 106 of FIGS. 14c to 14f. These various elements constitute the significant support elements, and their statistical analyzes allow to build the terms of the structural component. In the case of Figures 14c to 14f, by way of example, the image 103 corresponds to a class 0 (0 ° - 45 °), the image 104 corresponds to a class 1 (45 ° - 90 °), l image 105 corresponds to a class 2 (90 ° - 135 °) and the image 106 corresponds to a class 3 (135 ° - 180 °). In the absence of structural elements, it is assumed that the image is textured with more or less regular patterns and a characterization of the field of texture is carried out. For this, we can proceed to a decomposition of the image into three components which are: • A textural component containing random or random information (like an image of fine sand, or grass) where no particular arrangement can be detected • A periodic component (such as a jacquard sweater) where a repetition of dominant patterns is observed, • and finally a directional component where the motifs generally tend towards one or more privileged directions. The objective being to perfectly characterize the texture of the image from a set of parameters, these three components are represented by parametric models. Thus, the texture of the regular and homogeneous image denoted y (i, j), (i, j) e lχj} is decomposed into three components 16, 17, 18 as illustrated in FIG. 10, in accordance with the following relation :
&{i, /')} = M.7»+ {h{ j)}+ {e(i, ) (16)& {i, / ' )} = M.7 + {h { j )} + { e (i,) (16)
Où {w(i,j)} est la composante purement aléatoire 16, {h(i,j)} est la composante harmonique 17 et {e{i,j)} la composante directionnelle 18.Where {w (i, j)} is the purely random component 16, {h (i, j)} is the harmonic component 17 and {e {i, j)} the directional component 18.
L'estimation des paramètres de ces trois composantes 16, 17, 18 termine cette étape d'extraction d'informations d'un document. Des méthodes d'estimation sont décrites dans les paragraphes suivants. On décrira d'abord un exemple de procédé de détection et caracterisation de la composante directionnelle de l'image. Il s'agit dans un premier temps d'appliquer un modèle paramétrique à la composante directionnelle{e(t, /)}. Elle est constituée d'une somme denombrable d'éléments directionnels où chacun est associé à un couple d'entiers (a,β) définissant une orientation d'angle θ tel que 0 = tan-1 ,#/<* . Autrement dit, e{i,j) est défini par e(i )= ∑e[a ){i,j) où chaque tβ)(i )The estimation of the parameters of these three components 16, 17, 18 completes this step of extracting information from a document. Estimation methods are described in the following paragraphs. An example of a method for detecting and characterizing the directional component of the image will first be described. First, we apply a parametric model to the directional component {e (t, /)}. It consists of a countable sum of directional elements where each is associated with a pair of integers (a, β) defining an orientation of angle θ such that 0 = tan -1 , # / <*. In other words, e {i, j) is defined by e (i) = Σe [a) {i, j) where each tβ) (i)
est défini par : + tfβ (ia - jβ)x sm{2π-^ iβ + ja))] ou • /M? est le nombre d'éléments directionnels associés à (a,β), • vk est la fréquence du keme élément, • {sk (i - jβ)} et {tk (i - jβ)} sont les amplitudes. La composante directionnelle {e(i, j)} est ainsi parfaitement définie par la connaissance des paramètres contenus dans le vecteur Fsuivant : Pour estimer ces paramètres, on utilise le fait que la composante directionnelle d'une image est représentée dans le domaine spectral par un ensemble de droites de pentes orthogonales à celles définies par les couples d'entiers (altβ,) du modèle qui seront notés ( ^β,)1. Ces droites peuvent être décomposées en un sous ensemble de droites de même pente associé chacun à un élément directionnel. A titre d'illustration, les Figures 15a et 15b montrent des images 84,is defined by: + tf β (ia - jβ) x sm {2π- ^ iβ + ja))] or • / M? is the number of directional elements associated with (a, β), • v k is the frequency of the k th element, • {s k (i - jβ)} and {t k (i - jβ)} are the amplitudes. The directional component {e (i, j)} is thus perfectly defined by the knowledge of the parameters contained in the Fsuivant vector: To estimate these parameters, we use the fact that the directional component of an image is represented in the spectral domain by a set of straight lines with orthogonal slopes to those defined by the pairs of integers (a lt β,) of the model that will be noted (^ β,) 1 . These lines can be decomposed into a subset of lines of the same slope each associated with a directional element. By way of illustration, Figures 15a and 15b show images 84,
86 contenant un élément directionnel et la Figure 15c montre une image86 containing a directional element and Figure 15c shows an image
88 contenant deux éléments directionnels. La figure 15al montre une vue 85 en trois dimensions du spectre de l'image 84 de la Figure 15a. Les Figures 15bl et 15cl montrent des images module de Fourier88 containing two directional elements. Figure 15al shows a three-dimensional view of the spectrum of image 84 of Figure 15a. Figures 15bl and 15cl show images Fourier module
87, 89 respectivement des images 86 et 85 des Figures 15b et 15c.87, 89 respectively of images 86 and 85 of Figures 15b and 15c.
Pour calculer les éléments du vecteur E, on peut adopter une approche fondée sur la projection de l'image suivant différentes directions. Le procédé consiste dans un premier temps à s'assurer de la présence de la composante directionnelle avant d'estimer ses paramètres. La détection de la composante directionnelle de l'image est basée sur la connaissance des propriétés spectrales de celle-ci. Si on assimile le spectre de l'image à une image 3D (X,Y, Z), où (X,Y) représentent les coordonnées des pixels et Z l'amplitude, les droites qu'on cherche à détecter sont représentées par un ensemble de pics concentrés le long de droites dont les pentes sont définies par les couples ( ^β^ recherchésTo calculate the elements of the vector E, we can adopt an approach based on the projection of the image along different directions. The method consists first of all in ensuring the presence of the directional component before estimating its parameters. The detection of the directional component of the image is based on the knowledge of the spectral properties thereof. If we assimilate the spectrum of the image to a 3D image (X, Y, Z), where (X, Y) represent the coordinates of the pixels and Z the amplitude, the lines we want to detect are represented by a set of concentrated peaks along straight whose slopes are defined by the pairs (^ β ^ sought
(cf. figure 15al). Pour déterminer la présence de ces droites, il suffit de comptabiliser les pics prédominants. Le nombre de ces pics renseigne sur la présence ou non de supports directionnels ou harmoniques. On décrira maintenant un exemple de procédé de caracterisation de la composante directionnelle. Pour cela, on procède au calcul des couples de direction (αr„β) et à la détermination du nombre d'éléments directionnels. On effectue d'abord le calcul de la transformée de Fourier Discrète (TFD) de l'image suivi d'une estimation des droites de pente rationnelle observées dans l'image transformée Ψ(i,j). Pour cela, on définit un ensemble de projections qui discrétise le domaine fréquentiel en différents angles de projection θk, k fini. Cet ensemble de projection peut être obtenu de différentes manières. On peut par exemple chercher tous couples d'entiers premiers entre eux (akk)(see Figure 15al). To determine the presence of these lines, it suffices to count the predominant peaks. The number of these peaks provides information on the presence or absence of directional or harmonic supports. An example of a process for characterizing the directional component will now be described. For that, one proceeds to the calculation of the couples of direction (αr "β) and the determination of the number of directional elements. The calculation of the Discrete Fourier Transform (DFT) of the image is first performed followed by an estimation of the rational slope lines observed in the transformed image Ψ (i, j). For this, we define a set of projections that discretizes the frequency domain at different projection angles θ k , k finite. This projection assembly can be obtained in different ways. One can for example look for all pairs of prime integers between them (a k , β k )
définissant un angle θk, tel que θk = tan~* que 0 ≤ akk ≤ r permet de contrôler le nombre de projections. Les propriétés de symétrie peuvent ensuite être utilisées pour obtenir tous les couples jusqu'à 2π . Ces couples sont illustrés sur la Figure 16 pour 0 ≤ akk ≤ 3.defining an angle θ k , such that θ k = tan ~ * that 0 ≤ a k , β k ≤ r makes it possible to control the number of projections. The symmetry properties can then be used to obtain all the couples up to 2π. These pairs are illustrated in Figure 16 for 0 ≤ a k , β k ≤ 3.
Des projections du module de . la TFD de l'image sont effectuées suivant les θk . Chaque projection engendre un vecteur de dimension 1, v {ak,βk)ι n°té Vk pour simplifier la notation, qui contient les informations directionnelles recherchées. Chaque projection l^est donnée par la formule : Vk(n) = ∑ψ(i + τβk,j + τak), 0 < i + τβk < I-l,0 < j + τak < J-l (19) avec n = -i *βk +j*ak et 0 ≤ \n\ < Nk etNk - \ak\(T -l) + \βk\(L -l)+l , où T*L est la taille de l'image. Ψ( ,y) est le module de transformée de Fourier de l'image à caractériser. On sélectionne pour chaque V les éléments de fortes énergies ainsi que leurs positions spatiales. Ces éléments de forte énergie sont ceux qui présentent une valeur maximale par rapport à un seuil calculé selon la taille de l'image. A cette étape de calcul, le nombre de droites est connu. On en déduit le nombre de composantes directionnelles Ne en utilisant les propriétés spectrales simples de la composante directionnelle d'une image texturée. Ces propriétés sont : 1. Les droites observées dans le domaine spectral d'une composante directionnelle sont symétriques par rapport à l'origine. On peut par conséquent réduire le domaine d'investigation sur une moitié seulement du domaine considéré. 2. Les maxima retenus dans le vecteur sont candidats à représenter des droites appartenant à des éléments directionnels. A partir de la connaissance des positions respectives des droites sur le module de transformée de Fourier discrète TFD, on en déduit le nombre exact d'éléments directionnels. La position du maximum droite correspond à l'argument du maximum du vecteur Vk, les autres droites du même élément sont situées tous les min{L,T}. Le mécanisme de projection est illustré sur la Figure 17 pour (αkk) = (2, -1). Après traitement des vecteurs Vk et production des couples de direction (âkk) on obtient les nombres de droites associés à chaque couple. Ainsi on peut compter le nombre total d'éléments directionnels en utilisant les deux propriétés sus-mentionnées et on identifie les couples d'entiers (âkk) associés à ces composantes qui sont les directions orthogonales à celles qui ont été retenues. Pour tous ces couples Testimation des fréquences de chaque élément détecté est immédiate. En effet, si Ton considère uniquement les points de l'image d'origine le long de la droite d'équation iâk - jβk = c, c est la position du maximum dans Vk, et ces points constituent un signal monodimensionnel (1-D) harmonique d'amplitude constante et qui a pour fréquence v( (aΛ . Il suffit alors d'estimer la fréquence de ce signal 1-D par un procédé classique (localisation de la valeur maximale sur la TFD 1-D de ce nouveau signal). En résumé, on peut mettre en œuvre le procédé comportant les étapes suivantes : On détermine le maximum de chaque projection. Les maximums sont filtrés afin de ne garder que ceux supérieurs à un seuil.Projections of the module. the DFT of the image are carried out according to the θ k . Each projection generates a vector of dimension 1, v {ak, βk) ι No side Vk to simplify the notation, which contains directional information sought. Each projection ^ l is given by the formula: V k (n) = Σψ (i + τβ k, j + τa k), 0 <i + τβ k <II, 0 <j + τa k <Jl (19) with n = -i * β k + j * a k and 0 ≤ \ n \ <N k and N k - \ a k \ (T-1) + \ β k \ (L-1) + 1, where T * L is the size of the image. Ψ (, y) is the Fourier transform module of the image to be characterized. For each V, the elements of strong energies and their spatial positions are selected. These elements of high energy are those which have a maximum value with respect to a threshold calculated according to the size of the image. At this calculation step, the number of lines is known. The number of directional components Ne is deduced by using the simple spectral properties of the directional component of a textured image. These properties are: 1. The lines observed in the spectral domain of a directional component are symmetrical with respect to the origin. The field of investigation can therefore be reduced to only one half of the domain under consideration. 2. The maxima retained in the vector are candidates to represent lines belonging to directional elements. From the knowledge of the respective positions of the lines on the discrete Fourier transform module TFD, we deduce the exact number of directional elements. The position of the maximum right corresponds to the argument of the maximum of the vector V k , the other lines of the same element are located every min {L, T}. The projection mechanism is shown in Figure 17 for (α kk ) = (2, -1). After treatment of the vectors V k and production of the direction pairs ( k k , β k ), we obtain the numbers of lines associated with each pair. Thus we can count the total number of directional elements using the two above-mentioned properties and we identify the pairs of integers ( k k , β k ) associated with these components which are the directions orthogonal to those which have been retained. For all these couples Testimation of the frequencies of each detected element is immediate. Indeed, if one considers only the original image points along the line of equation iâ k - jβ k = c, c is the position of the maximum in Vk, and these points are a one-dimensional signal (1 -D) harmonic of constant amplitude and whose frequency is v ( (aΛ .) Then it is enough to estimate the frequency of this 1-D signal by a conventional method (localization of the maximum value on the DFT 1-D of this In summary, it is possible to implement the method comprising the following steps: The maximum of each projection is determined The maximums are filtered in order to keep only those higher than a threshold.
• Pour chaque maximum m,, correspondant à un couple ' on détermine le nombre de droites associées à ce couple d'après les propriétés décrites plus haut. - on calcule la fréquence associée à correspond à l'intersection de la droite maximale (correspondant au maximum de la projection retenue) avec Taxe horizontal.• For each maximum m ,, corresponding to a couple the number of lines associated with this pair is determined from the properties described above. - the frequency associated with corresponds to the intersection of the maximum line (corresponding to the maximum of the selected projection) with the horizontal line.
On décrira maintenant le calcul des amplitudes {sk {a,β)(t)} et {^-(t)} qui sont les autres paramètres contenus dans le vecteur E mentionné plus haut. Connaissant la direction (âkk) et la fréquence Vk, on peut déterminer les amplitudes sk { ,β)(c) et t^a'β)(c) , pour c vérifiant la formule iâk -jβk = c, en utilisant un procédé de démodulation. En effet, sk { 'β)(c) est égal à la moyenne des pixels le long de la droite d'équation iâk -jβk = c de la nouvelle image obtenue en multipliant y(i,j) par + Jâk) Ceci est traduit par l'équation -»(<:) s ( k +Jâk) (20) où Ns n'est autre que le nombre d'éléments de ce nouveau signal. De la même manière, on obtient t^'β)(c) en appliquant l'équationWe will now describe the computation of the amplitudes {s k {a, β) (t)} and {^ - (t)} which are the other parameters contained in the vector E mentioned above. Knowing the direction (â k , β k ) and the frequency V k , we can determine the amplitudes s k {, β) (c) and t ^ a ' β) (c), for c satisfying the formula iâ k -jβ k = c, using a demodulation method. Indeed, s k { ' β) (c) is equal to the average of the pixels along the equation line iâ k -jβ k = c of the new image obtained by multiplying y (i, j) by + Jâ k ) This is translated by the equation - »(<:) s ( k + Jâ k ) (20) where N s is nothing other than the number of elements of this new signal. In the same way, we obtain t ^ ' β) (c) by applying the equation
Le procédé décrit ci-dessus peut être résumé par les étapes suivantes :The process described above can be summarized by the following steps:
Pour tout élément directionnel ψkk) faire Pour toute droite (d) calculer 1. la moyenne des points (i,j) pondérée par le +jâk) Cette moyenne correspond à Testimation du l'amplitude 2. la moyenne des points (i,j) pondérée par le ( Λ sm v kM (iβk +jâk) . Cette moyenne correspond à A +A Testimation du l'amplitude tjf'β)(d)For any directional element ψ k , β k ) do For any line (d) calculate 1. the average of the points (i, j) weighted by the + jâ k ) This average corresponds to Testimation of the amplitude 2. the mean of the points (i, j) weighted by the (Λ sm v k M (iβ k + jâ k ) This average corresponds to A + A Testimation of the amplitude tjf ' β) (d)
Le tableau 3 ci-dessous récapitule les étapes principales du procédé de projection. Etape 1. Calculer l'ensemble de couples de projection (akk)e Pr Table 3 below summarizes the main steps of the projection process. Step 1. Calculate the set of projection pairs (a k , β k ) e P r
Etape 2. Calculer le module de la TFD de l'image y(i,j) : Step 2. Calculate the module of the DFT of the image y (i, j):
Etape 3-Pour tout (akk)e Pr, calculer le vecteur Vk : la projection de ψ(ω,v) suivant (akk) d'après la formule ( 19)Step 3-For all (a k , β k ) e P r , calculate the vector V k : the projection of ψ (ω, v) following (a k , β k ) according to the formula (19)
Etape 4- Détection de droites : Pour tout (akk)e Pr, • déterminer : Mk ≈maxJF* (/')}, j • calculer nk.-, le nombre de pixels de valeurs significatives rencontrés le long de la projection • sauvegarder nk e ja∞ l'indice du maximum dans Vk. • sélectionner les directions qui justifient le critère , - > se nk où se est un seuil à définir, dépendant de la taille de l'image,Step 4- Straight line detection: For all (a k , β k ) e P r , • determine: M k ≈maxJF * (/ ' )}, j • calculate n k .-, the number of pixels of significant values encountered along the projection save • n k ej A∞ the index of the maximum in V k. • select the directions that justify the criterion, -> s e n k where s e is a threshold to be defined, depending on the size of the image,
Les directions retenues sont considérées comme celles de droites recherchées.The directions selected are considered as straight lines.
Etape 5- Sauvegarder les couples recherchés qui sont les orthogonaux des couples (akk) retenus dans l'étape 4.Step 5- Save the couples are the orthogonal pairs (a k , β k ) retained in step 4.
Tableau 3Table 3
On décrira ci-dessous la détection et la caracterisation des informations texturales périodiques d'une image, qui sont contenues dans la composante harmonique{/z(t, y)}. Cette composante peut être représentée par une somme finie de sinusoïdes 2-D : j) = ∑C PsP + jvp)+Dp sin 2π(iωp + jvp), (22) p=\ OU • cp et DP sont les amplitudes. • (ωp,vp) est la /j6" fréquence spatiale.The detection and characterization of periodic textural information of an image contained in the harmonic component {/ z (t, y)} will be described below. This component can be represented by a finite sum of sinusoids 2-D: j) = Σ C PsP + jv p ) + D p sin 2π (iω p + jv p ), (22) p = \ OR • c p and D P are the amplitudes. • (ω p, v p) is the / d 6 "spatial frequency.
On a représenté sur la Figure 18al une image 91 contenant des composantes périodiques et, sur la Figure 18bl, une image synthétique contenant une composante périodique. La Figure 18a2 représente une image 92 qui est une image module de la TFD présentant un ensemble de pics. La Figure 18b2 représente une vue 3D, 94, de la TFD qui montre la présence d'une paire de pics symétriques 95, 96. Sur le domaine spectral, la composante harmonique apparaît ainsi comme des paires de pics isolés symétriques par rapport à l'origine (cf. Figure 18 (a2)-(b2)). Cette composante est le reflet de l'existence de périodicités dans l'image. Les informations que Ton cherche à déterminer sont les éléments du vecteur : FIG. 18al shows an image 91 containing periodic components and, in FIG. 18b, a synthetic image containing a periodic component. Figure 18a2 shows an image 92 which is a module image of the DFT having a set of peaks. Figure 18b2 shows a 3D view, 94, of the DFT which shows the presence of a pair of symmetric peaks 95, 96. On the spectral domain, the harmonic component thus appears as pairs of isolated peaks symmetrical with respect to the origin (see Figure 18 (a2) - (b2)). This component is a reflection of the existence of periodicities in the image. The information that one seeks to determine are the elements of the vector:
Pour cela on commence par détecter la présence de cette composante périodique dans l'image module de Fourier et on estime ensuite ses paramètres. La détection de la composante périodique consiste à déterminer la présence de pics isolés sur l'image module de la TFD. On opère de la même manière que dans le cas de la détermination de la composante directionnelle. D'après le procédé décrit dans le tableau 1, si la valeur nk obtenue dans la phase 4 du procédé décrit dans le tableau 1 est inférieure à un seuil, alors on est en présence de pics isolés qui caractérisent la présence de composante harmonique plutôt que de pics formant une droite continue. La caracterisation de la composante périodique revient à localiser les pics isolés sur l'image module de la TFD. Ces fréquences spatiales (ώp,vp) correspondent à la position de ces pics (ώ ,vp)= arg max ψ(ω,v) (24) (ω,v) Pour le calcul des amplitudes (cp,Dp), on utilise un procédé de démodulation comme pour estimer les amplitudes de la composante directionnelle. Pour chaque élément périodique de fréquence (ώp,vp), l'amplitude correspondante est identique à la moyenne des pixels de la nouvelle image obtenue en multipliant l'image _y{i,j)} par œs(iώp +jvp). Ceci est traduit par les formules suivantes : . . p y(n,m)cos(nώp + mvp ) . (25) For this, we first detect the presence of this periodic component in the Fourier module image and then estimate its parameters. The detection of the periodic component consists in determining the presence of isolated peaks on the module image of the DFT. One operates in the same way as in the case of the determination of the directional component. According to the method described in Table 1, if the value n k obtained in phase 4 of the method described in Table 1 is below a threshold, then we are in the presence of isolated peaks which characterize the presence of harmonic component rather only peaks forming a straight line. The characterization of the periodic component amounts to locating the isolated peaks on the module image of the DFT. These spatial frequencies (ώ p , v p ) correspond to the position of these peaks (ώ, v p ) = arg max ψ (ω, v) (24) (ω, v) For the calculation of the amplitudes (c p , D p ), a demodulation method is used to estimate the amplitudes of the directional component. For each periodic frequency element (ώ p , v p ), the corresponding amplitude is identical to the average of the pixels of the new image obtained by multiplying the image _y {i, j)} by œs (iώ p + jv p ). This is expressed by the following formulas:. . p y (n, m) cos (nώ p + mv p ). (25)
Dp = ——∑∑y(n,m)cos(nώp + mvp ) (26)D p = --ΣΣy (n, m) cos (nώ p + mv p ) (26)
En résumé, un procédé d'estimation de la composante périodique comprend les étapes suivantes :In summary, a method of estimating the periodic component comprises the following steps:
Etape l. Localiser les pics isolés dans la deuxième moitié de l'image module de Fourier et compter leur nombreStep l. Locate the isolated peaks in the second half of the Fourier module image and count their number
Etape 2. Pour tout pic détecté :Step 2. For any detected peak:
" Calculer sa fréquence à l'aide de la formule (24)"Calculate its frequency using formula (24)
- Calculer son amplitude à l'aide de la formule (25 26)- Calculate its amplitude using the formula (25 26)
Les dernières informations à extraire sont contenues dans la composante purement aléatoire {w(i,j)}. Cette composante peut être représentée par un modèle autorégressif 2-D de support demi-plan non symétrique (DPNS) fini défini par l'équation aux différences suivante: J') = - ∑akJw(i-k,j-l)+u{î ) (27) {k,l)εSNM où „l ,v sont les paramètres à déterminer pour tout (k,l) appartenant à sNM ={(*,/)/ k≈o, ι≤ι≤M}u{(k,ήn ≤ k ≤ N, -M ≤ I ≤M}. Le couple (N,M) s'appelle Tordre du modèle. • {«(*>./)} est un bruit blanc gaussien de variance finie σ\ . Les paramètres du modèle sont donnés par : Les méthodes d'estimation des éléments de W sont nombreuses comme par exemple l'algorithme de Levinson 2D ou alors les méthodes adaptatives du type moindres carrés (MCR). On décrira maintenant un procédé de caracterisation de la couleur d'une image dont on veut extraire des termes t, représentant des caractéristiques iconiques de cette image, la couleur étant un exemple particulier de ces caractéristiques qui peuvent comprendre d'autres caractéristiques telles que les moments algébriques ou géométriques, les propriétés statistiques, les propriétés spectrales des moments de pseudo- Zernicke. La méthode est fondée sur la caracterisation perceptuelle de la couleur. En premier lieu on effectue une transformation des composantes de la couleur de l'image de l'espace RVB (Rouge, Vert, Bleu) encore dénommé RGB, vers l'espace TSV (Teinte Saturation Valeur) encore dénommé HSV. On obtient ainsi trois composantes : Teinte, Saturation, Valeur. A partir de ces trois composantes on détermine N couleurs ou composantes iconiques de l'image. Chaque composante iconique Ci est représentée par un vecteur de M valeurs . Ces valeurs représentent la distribution angulaire et annulaire des points représentant chaque composante ainsi que le nombre de points de la composante en question. La méthode développée est illustrée par la Figure 19 avec à titre d'exemple N =16 et M= 17 . Dans une première étape principale 110, à partir d'une image 11 de Tespace RGB, on procède à une transformation de l'image 111 de Tespace (R,G,B) à Tespace HSV (étape 112) pour obtenir une image dans Tespace HSV. Le modèle HSV peut être défini de la façon suivante.The latest information to be extracted is contained in the purely random component {w (i, j)}. This component can be represented by a 2-D semi-planar non-symmetric (DPNS) support autoregressive model defined by the following difference equation: J ' ) = - Σa kJ w (ik, jl) + u {1) (27) {k, l) εS NM where "l, v are the parameters to be determined for all (k, l) belonging to s NM = {(*, /) / k≈o, ι≤ι≤M} u {(k , ήn ≤ k ≤ N, -M ≤ I ≤M} The pair (N, M) is called the order of the model • {«(* > ./)} is a Gaussian white noise of finite variance σ \. The parameters of the model are given by: The methods for estimating the elements of W are numerous, for example the 2D Levinson algorithm or the least-squares adaptive methods (MCR). We will now describe a method for characterizing the color of an image from which it is desired to extract terms t, representing iconic characteristics of this image, the color being a particular example of these characteristics which may include other characteristics such as the moments algebraic or geometric, the statistical properties, the spectral properties of the pseudo-Zernicke moments. The method is based on the perceptual characterization of color. Firstly, a transformation of the color components of the image of the RGB space (Red, Green, Blue) still called RGB, to the space HSV (Hue Saturation Value) also called HSV. We thus obtain three components: Hue, Saturation, Value. From these three components we determine N colors or iconic components of the image. Each iconic component Ci is represented by a vector of M values. These values represent the angular and annular distribution of the points representing each component as well as the number of points of the component in question. The method developed is illustrated in FIG. 19 with, for example, N = 16 and M = 17. In a first main step 110, from an image 11 of the RGB space, the image 111 of the space (R, G, B) is transformed to the HSV space (step 112) to obtain an image in the space HSV. The HSV model can be defined as follows.
Teinte (H) : varie de [0 360] , et chaque angle représente une teinte. Saturation (S) : varie de [0 1], elle mesure la pureté des couleurs, et permet de distinguer les couleurs "vives", "pastels", ou "délavées ". Valeur (V) : Elle prend des valeurs de [0 1], elle indique si une couleur est claire ou sombre et dans quelle mesure elle se rapproche du blanc ou du noir. Le modèle HSV est une transformation non linéaire du modèle de Tespace (R,G,B) .L'œil humain peut distinguer 128 teintes ,130 saturations , et 23 ombres . Pour le Blanc V-\ et 5=0 , le noir a une valeur V≈. tandis que la teinte Het la saturation S sont indéterminées. Lorsque V=l et 5=1 on a une couleur pure. Chaque couleur est obtenue en rajoutant du blanc ou du noir à la couleur pure. Pour avoir des couleurs plus claires on réduit 5 et on garde et V, par contre, pour des couleurs foncées on rajoute du noir en réduisant V t on garde H t S. Le passage de l'image couleur exprimée dans les coordonnées (R,G,B) en une image exprimée dans l space (H,S, V) (Teinte, Saturation, Valeur) s'effectue de la façon suivante : Pour tout point de coordonnée (i,j) et de valeur (R ,Bk,G ) on produit un point de coordonnées (i,j) et valeur (Hk,Sk,Vk) avec :Tint (H): varies from [0 360], and each angle represents a hue. Saturation (S): varies from [0 1], it measures the purity of the colors, and makes it possible to distinguish the colors "bright", "pastels", or "faded". Value (V): It takes values of [0 1], it indicates whether a color is light or dark and how close it is to white or black. The HSV model is a non-linear transformation of the Tespace model (R, G, B). The human eye can distinguish 128 shades, 130 saturations, and 23 shadows. For White V- \ and 5 = 0, black has a value V≈. while the hint H and the saturation S are indeterminate. When V = 1 and 5 = 1 we have a pure color. Each color is obtained by adding white or black to the pure color. To obtain lighter colors we reduce 5 and keep and V, on the other hand, for dark colors we add black by reducing V t we keep H t S. The passage of the color image expressed in the coordinates (R, G, B) in an image expressed in the space (H, S, V) (Hue, Saturation, Value) is carried out as follows: For every point of coordinate (i, j) and value (R, B k , G) we produce a coordinate point (i, j) and value (H k , S k , V k ) with:
Vk = mâχ(Rk,Bk,Gk)V k = M χ (R k, B k, G k)
On procède ensuite à une partition de l'espace HSV (étape 113).The HSV space is then partitioned (step 113).
A partir des valeurs de Teinte, Saturation, Valeur , on a défini N couleurs. Dans le cas où N est égal à 16, on a : Noir, Blanc, Gris clair, Gris foncé,From the values of Hue, Saturation, Value, N colors have been defined. In the case where N is equal to 16, we have: Black, White, Light Gray, Dark Gray,
Gris moyen, Rouge, Rose, Orange, Marron, Olive, Jaune, Vert, Bleu Ciel ,Medium Gray, Red, Pink, Orange, Brown, Olive, Yellow, Green, Sky Blue,
Bleu-vert, Bleu , Pourpre, Magenta. Pour chaque pixel on évalue à quelle couleur il appartient. Ensuite on calcule le nombre de points de chaque couleur. Dans une deuxième étape principale 120, on procède à une caracterisation des partitions obtenues lors de la première étape principaleBlue-green, Blue, Purple, Magenta. For each pixel we evaluate what color it belongs. Then we calculate the number of points of each color. In a second main step 120, the partitions obtained during the first main step are characterized
110. Dans cette étape 120, on cherche à caractériser chaque partition Ci obtenue précédemment. Une partition est définie par sa composante iconique et par les coordonnées des pixels qui la constituent. La description d'une partition est fondée sur la caracterisation de la répartition spatiale de ces pixels (nuage de points). La méthode commence par le calcul du centre de gravité, I λaxe principal du nuage de points et Taxe perpendiculaire à cet axe. Le nouveau repère est utilisé comme référence dans la décomposition de la partition Ci en plusieurs sous-partitions qui sont représentées par le pourcentage des points constituant chacune des sous-partitions. Le processus de caracterisation d'une partition Ci est le suivant : - calculer le centre de gravité et l'angle d'orientation des composantes Ci définissant le repère de partitionnement, - calculer la distribution angulaire des points de la partition Ci dans les N directions dans le sens contraire des aiguilles d'une montre, en N sous-partitions définies par : o 360 2x360 ix360 (N -l)x360 C ' N ' N ' -"' N ' ""' N } - partitionner Tespace de l'image en carrés de rayons concentriques, avec calcul dans chaque rayon du nombre de points correspondant à chaque composante iconique. le vecteur caractéristique est obtenu à partir du nombre de points de chaque répartition de couleur Ci, du nombre de points dans les 08 sous-répartitions angulaires ainsi que du nombre de points de l'image. Ainsi le vecteur caractéristique est représenté par 17 valeurs dans l'exemple considéré. Sur la Figure 19, on a illustré la deuxième étape 120 de traitement à partir des composantes iconiques C0 à C15 en montrant pour les composantes C0 (module 121) et C15 (module 131) les différentes étapes effectuées, à savoir le partitionnement angulaire 122, 132 conduisant à un nombre de points dans les 8 orientations considérées (étape 123, 133) et le partitionnement annulaire 124, 134 conduisant à un nombre de points dans les 8 rayons considérés (étape 125, 135), ainsi que la prise en compte du nombre de pixels de composante C0 respectivement C15 dans l'image (étape 126, respectivement 136). Les étapes 123, 125, 126 conduisent à la production de 17 valeurs pour la composante C0 (étape 127) tandis que les étapes 133, 135, 136 conduisent à la production de 17 valeurs pour la composante C15 (étape 137). Naturellement, le processus est analogue pour les autres composantes Cl à C14. Les Figures 20 et 21 illustrent le fait que le procédé décrit ci-dessus est invariant à la rotation. Ainsi, dans l'exemple de la Figure 20, l'image est partitionnée en deux sous-ensembles, l'un contenant les croix x, l'autre les ronds 0. Après calcul du centre de gravité ainsi que de Tangle d'orientation θ, on obtient le repère d'orientation qui permettra d'obtenir les 04 sous-répartitions angulaires (0°, 90°, 180°, 270°). Par la suite, on effectue une répartition annulaire, on calcule le nombre de points dans un rayon égal à 1 puis 2. On obtient le. vecteur V0 caractéristique de l'image de la Figure 20 : 19 ; 6 ; 5 ; 4 ; 4 ; 8 ; 11. L'image de la Figure 21 est obtenue en appliquant une rotation de110. In this step 120, it is sought to characterize each partition Ci obtained previously. A partition is defined by its iconic component and the coordinates of the pixels that make it up. The description of a partition is based on the characterization of the spatial distribution of these pixels (point cloud). The method begins with the calculation of the center of gravity, I λ the main axis of the scatter plot and the axis perpendicular to this axis. The new cue is used as a reference in the decomposition of partition Ci into several sub-partitions which are represented by the percentage of points constituting each of the sub-partitions. The process of characterizing a partition Ci is as follows: - calculate the center of gravity and the angle of orientation of the components Ci defining the partitioning coordinate system, - calculate the angular distribution of the points of the partition Ci in the N directions in the opposite direction of clockwise, into N sub-partitions defined by: o 360 2x360 ix360 (N -l) x360 C 'N' N '- "' N"" 'N} - partition Tespace of image in squares of concentric rays, with calculation in each radius of the number of points corresponding to each iconic component, the characteristic vector is obtained from the number of points of each color distribution Ci, the number of points in the angular distributions as well as the number of points of the image Thus the characteristic vector is represented by 17 values in the example considered In Figure 19, the second processing step 120 is illustrated from the iconic components C0 to C15 showing for the components C0 (module 121) and C15 (module 131) the various steps performed, namely the angular partitioning 122, 132 leading to a number of points in the 8 orientations considered (step 123, 133) and the annular partitioning 124, 134 leading to a number of points in the 8 considered radii (step 125, 135), as well as taking into account the number of pixels of component C0 respectively C15 in the image (step 126, respectively 136 ). Steps 123, 125, 126 lead to the production of 17 values for the CO component (step 127) while steps 133, 135, 136 lead to the production of 17 values for the C15 component (step 137). Of course, the process is analogous for the other components Cl to C14. Figures 20 and 21 illustrate that the method described above is rotational invariant. Thus, in the example of Figure 20, the image is partitioned into two subsets, one containing the crosses x, the other the rounds 0. After calculating the center of gravity as well as the angle of orientation θ, one obtains the orientation mark which will make it possible to obtain the 04 angular sub-distributions (0 °, 90 °, 180 °, 270 °). Subsequently, an annular distribution is made, the number of points in a radius equal to 1 and then 2 is calculated. vector V0 characteristic of the image of Figure 20: 19; 6; 5; 4; 4; 8; 11. The image of Figure 21 is obtained by applying a rotation of
90° à l'image de la Figure 20. En appliquant le procédé ci-dessus à l'image de la Figure 21, on obtient un vecteur VI caractérisant cette dernière qui montre que la rotation n'influence par le vecteur caractéristique. Cela permet de conclure que la méthode est invariante à la rotation. Comme indiqué plus haut, les méthodes permettant d'obtenir pour une image les termes représentant les couleurs dominantes, les propriétés texturales ou les structures des zones dominantes de l'image, peuvent être appliquées aussi bien sur la totalité de l'image que sur des portions de l'image. On décrira brièvement ci-dessous des processus de segmentation d'un document qui permettent de produire les portions de l'image à caractériser. Selon une première technique possible, on procède à une décomposition statique. L'image est décomposée en blocs avec recouvrement ou sans recouvrement. Selon une deuxième technique possible, on procède à une décomposition dynamique. Dans ce cas, la décomposition de l'image en portions est fonction du contenu de l'image. Selon un premier exemple de technique de décomposition dynamique, les portions sont produites à partir des germes qui sont les points de singularité de l'image (les points d'inflexions). On commence par calculer les germes, qui sont ensuite fusionnés pour qu'il n'en reste qu'un nombre réduit et enfin les points de Timages sont fusionnés aux germes ayant les mêmes propriétés visuelles (statistiques) pour produire les portions ou les segments de l'image à caractériser. Selon une autre technique faisant appel à une segmentation hiérarchique, les points de l'image sont fusionnés pour former les n premières classes. Ensuite les points de chacune des classes sont décomposés en m classes et ainsi de suite jusqu'à atteindre le nombre de classes désiré. Lors de la fusion, les points sont affectés à la classe la plus proche. Une classe est représentée par le centre de gravité et/ou un délimiteur (boîte englobante, segment, courbe, ...). On décrira maintenant les étapes principales d'un procédé de caracterisation des formes d'une image. La caracterisation de la forme s'effectue en plusieurs étapes : Pour une suppression d'effet de zoom ou variation dû aux mouvement des éléments non rigides de l'image (mouvement des lèvres, des feuilles d'arbre, ...), on procède par une multiresolution suivie d'une décimation de l'image. Pour une réduction de l'effet de translation, l'image ou la portion de l'image est représentée par sa Transformée de Fourier. Pour une réduction de l'effet de zoom, l'image est définie dans l'espace logarithmique polaire. On peut mettre en œuvre les étapes suivantes : a/ multiresolution f = wavelet(I,n) ; où I est l'image de départ et n est le nombre de décompositions b/ projection de l'image dans Tespace logPolaire: g(l,m) = f(i,j) avec i = l*cos(m) et j = l*sin(m) c/ calcul de la transformée de Fourier de g : H = FFT(g) ; d/ caracterisation de H : dl/ projection de H dans plusieurs directions (0, 45, 90 , ...) : le résultat est un ensemble de vecteurs dont la dimension est égale à la dimension du segment de projection d2/ calcul des propriétés statistiques de chaque vecteur de projection (moyenne, variance, les moments).90 ° in the image of Figure 20. By applying the above method to the image of Figure 21, there is obtained a vector VI characterizing the latter which shows that the rotation influences the characteristic vector. This leads to the conclusion that the method is invariant to rotation. As indicated above, the methods for obtaining for an image the terms representing the dominant colors, the textural properties or the structures of the dominant zones of the image, can be applied both to the entire image and to portions of the image. Briefly described below are processes of segmentation of a document that make it possible to produce the portions of the image to be characterized. According to a first possible technique, a static decomposition is carried out. The image is decomposed into blocks with overlap or without overlap. According to a second possible technique, a dynamic decomposition is carried out. In this case, the decomposition of the image into portions is a function of the content of the image. According to a first example of a dynamic decomposition technique, the portions are produced from the seeds that are the points of singularity of the image (inflection points). We start by calculating the seeds, which are then merged so that only a small number of them remain and finally the points of Timages are merged with the seeds. having the same visual (statistical) properties to produce the portions or segments of the image to be characterized. According to another technique using hierarchical segmentation, the points of the image are merged to form the first n classes. Then the points of each class are decomposed into m classes and so on until reaching the desired number of classes. At merge, the points are assigned to the nearest class. A class is represented by the center of gravity and / or a delimiter (bounding box, segment, curve, ...). The main steps of a method for characterizing the shapes of an image will now be described. The characterization of the shape is done in several steps: For a suppression of zoom effect or variation due to the movement of the non-rigid elements of the image (movement of the lips, the leaves of tree, ...), one proceeds by a multiresolution followed by a decimation of the image. For a reduction of the translational effect, the image or portion of the image is represented by its Fourier Transform. For a reduction of the zoom effect, the image is defined in the polar logarithmic space. The following steps can be implemented: a / multiresolution f = wavelet (I, n); where I is the starting image and n is the number of decompositions b / projection of the image in the logPolar space: g (l, m) = f (i, j) with i = l * cos (m) and j = l * sin (m) c / calculation of the Fourier transform of g: H = FFT (g); d / characterization of H: dl / projection of H in several directions (0, 45, 90, ...): the result is a set of vectors whose dimension is equal to the dimension of the projection segment d2 / calculation of the properties statistics of each projection vector (mean, variance, moments).
Le terme représentant la forme est constitué des valeurs des propriétés statistiques de chaque vecteur de projection. The term representing the form consists of the values of the statistical properties of each projection vector.

Claims

REVENDICATIONS
1. Procédé d'indexation de documents multimédias, caractérisé en ce qu'il comprend les étapes suivantes :A method of indexing multimedia documents, characterized in that it comprises the following steps:
(a) identification et extraction pour chaque document de termes tj constitués par des vecteurs caractérisant des propriétés du document multimédia à indexer, telles que la forme, la texture, la couleur ou la structure d'une image, l'énergie, le taux d'oscillation ou des informations frequentielles d'un signal audio, ou un groupe de caractères d'un texte ,(a) identification and extraction for each document of terms tj consisting of vectors characterizing the properties of the multimedia document to be indexed, such as the shape, texture, color or structure of an image, energy, energy content, oscillation or frequency information of an audio signal, or a group of characters of a text,
(b) stockage des termes tj caractérisant des propriétés du document multimédia dans une base de termes comprenant P termes, (c) détermination d'un nombre maximum N de concepts souhaités regroupant les termes tj les plus pertinents, N étant un nombre entier inférieur à P, et chaque concept q étant prévu pour regrouper tous les termes voisins du point de vue de leurs caractéristiques,(b) storing terms tj characterizing properties of the multimedia document in a term base comprising P terms, (c) determining a maximum number N of desired concepts grouping the most relevant terms tj, where N is an integer less than P, and each concept q being intended to group all the neighboring terms from the point of view of their characteristics,
(d) calcul de la matrice T de distances entre les termes tj de la base de termes,(d) calculating the distance matrix T between the terms tj of the term base,
(e) décomposition de l'ensemble P des termes j de la base de termes en N parties Pj (1 < j≤N) telles que P = PI UP2 " UPj ... UPN, chaque partie Pj comprenant un ensemble de termes ty et étant représentée par un concept q, les termes t, étant répartis de telle façon que les termes les plus éloignés se trouvent dans des parties Pj, Pm distinctes et les termes proches se trouvent dans la même partie P-f (e) decomposing the set P of the terms j of the term base into N parts P j (1 < j N N) such that P = PI UP 2 " UP 1 ... UP N , each part P j comprising a a set of terms ty and being represented by a concept q, the terms t, being distributed in such a way that the most distant terms are in distinct parts Pj, P m and the similar terms are in the same part P- f
(f) structuration du dictionnaire de concepts de manière à constituer un arbre binaire où les feuilles contiennent les concepts q du dictionnaire et les nœuds de Tarbres contiennent les informations nécessaires à la scrutation de Tarbre lors d'une phase d'identification d'un document par comparaison avec les documents précédemment indexés, et(f) structuring of the dictionary of concepts so as to constitute a binary tree where the sheets contain the concepts q of the dictionary and the nodes of Tarbres contain the information necessary for the scanning of Tarbre during a phase of identification of a document compared to previously indexed documents, and
(g) construction d'une base d'empreintes constituée de l'ensemble des concepts q représentant les termes tj des documents à indexer, chaque document étant associé à une empreinte qui lui est propre. (g) constructing an imprint database consisting of the set of concepts q representing the terms tj of the documents to be indexed, each document being associated with an imprint of its own.
2. Procédé d'indexation selon la revendication 1, caractérisé en ce que Ton associe à chaque concept q de la base d'empreintes un ensemble d'informations comprenant le nombre NbT de termes dans les documents où le concept q est présent.2. An indexing method according to claim 1, characterized in that associates with each concept q of the fingerprint database a set of information comprising the number NbT of terms in the documents where the concept q is present.
3. Procédé d'indexation selon la revendication 1 ou la revendication 2, caractérisé en ce que pour chaque document où un concept q est présent, on enregistre une empreinte du concept q dans le document, cette empreinte comprenant la fréquence d'occurrence du concept q, Tidentification des concepts qui sont voisins du concept q dans le document et un score qui est une valeur moyenne des mesures de similarités entre le concept q et les termes tj du document qui sont les plus proches du concept q. 3. An indexing method according to claim 1 or claim 2, characterized in that for each document where a concept q is present, a fingerprint of the concept q is recorded in the document, this fingerprint comprising the frequency of occurrence of the concept. q, the identification of concepts that are close to the concept q in the document and a score that is an average value of similarity measures between the concept q and the terms tj of the document that are closest to the concept q.
4. Procédé d'indexation selon Tune quelconque des revendications4. Indexing method according to any one of the claims
1 à 3, caractérisé en ce qu'il comprend une étape d'optimisation de la partition de l'ensemble P des termes de la base de termes pour décomposer cet ensemble P en M classes Q (1 < i < M, avec M < P), de manière à réduire Terreur de la répartition de l'ensemble P des termes de la base de termes en N parties (Pi, P2,... PN) OÙ chaque partie Pj est représentée par le terme tj qui sera pris comme concept q, Terreur N commise ε étant telle que ε = ∑ε où εt. = ∑d2(ti,tj)est Terreur i≈l l l tjeP, commise lorsqu'on remplace les termes tj d'une partie Pj par tj. 1 to 3, characterized in that it comprises a step of optimizing the partition of the set P of terms of the term base to decompose this set P into M classes Q (1 <i <M, with M < P), so as to reduce Terror of the distribution of the set P of terms of the terms base in N parts (Pi, P 2 , ... PN) where each part Pj is represented by the term tj which will be taken as concept q, Terror N committing ε being such that ε = Σε where ε t . = Σd 2 (t i , t j ) is Terror i≈ll l t j eP, committed when replacing the terms tj of a part Pj by tj.
5. Procédé d'indexation selon la revendication 4, caractérisé en ce qu'il comprend les étapes suivantes :5. Indexing method according to claim 4, characterized in that it comprises the following steps:
(i) on décompose l'ensemble P de termes en deux parties Pi et P2 ; (ii) on détermine les deux termes les plus éloignés tj et tj de l'ensemble P correspondant à la plus grande distance Dy de la matrice T de distances ;(i) decomposing the set P of two-part terms Pi and P 2 ; (ii) the two farthest terms tj and tj of the set P corresponding to the largest distance Dy of the distance matrix T are determined;
(iii) pour chaque terme t de l'ensemble P, on examine si la distance Dki entre le terme tket le terme tj est plus petite que la distance Dkj entre le terme tk et le terme tj, si c'est le cas on affecte le terme tk à la partie Pi et si ce n'est pas le cas on affecte le terme tk à la partie P2; (iv) on itère l'étape (i) jusqu'à l'obtention du nombre N de points Pj souhaité et à chaque itération on applique les étapes (ii) et (iii) sur les termes des parties Pi et P2.(iii) for each term t of the set P, we examine whether the distance D ki between the term t k and the term tj is smaller than the distance D kj between the term t k and the term t j , if c if the term t k is assigned to the part Pi and if this is not the case, the term t k is assigned to the part P 2 ; (iv) step (i) is iterated until the desired number N of points Pj is obtained and at each iteration steps (ii) and (iii) are applied to the terms of the parts Pi and P 2 .
6. Procédé d'indexation selon la revendication 4 ou la revendication 5, caractérisé en ce qu'il comprend une optimisation à partir des N parties disjointes i Pi, P2/... PN!* de l'ensemble P ainsi que des N termes {tlf t2, tu \ qui les représentent pour réduire Terreur de décomposition de l'ensemble P en N parties, et en ce qu'il comprend les étapes suivantes :6. An indexing method according to claim 4 or claim 5, characterized in that it comprises an optimization from the N disjoint parts i Pi, P 2 / ... PN! * of the set P as well as the N terms {t lf t 2 , tu \ which represent them to reduce the decomposition Terror of the set P in N parts, and in that it comprises the following steps:
(i) calcul des centres de gravité Q des parties Pj(i) calculation of the centers of gravity Q of the parts Pj
(ii) calcul des erreurs εC- = Jd2(Ci,tJ) et εtj = ∑d2(ti,tJ) lorsqu'on tjePi tj≡Pt remplace les termes t de la partie Pj respectivement par Q et par tj,(ii) calculation of the errors εC- = J d 2 (C i , t J ) and εtj = Σd 2 (t i , t J ) when tjePi tj≡Pt replaces the terms t of the part Pj respectively by Q and by tj,
(iii) comparaison de εtj et εq et remplacement de tj par Q si εq ≤ εt,, (iv) calcul de la nouvelle matrice T de distances entre les termes tj de la base de termes et processus de décomposition de l'ensemble P des termes de la base de termes en N parties, sauf si une condition d'arrêt est remplie avec — - — < seuil, où εct représente Terreur εct commise à l'instant t.(iii) comparison of εtj and εq and replacement of tj by Q if εq ≤ εt ,, (iv) calculation of the new matrix T of distances between the terms tj of the term base and decomposition process of the set P of terms of the term base in N parts, unless a stop condition is satisfied with - - - <threshold, where εc t represents Terror εc t committed at time t.
7. Procédé d'indexation selon Tune quelconque des revendications 1 à 6, caractérisé en ce que pour effectuer une structuration du dictionnaire de concepts, on produit de façon itérative à chaque itération une carte de navigation en commençant par scinder l'ensemble des concepts en deux sous-ensembles, puis en sélectionnant un sous- ensemble à chaque itération jusqu'à l'obtention du nombre de groupes souhaité ou jusqu'à ce qu'un critère d'arrêt soit satisfait. 7. An indexing method according to any one of claims 1 to 6, characterized in that to carry out a structuring of the dictionary of concepts, it is produced iteratively at each iteration a navigation map by starting by splitting the set of concepts into two subsets, then selecting a subset at each iteration until the desired number of groups is obtained or until a stopping criterion is satisfied.
8. Procédé d'indexation selon la revendication 7, caractérisé en ce que le critère d'arrêt est constitué par le fait que les sous-ensembles obtenus sont tous homogènes avec un écart-type faible.8. Indexing method according to claim 7, characterized in that the stopping criterion is constituted by the fact that the subsets obtained are all homogeneous with a low standard deviation.
9. Procédé d'indexation selon la revendication 7 ou la revendication 8, caractérisé en ce que lors de la structuration du dictionnaire de concepts, on détermine des indicateurs de navigation à partir d'une matrice M = [ci, c2/... cN] e 9 p*N de l'ensemble C des concepts q e 9îp où q représente un concept de p valeurs, selon les étapes suivantes : (i) on calcule un représentant wde la matrice M (ii) on calcule la matrice de covariance M entre les éléments de la matrice M et le représentant wde la matrice M, (iii) on calcule un axe de projection udes éléments de la matrice M, (iv) on calcule la valeur pi = d(u,ç ) - d(u, w) et on décompose l'ensemble de concepts C en deux sous-ensembles Cl et C2 de la manière suivante :9. An indexing method according to claim 7 or claim 8, characterized in that during the structuring of the dictionary of concepts, we determine navigation indicators from a matrix M = [ci, c 2 / ... c N ] e 9 p * N of the set C of the concepts qe 9i p where q represents a concept of p values, according to the following steps: (i) calculating a representative w of the matrix M (ii) calculating the covariance matrix M between the elements of the matrix M and the representative w of the matrix M, (iii) calculating an axis of projection u of the elements of the matrix M, (iv) the value pi = d (u, ç) - d (u, w) is calculated and the set of concepts C is decomposed into two subsets C1 and C2 of the following way:
(v) on stocke dans le nœud associé à C les informations {u, w, |pl|, p2} où pi est le maximum de tous les pi < 0 et p2 est le minimum de tous les pi > 0, l'ensemble des informations {u, w, |pl|, p2} constituant les indicateurs de navigation dans le dictionnaire de concept.(v) we store in the node associated with C the information {u, w, | pl |, p2} where pi is the maximum of all pi <0 and p2 is the minimum of all pi> 0, the set information {u, w, | pl |, p2} constituting the navigation indicators in the concept dictionary.
10. Procédé d'indexation selon Tune quelconque des revendications10. Indexing method according to any one of the claims
1 à 9, caractérisé en ce que Ton analyse à la fois les composantes structurelles et les compléments de ces composantes structurelles constitué par les composantes texturales d'une image du document, et en ce que :1 to 9, characterized in that one analyzes both the structural components and the complements of these structural components constituted by the textural components of an image of the document, and in that:
(a) lors de l'analyse des composantes structurelles de l'image(a) when analyzing the structural components of the image
(al) on procède à une répartition des zones frontières des structures de l'image en différentes classes selon l'orientation de la variation locale d'intensité de manière à définir des éléments de support structurel (ESS) de l'image, et (a2) on procède par analyse statistique à la construction de termes constitués par des vecteurs décrivant les propriétés locales et globales des éléments de support structurels, (b) lors de l'analyse des composantes texturales de l'image (bl) on procède à une détection et une caracterisation paramétrique d'une composante purement aléatoire de l'image, (b2) on procède à une détection et une caracterisation paramétrique d'une composante périodique de l'image, (b3) on procède à une détection et une caracterisation paramétrique d'une composante directionnelle de l'image,(a1) dividing the boundary regions of the image structures into different classes according to the orientation of the local intensity variation so as to define structural support elements (ESS) of the image, and a2) the construction of terms consisting of vectors describing the local and global properties of the structural support elements is carried out by statistical analysis, (b) during the analysis of the textural components of the image (bl) a parametric detection and characterization of a purely random component of the image is carried out, (b2) a parametric detection and characterization is carried out of a periodic component of the image, (b3) a parametric detection and characterization of a directional component of the image is carried out,
(c) on regroupe dans un nombre limité de concepts l'ensemble des éléments descriptifs de l'image constitués par d'une part les termes décrivant les propriétés locales et globales des éléments de support structurels et d'autre part les paramètres des caractérisations paramétriques des composantes aléatoire, périodique et directionnelle définissant les composantes texturales de l'image, et(c) we group in a limited number of concepts the set of descriptive elements of the image constituted by, on the one hand, the terms describing the local and global properties of the structural support elements and, on the other hand, the parameters of the parametric characterizations random, periodic and directional components defining the textural components of the image, and
(d) on définit pour chaque document une empreinte à partir des occurrences, des positions et des fréquences desdits concepts. (d) defining for each document an imprint from the occurrences, positions and frequencies of said concepts.
11. Procédé d'indexation selon la revendication 10, caractérisé en ce que les propriétés locales des éléments de support structurels prises en compte pour la construction de termes comprennent au moins le type de support choisi parmi une bande linéaire ou un arc de courbe, les dimensions en longueur et largeur du support, la direction principale du support et la forme et les propriétés statistiques des pixels constituant le support.An indexing method according to claim 10, characterized in that the local properties of the structural support elements taken into account for the construction of terms comprise at least the type of support chosen from a linear band or an arc of a curve. dimensions in length and width of the support, the main direction of the support and the shape and the statistical properties of the pixels constituting the support.
12. Procédé d'indexation selon la revendication 10 ou la revendication 11, caractérisé en ce que les propriétés globales des éléments de support structurels prises en compte pour la construction de termes comprennent au moins le nombre de chaque type de supports et leur disposition spatiale.12. An indexing method according to claim 10 or claim 11, characterized in that the global properties of the structural support elements taken into account for the construction of terms comprise at least the number of each type of media and their spatial arrangement.
13. Procédé d'indexation selon Tune quelconque des revendications 10 à 12, caractérisé en ce que lors de l'analyse des composantes structurelles de l'image on procède à un test préalable de détection de la présence d'au moins une structure dans l'image et, en cas d'absence de structure, on passe directement à l'étape de l'analyse des composantes texturales de l'image. 13. An indexing method according to any one of claims 10 to 12, characterized in that during the analysis of the structural components of the image is carried out a preliminary test of detection of the presence of at least one structure in the image and, in the absence of structure, go directly to the step of analyzing the textural components of the image.
14. Procédé d'indexation selon Tune quelconque des revendications14. Indexing method according to any one of the claims
10 à 13, caractérisé en ce que pour procéder à une répartition des zones frontières des structures de l'image en différentes classes, à partir de l'image numérisée définie par l'ensemble des pixels y(i,j) où (i,j) e I x J, avec I et J désignant respectivement le nombre de lignes et le nombre de colonnes de l'image, on calcule l'image gradient vertical gv (i,j) avec (i,j) e I x J et l'image gradient horizontal gh avec (i,j) e I x J et on procède au partitionnement de l'image selon l'orientation locale de son gradient en un nombre fini de classes équidistantes, l'image contenant l'orientation du gradient étant définie par la formule10 to 13, characterized in that to proceed to a distribution of the border areas of the image structures into different classes, from the digitized image defined by the set of pixels y (i, j) where (i, j) where I and J denoting respectively the number of rows and the number of columns of the image, we compute the vertical gradient image g v (i, j) with (i, j) e I x J and the horizontal gradient image g h with (i, j) e I x J and we proceed to the partitioning of the image according to the local orientation of its gradient into a finite number of equidistant classes, the image containing the gradient orientation being defined by the formula
O (i,j) = arc tan gh( j) gv(i,j)O (i, j) = arc tan gh (j) gv (i, j)
on identifie les classes constituant des régions de support susceptibles de contenir des éléments de support significatifs, et à partir des régions de support, on détermine les éléments de support significatifs et on les répertorie selon des critères prédéterminés.the classes constituting support regions that can contain significant support elements are identified, and from the support regions, the significant support elements are determined and listed according to predetermined criteria.
15. Procédé d'indexation selon Tune quelconque des revendications 1 à 9, caractérisé en ce que lors de l'indexation d'un document multimédia comportant des signaux vidéo, on choisit des termes tj constitués par des images-clés représentant des groupes d'images homogènes consécutives, et on détermine des concepts q par regroupement de termes tj. 15. An indexing method according to any one of claims 1 to 9, characterized in that during the indexing of a multimedia document comprising video signals, terms tj consisting of keyframes representing groups of pixels are selected. consecutive homogeneous images, and q concepts are determined by grouping terms tj.
16. Procédé d'indexation selon la revendication 15, caractérisé en ce que pour déterminer des images-clés constituant des termes tj , on élabore d'abord un vecteur score VS comprenant un ensemble d'éléments VS(i) matérialisant la différence ou la similarité entre le contenu d'une image d'indice i et celui d'une image d'indice i-1, et on analyse le vecteur score VS afin de déterminer les images-clés qui correspondent aux maximums des valeurs des éléments VS(i) du vecteur score VS. 16. An indexing method according to claim 15, characterized in that for determining key-images constituting terms tj, a score vector VS is first constructed comprising a set of elements VS (i) materializing the difference or the similarity between the content of an index image i and that of an index image i-1, and the score vector VS is analyzed in order to determine the keyframes which correspond to the maximums of the values of the elements VS (i ) of the VS score vector.
17. Procédé d'indexation selon la revendication 16, caractérisé en ce qu'une image d'indice j est considérée comme une image-clé si la valeur VS(j) de élément correspondant du vecteur score VS est un maximum et que la valeur VS(j) est située entre deux minimums min G et min D et que le minimum Ml tel que Ml = (IVSQ) - min G| , I VSÇD - min D|) est supérieur à un seuil donné. 17. An indexing method according to claim 16, characterized in that an index image j is considered to be a keyframe if the corresponding element VS (j) of the score vector VS is a maximum and the value VS (j) is located between two minimums min G and min D and the minimum Ml such that Ml = (IVSQ) - min G | , I VS Ç D - D min |) is greater than a given threshold.
18. Procédé d'indexation selon Tune quelconque des revendications 1 à 9, caractérisé en ce que lors de l'indexation d'un document multimédia comportant des composantes audio, on échantillonne et décompose le document en trames, qui sont ensuite regroupées en clips dont chacun est caractérisé par un terme tj constitué par un vecteur de paramètre.18. An indexing method according to any one of claims 1 to 9, characterized in that during indexing of a multimedia document comprising audio components, the document is sampled and broken down into frames, which are then grouped into clips of which each is characterized by a term tj constituted by a parameter vector.
19. Procédé d'indexation selon la revendication 18, caractérisé en ce qu'une trame comprend entre environ 512 et 2048 échantillons du document audio échantillonné.The indexing method of claim 18, characterized in that a frame comprises between about 512 and 2048 samples of the sampled audio document.
20. Procédé d'indexation selon la revendication 18 ou la revendication 19, caractérisé en ce que les paramètres pris en compte pour la définition des termes tj comprennent des informations temporelles correspondant à au moins l'un des paramètres suivants : l'énergie des trames du signal audio, Técart-type des énergies des trames dans les clips, le rapport des variations sonores, le rapport de basse énergie, le taux d'oscillation autour d'une valeur prédéterminée, le haut taux d'oscillation autour d'une valeur prédéterminée, la différence entre le nombre de taux d'oscillation au-dessus et au-dessous du taux d'oscillation moyen des trames de clips, la variance du taux d'oscillation, le rapport des trames silencieuses.20. An indexing method according to claim 18 or claim 19, characterized in that the parameters taken into account for the definition of the terms tj comprise temporal information corresponding to at least one of the following parameters: the energy of the frames the audio signal, the standard deviation of the energies of the frames in the clips, the ratio of the sound variations, the low energy ratio, the oscillation rate around a predetermined value, the high rate of oscillation around a value predetermined, the difference between the number of oscillation rates above and below the average oscillation rate of the clip frames, the variance of the oscillation rate, the ratio of the silent frames.
21. Procédé d'indexation selon Tune quelconque des revendications 18 à 20, caractérisé en ce que les paramètres pris en compte pour la définition des termes tj comprennent des informations frequentielles correspondant à au moins l'un des paramètres suivants : le centre de gravité du spectre de fréquence de la transformée de Fourier courte du signal audio, la largeur de bande du signal audio, le rapport entre l'énergie dans une bande de fréquence et l'énergie totale dans toute la bande de fréquence du signal audio échantillonné, la valeur moyenne de la variation du spectre de deux trames adjacentes dans un clip, la fréquence de coupure d'un clip.21. An indexing method according to any one of claims 18 to 20, characterized in that the parameters taken into account for the definition of the terms tj comprise frequency information corresponding to at least one of the following parameters: the center of gravity of the frequency spectrum of the short Fourier transform of the audio signal, the bandwidth of the audio signal, the ratio of the energy in a frequency band and the total energy throughout the frequency band of the sampled audio signal, the value average of variation the spectrum of two adjacent frames in a clip, the cutoff frequency of a clip.
22. Procédé d'indexation selon Tune quelconque des revendications 18 à 21, caractérisé en ce que les paramètres pris en compte pour la définition des termes tj comprennent au moins la modulation d'énergie à 4 Hz.22. An indexing method according to any one of claims 18 to 21, characterized in that the parameters taken into account for the definition of the terms tj comprise at least the energy modulation at 4 Hz.
23. Procédé d'indexation selon Tune quelconque des revendications l à 14, caractérisé en ce que l'on analyse les formes d'une image d'un document selon les étapes suivantes :23. An indexing method according to any one of claims 1 to 14, characterized in that the shapes of an image of a document are analyzed according to the following steps:
(a) on procède à une multiresolution suivie d'une décimation de l'image,(a) multiresolution followed by decimation of the image,
(b) on définit l'image dans Tespace logarithmique polaire.(b) the image is defined in the polar logarithmic space.
(c) on représente l'image ou la portion de l'image concernée par sa transformée de Fourier H,(c) representing the image or portion of the image concerned by its Fourier transform H,
(d) on procède à une caracterisation de la transformée de Fourier H de la façon suivante : (dl) on projette H dans plusieurs directions pour obtenir un ensemble de vecteurs dont la dimension est égale à la dimension du mouvement de projection, (d2) on calcule les propriétés statistiques de chaque vecteur de projection, et (e) on représente la forme de l'image par un terme tj constitué des valeurs des propriétés statistiques de chaque vecteur de projection. (d) characterizing the Fourier transform H as follows: (d1) projecting H in several directions to obtain a set of vectors whose dimension is equal to the dimension of the projection motion, (d2) the statistical properties of each projection vector are calculated, and (e) the shape of the image is represented by a term tj consisting of the values of the statistical properties of each projection vector.
EP04805546A 2003-11-27 2004-11-25 Method for indexing and identifying multimedia documents Active EP1697862B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PL04805546T PL1697862T3 (en) 2003-11-27 2004-11-25 Method for indexing and identifying multimedia documents

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0313907A FR2863080B1 (en) 2003-11-27 2003-11-27 METHOD FOR INDEXING AND IDENTIFYING MULTIMEDIA DOCUMENTS
PCT/FR2004/003017 WO2005055086A1 (en) 2003-11-27 2004-11-25 Method for indexing and identifying multimedia documents

Publications (2)

Publication Number Publication Date
EP1697862A1 true EP1697862A1 (en) 2006-09-06
EP1697862B1 EP1697862B1 (en) 2011-05-18

Family

ID=34566175

Family Applications (1)

Application Number Title Priority Date Filing Date
EP04805546A Active EP1697862B1 (en) 2003-11-27 2004-11-25 Method for indexing and identifying multimedia documents

Country Status (10)

Country Link
US (1) US7552120B2 (en)
EP (1) EP1697862B1 (en)
AT (1) ATE510260T1 (en)
AU (1) AU2004294586A1 (en)
CA (1) CA2547557A1 (en)
ES (1) ES2366439T3 (en)
FR (1) FR2863080B1 (en)
IL (1) IL175956A0 (en)
PL (1) PL1697862T3 (en)
WO (1) WO2005055086A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016062937A1 (en) 2014-10-22 2016-04-28 Surys Method of comparing digital images

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7421096B2 (en) * 2004-02-23 2008-09-02 Delefevre Patrick Y Input mechanism for fingerprint-based internet search
DE602004017475D1 (en) * 2003-08-07 2008-12-11 Thomson Licensing METHOD OF REPRODUCING AUDIO DOCUMENTS THROUGH AN INTERFACE WITH DOCUMENT GROUPS AND ASSOCIATED REPRODUCTION DEVICE
EP1704695B1 (en) * 2003-11-27 2008-02-27 Advestigo System for intercepting multimedia documents
FR2887385B1 (en) * 2005-06-15 2007-10-05 Advestigo Sa METHOD AND SYSTEM FOR REPORTING AND FILTERING MULTIMEDIA INFORMATION ON A NETWORK
US7685170B2 (en) * 2005-08-04 2010-03-23 International Business Machines Corporation Journaling database queries for database replication
US7813900B2 (en) * 2006-02-01 2010-10-12 National University Corporation The University Of Electro-Communications Displacement detection method, displacement detection device, displacement detection program, phase singularity matching method and phase singularity matching program
US20080027931A1 (en) * 2006-02-27 2008-01-31 Vobile, Inc. Systems and methods for publishing, searching, retrieving and binding metadata for a digital object
US7979464B2 (en) 2007-02-27 2011-07-12 Motion Picture Laboratories, Inc. Associating rights to multimedia content
CN101681381B (en) * 2007-06-06 2012-11-07 杜比实验室特许公司 Improving audio/video fingerprint search accuracy using multiple search combining
US9442960B2 (en) * 2008-05-16 2016-09-13 Lawrence Livermore National Security, Llc High performance data layout and processing
US8369407B2 (en) 2008-05-23 2013-02-05 Advestigo Method and a system for indexing and searching for video documents
US20100057685A1 (en) * 2008-09-02 2010-03-04 Qimonda Ag Information storage and retrieval system
US8112428B2 (en) * 2008-11-24 2012-02-07 Yahoo! Inc. Clustering image search results through voting: reciprocal election
US20100131499A1 (en) * 2008-11-24 2010-05-27 Van Leuken Reinier H Clustering Image Search Results Through Folding
CN101847412B (en) * 2009-03-27 2012-02-15 华为技术有限公司 Method and device for classifying audio signals
US8712771B2 (en) * 2009-07-02 2014-04-29 Alon Konchitsky Automated difference recognition between speaking sounds and music
US9196249B1 (en) * 2009-07-02 2015-11-24 Alon Konchitsky Method for identifying speech and music components of an analyzed audio signal
US9196254B1 (en) * 2009-07-02 2015-11-24 Alon Konchitsky Method for implementing quality control for one or more components of an audio signal received from a communication device
US20110026816A1 (en) * 2009-07-29 2011-02-03 Vaughn Robert L Rapid image categorization
DE112009005215T8 (en) * 2009-08-04 2013-01-03 Nokia Corp. Method and apparatus for audio signal classification
US20140089246A1 (en) * 2009-09-23 2014-03-27 Edwin Adriaansen Methods and systems for knowledge discovery
US8868569B2 (en) * 2010-02-24 2014-10-21 Yahoo! Inc. Methods for detecting and removing duplicates in video search results
US8836714B2 (en) * 2010-10-29 2014-09-16 The University Of Utah Research Foundation Rapid, interactive editing of massive imagery data
FR2973137B1 (en) 2011-03-25 2015-07-24 Hologram Ind METHOD AND SYSTEM FOR AUTHENTICATING A SECURE DOCUMENT
US10055493B2 (en) * 2011-05-09 2018-08-21 Google Llc Generating a playlist
US9558762B1 (en) * 2011-07-03 2017-01-31 Reality Analytics, Inc. System and method for distinguishing source from unconstrained acoustic signals emitted thereby in context agnostic manner
US8867891B2 (en) 2011-10-10 2014-10-21 Intellectual Ventures Fund 83 Llc Video concept classification using audio-visual grouplets
US10007724B2 (en) 2012-06-29 2018-06-26 International Business Machines Corporation Creating, rendering and interacting with a multi-faceted audio cloud
US10809966B2 (en) * 2013-03-14 2020-10-20 Honeywell International Inc. System and method of audio information display on video playback timeline
US20150032582A1 (en) * 2013-07-29 2015-01-29 Yong Liu Signature extraction from accounting ratios
EP2921989A1 (en) 2014-03-17 2015-09-23 Université de Genève Method for object recognition and/or verification on portable devices
CN105338148B (en) * 2014-07-18 2018-11-06 华为技术有限公司 A kind of method and apparatus that audio signal is detected according to frequency domain energy
US9858681B2 (en) * 2014-10-27 2018-01-02 Digimarc Corporation Signal detection, recognition and tracking with feature vector transforms
CN105389541B (en) * 2015-10-19 2018-05-01 广东欧珀移动通信有限公司 The recognition methods of fingerprint image and device
US10083353B2 (en) 2016-10-28 2018-09-25 Intuit Inc. Identifying document forms using digital fingerprints
EP3324254A1 (en) * 2016-11-17 2018-05-23 Siemens Aktiengesellschaft Device and method for determining the parameters of a control device
US11074266B2 (en) * 2018-10-11 2021-07-27 International Business Machines Corporation Semantic concept discovery over event databases
US11436853B1 (en) * 2019-03-25 2022-09-06 Idemia Identity & Security USA LLC Document authentication
CN110390724B (en) * 2019-07-12 2023-06-02 杭州凌像科技有限公司 SLAM method with instance segmentation
FR3111726B1 (en) 2020-06-19 2022-07-22 Surys method of authenticating an optically variable element.
US11429620B2 (en) * 2020-06-29 2022-08-30 Western Digital Technologies, Inc. Data storage selection based on data importance
US11429285B2 (en) 2020-06-29 2022-08-30 Western Digital Technologies, Inc. Content-based data storage
US11379128B2 (en) 2020-06-29 2022-07-05 Western Digital Technologies, Inc. Application-based storage device configuration settings

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2596869B2 (en) * 1992-04-30 1997-04-02 松下電器産業株式会社 Concept dictionary management device
JP3057590B2 (en) * 1992-08-06 2000-06-26 中央発條株式会社 Personal identification device
US5899999A (en) * 1996-10-16 1999-05-04 Microsoft Corporation Iterative convolution filter particularly suited for use in an image classification and retrieval system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2005055086A1 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016062937A1 (en) 2014-10-22 2016-04-28 Surys Method of comparing digital images

Also Published As

Publication number Publication date
EP1697862B1 (en) 2011-05-18
WO2005055086A1 (en) 2005-06-16
FR2863080B1 (en) 2006-02-24
ES2366439T3 (en) 2011-10-20
IL175956A0 (en) 2006-10-05
PL1697862T3 (en) 2011-12-30
ATE510260T1 (en) 2011-06-15
CA2547557A1 (en) 2005-06-16
US20070271224A1 (en) 2007-11-22
US7552120B2 (en) 2009-06-23
FR2863080A1 (en) 2005-06-03
AU2004294586A1 (en) 2005-06-16

Similar Documents

Publication Publication Date Title
EP1697862B1 (en) Method for indexing and identifying multimedia documents
Geradts et al. The image-database REBEZO for shoeprints with developments on automatic classification of shoe outsole designs
Wu et al. Enhancing sound texture in CNN-based acoustic scene classification
JP2008097607A (en) Method to automatically classify input image
WO2005064885A1 (en) System for intercepting multimedia documents
JP5261493B2 (en) Extended image identification
Bhagtani et al. An overview of recent work in media forensics: Methods and threats
FR2905188A1 (en) Input image e.g. palm imprint image, density converting method for e.g. image processing improving system, involves converting minimum local and maximum local values into minimum and maximum common values, and reconstructing input image
Abouelaziz et al. Learning graph convolutional network for blind mesh visual quality assessment
Li et al. A novel hyperspectral imaging and modeling method for the component identification of woven fabrics
WO2020002810A1 (en) Detecting nerves in a series of ultrasound images by determining regions of interest which are defined by detecting arteries
EP0993650B1 (en) Method for segmenting and identifying a document, in particular a technical chart
Abas Analysis of craquelure patterns for content-based retrieval
Kaiser Music structure segmentation
Birajdar et al. A Systematic Survey on Photorealistic Computer Graphic and Photographic Image Discrimination
Kalkan et al. Image Enhancement Effects On Adult Content Classification
van der Maaten et al. Identifying the real van gogh with brushstroke textons
EP1435054A2 (en) Method for indexing and comparing multimedia documents
Kumar et al. Segmentation of Spectral Plant Images Using Generative Adversary Network Techniques. Electronics 2022, 11, 2611
Wyzykowski et al. A Universal Latent Fingerprint Enhancer Using Transformers
EP1554687A2 (en) Fuzzy associative system for multimedia object description
Parlewar et al. An Efficient Saliency Detection Using Wavelet Fusion
Brady et al. Adaptive probabilistic models of wavelet packets for the analysis and segmentation of textured remote sensing images
Gan Hunting Elusive Excess Variance in Big LOFAR Data
Ataky Image classification methods based on texture analysis and characterization

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20060626

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LU MC NL PL PT RO SE SI SK TR

DAX Request for extension of the european patent (deleted)
17Q First examination report despatched

Effective date: 20100503

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: HOLOGRAM INDUSTRIES

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LU MC NL PL PT RO SE SI SK TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: FRENCH

REG Reference to a national code

Ref country code: DE

Ref legal event code: R096

Ref document number: 602004032769

Country of ref document: DE

Effective date: 20110630

REG Reference to a national code

Ref country code: NL

Ref legal event code: VDEP

Effective date: 20110518

REG Reference to a national code

Ref country code: ES

Ref legal event code: FG2A

Ref document number: 2366439

Country of ref document: ES

Kind code of ref document: T3

Effective date: 20111020

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110518

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110919

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110518

Ref country code: SI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110518

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110819

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110518

Ref country code: IS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110918

Ref country code: AT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110518

REG Reference to a national code

Ref country code: IE

Ref legal event code: FD4D

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: NL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110518

REG Reference to a national code

Ref country code: PL

Ref legal event code: T3

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110518

Ref country code: CZ

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110518

Ref country code: EE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110518

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: RO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110518

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110518

Ref country code: SK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110518

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed

Effective date: 20120221

REG Reference to a national code

Ref country code: DE

Ref legal event code: R097

Ref document number: 602004032769

Country of ref document: DE

Effective date: 20120221

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MC

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20111130

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: BG

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110818

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: HU

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110518

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 12

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 13

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 14

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 15

REG Reference to a national code

Ref country code: DE

Ref legal event code: R079

Ref document number: 602004032769

Country of ref document: DE

Free format text: PREVIOUS MAIN CLASS: G06F0017300000

Ipc: G06F0016000000

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: TR

Payment date: 20211101

Year of fee payment: 18

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: IT

Payment date: 20211025

Year of fee payment: 18

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: PL

Payment date: 20211021

Year of fee payment: 18

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: LU

Payment date: 20221020

Year of fee payment: 19

Ref country code: ES

Payment date: 20221201

Year of fee payment: 19

Ref country code: DE

Payment date: 20221020

Year of fee payment: 19

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: CH

Payment date: 20221201

Year of fee payment: 19

Ref country code: BE

Payment date: 20221020

Year of fee payment: 19

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20221125

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20231019

Year of fee payment: 20

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20231019

Year of fee payment: 20