EP2417576A1

EP2417576A1 - Determination de descripteur dans un contenu multimedia

Info

Publication number: EP2417576A1
Application number: EP10723226A
Authority: EP
Inventors: Sid Ahmed Berrani; Nicolas Gengembre
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2009-04-09
Filing date: 2010-04-08
Publication date: 2012-02-15
Also published as: US8855420B2; US20120051642A1; WO2010116093A1

Abstract

L'invention concerne un procédé de détermination de descripteur d'une région d'intérêt dans une image, comportant des étapes de : - définition (E2) d'une grille de points pour la région d'intérêt; association (E3) d'une zone d'influence respective aux points de la grille de points; détermination (E4) d'une valeur représentative par point de la grille de points en fonction de sa zone d'influence respective; comparaison (E5) de la valeur représentative obtenue par point de la grille de points avec au moins une valeur de référence, le résultat de la comparaison permettant de définir un descripteur de la région d'intérêt.

Description

Détermination de descripteur dans un contenu multimédia

Le domaine de l'invention est celui de la transmission ou de l'échange de contenus multimédia. Par contenu multimédia on entend du texte, du son (ou de l'audio), des images, de la vidéo ou encore toute combinaison de ces différents éléments.

Plus précisément, l'invention concerne la détermination de descripteur dans un contenu multimédia contenant une image ou un ensemble d'images ou une vidéo, en vue notamment de l'analyse et du contrôle de tels contenus, comme par exemple la détection de copies d'un contenu de référence.

L'accroissement des capacités de stockage des terminaux et des débits de transmission dans les réseaux de télécommunications a fait émerger de nouveaux services permettant une consommation facilitée de contenus multimédia.

Ainsi, des fournisseurs de contenus proposent des services en ligne, généralement payants, de téléchargement de contenus multimédia. Pour les contenus protégés par des droits d'auteur, le respect de ceux-ci est assuré par les fournisseurs de contenus.

Par ailleurs, le nombre de sites d'échange de contenus, sur lesquels des contenus sont mis en ligne par les utilisateurs de ces sites, ne cesse d'augmenter. Une partie de ces contenus multimédia est créée par les utilisateurs eux-mêmes. Une autre partie est constituée de contenus protégés et illicitement proposés au téléchargement.

Il est donc nécessaire de pouvoir détecter des copies illicites d'un contenu protégé.

De manière générale, la détection de copies de contenus multimédia consiste à rechercher la présence ou non d'un contenu requête dans une base de référence de contenus multimédia.

Une telle base comporte des descripteurs des contenus multimédia de référence. Classiquement, un descripteur est une valeur numérique ou un ensemble de valeurs numériques qui caractérise une portion du contenu multimédia. Par exemple, lorsque le contenu multimédia est une vidéo, un descripteur peut être défini pour chacune des images de la vidéo ou pour un sous-ensemble de celles-ci.

Pour rechercher la présence ou non d'un contenu requête dans la base de référence, on commence par calculer des descripteurs pour ce contenu requête. Le mode de calcul est identique au mode de calcul des descripteurs de la base de référence. Ensuite, on recherche si la base de référence contient des descripteurs identiques ou similaires à ceux calculés pour le contenu requête. Si le résultat est positif, on en déduit que le contenu requête est une copie du contenu multimédia dont on a retrouvé les descripteurs dans la base de référence.

La qualité et l'efficacité de la détection de copies de contenus multimédia reposent sur les propriétés des descripteurs. Ceux-ci doivent pouvoir être calculés rapidement. Ils doivent faciliter la recherche dans la base de référence. Ces descripteurs doivent également permettre de détecter une copie même si le contenu multimédia requête a subi d'importantes transformations (comme par exemple, une forte compression, un changement de résolution, une incrustation de texte, de logo, etc.) par rapport au contenu multimédia de référence. Ces transformations peuvent être non intentionnelles comme, par exemple, des transformations dues à l'enregistrement du contenu, à son transcodage, etc. Certaines transformations peuvent être intentionnelles afin de rendre difficilement détectable un contenu illicitement copié.

Lorsque le contenu multimédia est une image, un ensemble d'images ou encore une vidéo, différents types de descripteurs peuvent être définis. Certains descripteurs sont calculés globalement pour une image. D'autres descripteurs sont calculés sur une portion d'image appelée région d'intérêt. Pour une même image, plusieurs régions d'intérêt peuvent être identifiées et un descripteur calculé pour chacune d'entre elles. Les descripteurs par régions d'intérêt d'une image sont plus performants qu'un descripteur global de cette image pour détecter des copies d'une vidéo (ou d'une image ou d'un ensemble d'images) lorsque celle-ci a subi localement de fortes transformations. Par fortes transformations, on entend, par exemple, un masquage partiel, une insertion d'un logo de taille importante, une insertion d'une vidéo dans une vidéo d'origine, un rognage d'image, etc. En effet, même si certaines régions d'une vidéo (ou d'une image ou d'un ensemble d'images) sont totalement manquantes ou masquées, cette vidéo reste identifiable grâce aux descripteurs des régions d'intérêt qui n'ont pas ou peu subi de transformations. Un descripteur global d'une vidéo (ou d'une image ou d'un ensemble d'images) est altéré par une forte transformation subie par celle-ci.

Dans l'article intitulé "Feature Extraction and a Database Strategy for

Video Fingerprinting", proceedings of the 5^th international conférence Récent Advances in Visual Information Systems, 2002, J. Oostveen et al. proposent un descripteur global binaire d'une image utilisé pour la détection de copies de vidéos.

Une première image est découpée en blocs rectangulaires (par exemple, 36 blocs sur 4 lignes et 9 colonnes). Une valeur est calculée dans chacun des blocs, comme par exemple la moyenne des luminances des pixels du bloc.

Puis, on calcule la différence entre la valeur obtenue dans un bloc et la valeur obtenue dans le bloc suivant de la même ligne. On obtient alors 32 soit 4 x 8 valeurs. On procède de la même façon pour l'image suivante.

Ensuite, on calcule la différence entre une valeur de la première image et la valeur correspondante de l'image suivante. On obtient ainsi 32 nouvelles valeurs.

On affecte un 1 ou un 0 dans le descripteur selon le signe de la différence calculée précédemment.

Les opérations précédentes sont répétées sur les paires suivantes d'images pour un ensemble d'images contigϋes de la vidéo.

Ensuite tous les descripteurs (de 32 valeurs binaires dans l'exemple cité précédemment) sont concaténés de façon à former un descripteur final.

L'inconvénient d'un tel détecteur global est qu'il est peu performant pour de la détection de copies d'une vidéo (ou d'une image ou d'un ensemble d'images) lorsque celle-ci a subi de fortes transformations telles que décrites ci-dessus.

Dans l'article intitulé "Distinctive Image Features from Scale-lnvariant Keypoints", International Journal of Computer Vision, vol. 60, N°2, 2004, D.G. Lowe présente un descripteur défini par région d'intérêt d'une image et utilisé pour la détection de copies de vidéos.

Un descripteur est défini pour une région d'intérêt circulaire. Cette région est dite "scale invariant" (invariante aux changements d'échelle) dans la mesure où un changement de résolution de l'image ne modifie pas le contenu global de la région d'intérêt.

Pour calculer le descripteur d'une région d'intérêt, on définit un carré englobant cette région. Puis, on découpe ce carré en blocs.

Dans chaque bloc, on calcule un gradient vectoriel pour chaque pixel.

On extrait l'amplitude et l'orientation de chacun de ces gradients vectoriels. On crée ensuite, pour chaque bloc, un histogramme des orientations des gradients, la valeur de chaque orientation étant pondérée par l'amplitude correspondante.

La concaténation des histogrammes obtenus pour les blocs constitutifs d'un carré englobant une région d'intérêt définit le descripteur de cette région. Un tel descripteur est appelé SIFT (pour Scale Invariant Feature

Transform en anglais).

Les composantes d'un descripteur SIFT sont des nombres réels. Par conséquent un tel descripteur est plus volumineux, plus complexe et plus difficile à exploiter qu'un descripteur binaire. Un des buts de l'invention est de remédier aux inconvénients de l'art antérieur précité.

Ainsi, la présente invention concerne, selon un premier aspect, un procédé de détermination de descripteur d'une région d'intérêt dans une image, comportant des étapes de :

- définition d'une grille de points pour la région d'intérêt,

- association d'une zone d'influence respective aux points de la grille de points, - détermination d'une valeur représentative par point de la grille de points en fonction de sa zone d'influence respective,

- comparaison de la valeur représentative obtenue par point de la grille de points avec au moins une valeur de référence déterminée à partir des valeurs représentatives des points de la grille de points, le résultat de la comparaison étant exprimé en au moins une valeur binaire;

- concaténation des résultats obtenus pour les points de la grille pour définir un descripteur de la région d'intérêt de l'image.

Le procédé selon l'invention permet de définir un descripteur par région d'intérêt de l'image et non un descripteur global de celle-ci. Le descripteur obtenu est donc robuste à des transformations appliquées à l'image dans son ensemble.

La définition d'une grille de points pour la région d'intérêt et l'association d'une zone d'influence à ces points permet de définir un descripteur représentatif du contenu visuel de la région d'intérêt. Le descripteur obtenu étant exprimé en valeurs binaires, il est plus compact, plus simple et plus facile à utiliser.

Selon une caractéristique préférée, au cours de l'étape de détermination, la valeur représentative d'un point de la grille de points est déterminée en fonction des valeurs pondérées d'une donnée mesurée pour les pixels de l'image contenus dans la zone d'influence de ce point. Ainsi, le descripteur de la région d'intérêt est défini en prenant en compte toute l'information pertinente comprise dans la région d'intérêt de l'image.

Selon une caractéristique préférée, la valeur représentative d'un point de la grille de points est égale à la moyenne pondérée des valeurs de la donnée mesurée pour les pixels de l'image contenus dans la zone d'influence de ce point.

Selon une caractéristique préférée, la valeur représentative d'un point de la grille de points est égale à la valeur médiane pondérée des valeurs de la donnée mesurée pour les pixels de l'image contenus dans la zone d'influence de ce point.

Ainsi, la définition du descripteur à partir de la moyenne ou de la valeur médiane des valeurs de la donnée mesurée pour les pixels représente une méthode simple et facile à mettre en place. Selon une caractéristique préférée, la valeur représentative d'un point de la grille de points est déterminée par l'application d'une méthode basée sur des statistiques robustes.

L'application d'une méthode basée sur des statistiques robustes permet d'atténuer voire d'annuler l'effet des pixels dont la valeur de la donnée mesurée est trop éloignée de la valeur représentative. Ainsi, le résultat obtenu n'est pas faussé par des données non représentatives.

Selon une caractéristique préférée, le procédé décrit précédemment et appliqué à une image d'origine, conduisant ainsi à la détermination de descripteur d'origine d'une région d'intérêt de l'image d'origine, comporte en outre une étape de traitement additionnel comprenant :

- la transformation de l'image d'origine pour obtenir une image transformée comportant une région d'intérêt qui se déduit d'une région d'intérêt de l'image d'origine en fonction de la transformation appliquée,

- la détermination de descripteur additionnel d'une région d'intérêt de l'image transformée à partir du descripteur d'origine de la région d'intérêt respective de l'image d'origine, - la représentation d'une région d'intérêt de l'image d'origine et la représentation de la région d'intérêt correspondante de l'image transformée par un même descripteur choisi entre le descripteur d'origine et le descripteur additionnel. De par sa construction, le descripteur tient compte de transformations telles qu'une symétrie selon un axe horizontal et/ou vertical ou une inversion de luminance que peut subir l'image. Ainsi, lors de son utilisation, il est plus robuste à ce type de transformations.

L'invention concerne aussi un dispositif de détermination de descripteur d'une région d'intérêt dans une image, comportant des moyens de :

- définition d'une grille de points pour la région d'intérêt,

- association d'une zone d'influence respective aux points de la grille de points,

- détermination d'une valeur représentative par point de la grille de points en fonction de sa zone d'influence respective,

- comparaison de la valeur représentative obtenue par point de la grille de points avec au moins une valeur de référence déterminée à partir des valeurs représentatives des points de la grille de points, le résultat de la comparaison étant exprimé en au moins une valeur binaire; - concaténation des résultats obtenus pour les points de la grille pour définir un descripteur de la région d'intérêt de l'image.

L'invention concerne encore, un produit programme d'ordinateur comprenant des instructions de code de programme enregistrées sur ou transmises par un support lisible par un ordinateur, pour mettre en œuvre les étapes du procédé décrit ci-dessus lorsque ledit programme fonctionne sur ordinateur.

D'autres caractéristiques et avantages de la présente invention apparaîtront dans la description ci-après de modes de réalisation préférés décrits en référence aux figures dans lesquelles : - la figure 1 représente un mode de réalisation d'un procédé de détermination de descripteur d'une région d'intérêt dans une image,

- la figure 2 illustre un premier exemple de définition d'une grille de points pour une région d'intérêt d'une image, - la figure 3 illustre un deuxième exemple de définition d'une grille de points pour une région d'intérêt d'une image,

- la figure 4 illustre une approche basée sur des statistiques robustes appliquée à l'invention,

- la figure 5 représente un mode de réalisation d'un dispositif apte à mettre en œuvre le procédé de la figure 1.

Dans la description qui suit, le contenu multimédia considéré est une image, un ensemble d'images ou encore une vidéo.

Dans le cas d'un ensemble d'images ou d'une vidéo, le procédé selon l'invention est appliqué aux images considérées indépendamment les unes des autres. Le procédé peut être appliqué à toutes les images d'un ensemble d'images ou d'une vidéo ou à un sous-ensemble de celles-ci appelées images clés.

La figure 1 représente un mode de réalisation d'un procédé de détermination de descripteur d'une région d'intérêt dans une image.

Le procédé comprend une première étape E1 d'extraction de régions d'intérêt d'une image. Les régions d'intérêt d'une image peuvent être extraites avec différents détecteurs de régions d'intérêt parmi lesquels :

- un détecteur DOG (pour Différence Of Gaussians en anglais),

- un détecteur Fast Hessian,

- un détecteur MSER (pour Maximally Stable Extremal Régions en anglais),

- un détecteur de Harris. Les régions d'intérêt extraites peuvent être de forme quelconque.

A partir d'une région d'intérêt extraite, on définit une région de forme simple (par exemple, circulaire, elliptique, carrée, rectangulaire, hexagonale, etc.) qui englobe cette région d'intérêt.

Les étapes suivantes E2 à E5 du procédé selon l'invention s'appliquent aux régions d'intérêt extraites au cours de l'étape E1.

Ces étapes permettent de déterminer un descripteur par région d'intérêt de l'image. L'image est décrite par l'ensemble des descripteurs des régions d'intérêt ainsi obtenus.

L'étape E2 est une étape de définition d'une grille de points relativement à une région d'intérêt.

Une grille de points est définie pour une région d'intérêt extraite au cours de l'étape précédente E1 ou pour une région obtenue par dilatation d'une région d'intérêt extraite au cours de l'étape précédente E1 , sans en déplacer le barycentre.

La position de la grille de points correspond à la position de la région d'intérêt. La taille de la grille de points est proportionnelle à la région d'intérêt. Le coefficient de proportionnalité est préalablement défini de telle sorte que la grille de points recouvre la région d'intérêt considérée, voire déborde celle-ci. Ainsi le coefficient de proportionnalité est légèrement supérieur à 1 (par exemple, de l'ordre de 1 ,1 ou 1 ,2). En fonction du nombre et de la position des régions d'intérêt, celles-ci peuvent se chevaucher. Les grilles de points correspondantes peuvent également se chevaucher.

Le nombre et la répartition des points de la grille sont tels que les voisinages immédiats de ces points (appelés zones d'influence) englobent l'information pertinente contenue dans la région d'intérêt.

La répartition des points peut être quelconque ou homogène. Les points de la grille ainsi que le barycentre de la région d'intérêt ne coïncident pas nécessairement avec des pixels de l'image.

La figure 2 illustre un premier exemple de définition d'une grille de points pour une région d'intérêt d'une image.

La partie gauche de la figure 2 représente une image I comportant 5 régions d'intérêt Ri à R₅.

La partie droite de la figure 2 représente une région d'intérêt de l'image I, en l'occurrence la région R₅.

Les points Pi à P₇ représentent les points de la grille de points définie pour la région d'intérêt R₅.

Ces 7 points sont répartis de telle sorte que le point Pi est positionné au barycentre de la région d'intérêt R₅ et les points P₂ à P₇ représentent les sommets d'un hexagone régulier dans lequel est inscrite la région d'intérêt R₅ extraite de l'image I.

La figure 3 illustre un deuxième exemple de définition d'une grille de points pour une région d'intérêt d'une image.

La partie gauche de la figure 3 représente une image I' comportant 4 régions d'intérêt RS à R₄.

La partie droite de la figure 3 représente une région d'intérêt de l'image I', en l'occurrence la région R ₄ sur laquelle sont positionnés 25 points P',,, avec i et j variant de 1 à 5, d'une grille rectangulaire de dimensions 5x5 points. Pour alléger la figure, seul les points, P'n, P'14 et P'₃₄ sont désignés.

Au cours de l'étape suivante E3, on associe une zone d'influence à un point de la grille. Une zone d'influence est un voisinage d'un point de la grille.

La forme d'une zone d'influence est quelconque. Ainsi, en se reportant à la figure 2, les zones d'influence associées aux points Pi à P₇ de la grille sont elliptiques. Ces zones d'influence sont représentées par des ellipses en pointillés entourant les points Pi à P₇.

Sur la figure 3, les zones d'influence associées aux 25 points de la grille sont des rectangles. Ces rectangles sont représentés en pointillés autour des points PS _{1 ;} P'u et PW

Les zones d'influence de différents points d'une grille de points peuvent se chevaucher.

L'étape suivante E4 est une étape de détermination d'une valeur représentative par point de la grille.

Cette valeur représentative est déterminée à partir des valeurs d'une donnée mesurée pour les pixels contenus dans la zone d'influence. A titre d'exemple, la donnée mesurée peut être la luminance, la moyenne des canaux R, G, B (pour red, green, blue en anglais), la valeur d'un canal, une donnée de n'importe quel système de représentation colorimétrique, etc.

Ainsi, un pixel contenu dans la zone d'influence d'un point de la grille contribue à la détermination de la valeur représentative associée à ce point.

Un pixel peut contribuer à la détermination de la valeur représentative pour plusieurs points de la grille. Ceci peut être observé à la figure 2 sur laquelle les zones d'influence représentées par des ellipses en pointillés présentent des intersections. Ainsi un pixel appartenant à une telle intersection contribue à la détermination des valeurs représentatives des points de chacune des zones d'influence intersectées. La contribution d'un pixel, contenu dans la zone d'influence d'un point de la grille, à la détermination de la valeur représentative de ce point est pondérée.

La pondération peut être définie, par exemple, en fonction de la distance entre le pixel et le point de la grille (point central ou barycentre de la zone d'influence). Ainsi, la valeur représentative déterminée pour un point de la grille peut, par exemple, être égale à la moyenne pondérée des valeurs de la donnée mesurée pour les pixels contenus dans la zone d'influence.

En variante, la moyenne peut être remplacée par la valeur médiane de l'ensemble des valeurs de la donnée mesurée pour les pixels contenus dans la zone d'influence.

Selon une autre variante, la détermination de la valeur représentative pour un point de la grille peut être basée sur des statistiques robustes comme par exemple, M-estimateurs, RANSAC (pour RANdom SAmple Consensus en anglais), etc.

Cette approche permet de réduire voire de supprimer l'effet de pixels pour lesquels la valeur de la donnée mesurée est très éloignée de la valeur que l'on cherche à déterminer. La prise en compte de la valeur de la donnée mesurée de ce pixel risque d'affecter fortement le résultat obtenu. Une telle approche peut nécessiter plusieurs itérations.

Par exemple, la méthode M-estimateurs basée sur des statistiques robustes peut être appliquée avec plusieurs itérations.

A la première itération, on détermine une valeur représentative pour un point de la grille à partir des valeurs pondérées d'une donnée mesurée (par exemple, la luminance) des pixels contenus dans la zone d'influence de ce point. La pondération appliquée est fonction de la distance entre le pixel et le point de la grille considéré.

A l'itération suivante, la pondération appliquée à la valeur d'un pixel devient fonction de l'écart entre la valeur représentative déterminée à l'itération précédente pour le point de la grille considéré et la valeur de la donnée mesurée de ce pixel.

Le nombre d'itérations est défini par l'observation d'un critère représentatif de la dispersion des valeurs de la donnée mesurée autour de la valeur représentative déterminée. Le critère utilisé peut être par exemple la variance, la valeur médiane des écarts, etc. On peut choisir d'arrêter les itérations quand deux itérations successives donnent deux résultats proches de la valeur représentative. On peut aussi prédéfinir un nombre déterminé d'itérations.

La figure 4 illustre une approche basée sur des statistiques robustes appliquée à l'invention.

L'axe des x correspond aux pixels d'une zone d'influence pris en compte pour la détermination de la valeur représentative du point de la grille correspondant à cette zone. Ainsi, la figure 4 fait apparaître 7 pixels, Xi à X₇.

L'axe des y correspond aux valeurs de la donnée mesurée pour ces pixels et à la valeur représentative du point de la grille considéré.

Le pixel X₄ est un pixel dont la valeur de la donnée mesurée est très éloignée des valeurs des autres pixels. La détermination de la valeur représentative du point à partir, par exemple, de la moyenne pondérée des valeurs de la donnée mesurée des pixels subit l'effet de ce pixel X₄. On obtient alors une valeur représentative pour le point de la grille considéré égale à MC.

La détermination de la valeur représentative du point basée sur des statistiques robustes permet d'écarter l'effet de ce pixel X₄. On obtient alors une valeur représentative pour le point de la grille considéré égale à MR, inférieure à MC. Ainsi l'effet du pixel est atténué pour la détermination de la valeur représentative du point.

L'objectif d'une telle approche est d'obtenir un descripteur de la région d'intérêt considérée moins sensible aux transformations de l'image.

Ainsi, en référence à la figure 4, pour modifier significativement la valeur de MC, il suffit de modifier la valeur de la donnée mesurée pour le pixel x₄ alors que pour modifier significativement la valeur de MR, il faut modifier les valeurs de la donnée mesurée de plusieurs pixels. Par exemple, la valeur de la luminance de pixels d'une tâche brillante dans une zone sombre peut être fortement modifiée par un changement de résolution de l'image (ou par une autre transformation) tandis que les valeurs des pixels de la zone sombre sont moins affectées par une telle transformation. Cette transformation devient non perceptible pour une valeur représentative déterminée par l'application d'une approche basée sur des statistiques robustes. En effet, dans ce cas, la valeur représentative est celle partagée par une majorité de pixels.

Ainsi, l'utilisation de statistiques robustes permet d'obtenir un descripteur plus robuste à des transformations locales de l'image considérée.

A l'issue de l'étape E4, on dispose d'un ensemble de valeurs représentatives, chacune de ces valeurs représentatives correspondant à un point de la grille définie pour une région d'intérêt.

Au cours de l'étape suivante E5, on compare les valeurs représentatives obtenues au cours de l'étape précédente E4 avec au moins une valeur de référence.

L'ordre de traitement des points ainsi que l'ordre de comparaison avec au moins une valeur de référence sont quelconques. Ils doivent néanmoins être les mêmes pour toute mise en œuvre ultérieure du procédé (par exemple, pour la détermination de descripteurs d'un contenu requête pour effectuer de la détection de copies).

A titre d'exemple, la au moins une valeur de référence peut être la valeur représentative déterminée pour le point central de la grille, la moyenne des valeurs représentatives obtenues pour les points de la grille, etc.

Selon un autre exemple, la au moins une valeur de référence est calculée sur un ensemble de pixels différent de celui utilisé pour déterminer la valeur représentative en un point de la grille. Cet ensemble de pixels comporte, par exemple, les pixels contenus dans la zone d'influence d'un point de la grille et quelques pixels voisins. Le résultat de la comparaison est converti en valeurs binaires.

Par exemple, si la valeur représentative d'un point de la grille est supérieure à la au moins une valeur de référence, le résultat de la comparaison est égal à 1. Inversement, si la valeur représentative d'un point de la grille est inférieure à la au moins une valeur de référence, le résultat de la comparaison est égal à 0.

Le résultat de la comparaison peut être exprimé sur un plus grand nombre de valeurs binaires afin d'affiner l'écart avec la au moins une valeur de référence. Par exemple, si la valeur représentative d'un point de la grille est très supérieure, légèrement supérieure, légèrement inférieure, très inférieure à la au moins une valeur de référence, le résultat de la comparaison est égal respectivement à 11 , 10, 01 , 00.

Ces exemples sont illustratifs de l'invention et non limitatifs de celle-ci. Les valeurs binaires ainsi obtenues sont concaténées suivant un ordre prédéfini. Le résultat de cette concaténation définit un descripteur de la région d'intérêt considérée de l'image.

Le descripteur étant obtenu en comparant les valeurs représentatives des points de la grille avec au moins une valeur de référence, celui-ci est indépendant de variations globales dans la région d'intérêt considérée dues à des transformations appliquées à l'image.

Dans ce qui précède, on a considéré au moins une valeur de référence identique pour tous les points de la grille.

En variante, on peut considérer au moins une valeur de référence variable d'un point de la grille à un autre.

Selon une autre variante, on peut considérer plusieurs valeurs de référence pour un même point de la grille.

Les étapes précédentes E2 à E5 du procédé sont ensuite appliquées aux régions d'intérêt restantes extraites au cours de l'étape E1. Un descripteur est ainsi déterminé pour les régions d'intérêt extraites de l'image. L'image est décrite par l'ensemble des descripteurs des régions d'intérêt ainsi obtenus.

Le procédé selon l'invention comporte également une étape E6 facultative de traitement additionnel.

Cette étape de traitement additionnel permet d'obtenir un descripteur robuste à des transformations simples subies par une image d'origine comportant au moins une région d'intérêt.

Une transformation simple est telle qu'appliquée une première fois à une image d'origine puis appliquée une seconde fois à l'image transformée résultante on obtient l'image d'origine. Il s'agit d'une involution. A titre d'exemple, il s'agit d'une symétrie de l'image par rapport à un axe horizontal et/ou vertical, d'une inversion de luminance (image négative), etc.

Préalablement à cette étape E6, on dispose des descripteurs (dits d'origine) des régions d'intérêt d'une image d'origine déterminés par application des étapes E2 à E5 précédentes du procédé. Tel que décrit précédemment, ces descripteurs d'origine se présentent sous forme d'une succession de valeurs binaires.

On applique une ou plusieurs transformations simples à cette image d'origine (symétrie par rapport à un axe horizontal et/ou vertical, inversion de luminance, etc.).

Puis, on détermine les descripteurs des régions d'intérêt de l'image transformée. Compte tenu de la nature des transformations appliquées, les régions d'intérêt de l'image transformée ne sont pas modifiées en forme et en taille et se déduisent des régions d'intérêt de l'image d'origine en fonction de la transformation appliquée (par exemple, par symétrie si la transformation est une symétrie selon un axe horizontal et/ou vertical). Ainsi, à une région d'intérêt de l'image transformée correspond une région d'intérêt de l'image d'origine. On désigne par descripteurs additionnels, les descripteurs des régions d'intérêt de l'image transformée.

Un descripteur additionnel d'une région d'intérêt de l'image transformée est obtenu en permutant et/ou en prenant le complémentaire de certaines valeurs binaires du descripteur d'origine de la région d'intérêt correspondante de l'image d'origine. Ainsi, il n'est pas nécessaire d'appliquer les étapes E2 à E5 décrites précédemment pour obtenir un descripteur additionnel d'une région d'intérêt d'une image transformée.

A l'issue de l'étape E6, on dispose alors de deux descripteurs, un descripteur d'origine pour une région d'intérêt de l'image d'origine et un descripteur additionnel pour la région d'intérêt correspondante de l'image transformée. On en conserve un seul (par exemple, le plus petit des deux) pour représenter les deux régions d'intérêt considérées.

De cette façon, une région d'intérêt et la région symétrique par rapport à un axe vertical et/ou horizontal ou une région d'intérêt et la région inversée en terme de luminance, etc. ont le même descripteur.

Le nombre et la nature des transformations appliquées à l'image d'origine sont quelconques. Ils doivent néanmoins être les mêmes pour toute mise en œuvre ultérieure du procédé (par exemple, pour la détermination de descripteurs d'un contenu requête pour effectuer de la détection de copies).

La figure 5 représente un mode de réalisation d'un dispositif apte à mettre en œuvre un procédé de détermination de descripteur d'une région d'intérêt dans une image tel que décrit ci-dessus.

Le dispositif comporte un module M1 d'extraction de régions d'intérêt d'une image.

Le module M1 met en œuvre l'étape E1 telle que décrite ci-dessus. Le dispositif comprend aussi un module M2 de définition d'une grille de points pour une région d'intérêt. En référence à l'étape E2, le module M2 permet de définir une grille de points pour une région d'intérêt extraite par le module M1 ou pour une région obtenue par dilatation d'une région d'intérêt extraite par le module M1.

En référence à l'étape E3, le module M3 est un module d'association d'une zone d'influence aux points de la grille.

Le dispositif comprend également un module M4 de détermination d'une valeur représentative par point de la grille tel que décrit à l'étape E4.

En référence à l'étape E5, le dispositif comprend aussi un module M5 de comparaison des valeurs représentatives obtenues en sortie du module M4 avec au moins une valeur de référence.

Le dispositif comporte également un module M6 de traitement additionnel d'une image tel que décrit à l'étape E6.

Le dispositif comprend en outre une unité centrale de commande, non représentée, connectée à chacun des modules M1 à M6 et adaptée pour commander leur fonctionnement.

Les modules M1 à M6 peuvent être des modules logiciels formant un programme d'ordinateur. L'invention concerne donc également un programme d'ordinateur pour un dispositif de détermination de descripteur d'une région d'intérêt dans une image comprenant des instructions de code de programme pour faire exécuter le procédé précédemment décrit par le dispositif.

Les différents modules logiciels peuvent être stockés dans ou transmis par un support de données. Celui-ci peut être un support matériel de stockage, par exemple un CD-ROM, une disquette magnétique ou un disque dur, ou bien un support transmissible tel qu'un signal électrique, optique ou radio.

L'invention trouve notamment, mais pas seulement, des applications pour des sites d'échange de contenus multimédia.

Par exemple, l'invention peut être utilisée pour détecter plusieurs copies d'un même contenu enregistrées sur un tel site. En effet, un même contenu multimédia peut être enregistré plusieurs fois avec une désignation (nom, description, etc.) différente à chaque fois. La détection de copies mise en œuvre dans un moteur de recherche de contenu, permet de supprimer les doublons et de fournir des résultats de recherche dé-doublonnés.

Certains contenus multimédia sont protégés par des droits d'auteur. L'invention permet également de détecter de tels contenus illicitement mis à la disposition du public sur des sites d'échange de contenus.

Claims

REVENDICATIONS

1. Procédé de détermination de descripteur d'une région d'intérêt dans une image, caractérisé en ce qu'il comporte des étapes de :

- définition (E2) d'une grille de points pour la région d'intérêt,

- association (E3) d'une zone d'influence respective aux points de la grille de points,

- détermination (E4) d'une valeur représentative par point de la grille de points en fonction de sa zone d'influence respective,

- comparaison (E5) de la valeur représentative obtenue par point de la grille de points avec au moins une valeur de référence déterminée à partir des valeurs représentatives des points de la grille de points, le résultat de la comparaison étant exprimé en au moins une valeur binaire; - concaténation des résultats obtenus pour les points de la grille pour définir un descripteur de la région d'intérêt de l'image.

2. Procédé selon la revendication 1 , caractérisé en ce que, au cours de l'étape de détermination (E4), la valeur représentative d'un point de la grille de points est déterminée en fonction des valeurs pondérées d'une donnée mesurée pour les pixels de l'image contenus dans la zone d'influence de ce point.

3. Procédé selon la revendication 2, caractérisé en ce que la valeur représentative d'un point de la grille de points est égale à la moyenne pondérée des valeurs de la donnée mesurée pour les pixels de l'image contenus dans la zone d'influence de ce point.

4. Procédé selon la revendication 2, caractérisé en ce que la valeur représentative d'un point de la grille de points est égale à la valeur médiane pondérée des valeurs de la donnée mesurée pour les pixels de l'image contenus dans la zone d'influence de ce point.

5. Procédé selon la revendication 2, caractérisé en ce que la valeur représentative d'un point de la grille de points est déterminée par l'application d'une méthode basée sur des statistiques robustes.

6. Procédé selon l'une quelconque des revendications 1 à 5 appliqué à une image d'origine et conduisant à la détermination de descripteur d'origine d'une région d'intérêt de l'image d'origine, caractérisé en ce qu'il comporte en outre une étape de traitement additionnel (E6) comprenant :

- la transformation de l'image d'origine pour obtenir une image transformée comportant une région d'intérêt qui se déduit d'une région d'intérêt de l'image d'origine en fonction de la transformation appliquée, - la détermination de descripteur additionnel d'une région d'intérêt de l'image transformée à partir du descripteur d'origine de la région d'intérêt respective de l'image d'origine,

- la représentation d'une région d'intérêt de l'image d'origine et la représentation de la région d'intérêt correspondante de l'image transformée par un même descripteur choisi entre le descripteur d'origine et le descripteur additionnel.

7. Dispositif de détermination de descripteur d'une région d'intérêt dans une image, caractérisé en ce qu'il comporte des moyens de : - définition (M2) d'une grille de points pour la région d'intérêt,

- association (M3) d'une zone d'influence respective aux points de la grille de points,

- détermination (M4) d'une valeur représentative par point de la grille de points en fonction de sa zone d'influence respective, - comparaison (M5) de la valeur représentative obtenue par point de la grille de points avec au moins une valeur de référence déterminée à partir des valeurs représentatives des points de la grille de points, le résultat de la comparaison étant exprimé en au moins une valeur binaire;

8. Produit programme d'ordinateur comprenant des instructions de code de programme enregistrées sur ou transmises par un support lisible par un ordinateur, pour mettre en œuvre les étapes du procédé selon l'une quelconque des revendications 1 à 6 lorsque ledit programme fonctionne sur ordinateur.