FR2935498A1 - Procede d'identification d'un objet dans une archive video. - Google Patents
Procede d'identification d'un objet dans une archive video. Download PDFInfo
- Publication number
- FR2935498A1 FR2935498A1 FR0855737A FR0855737A FR2935498A1 FR 2935498 A1 FR2935498 A1 FR 2935498A1 FR 0855737 A FR0855737 A FR 0855737A FR 0855737 A FR0855737 A FR 0855737A FR 2935498 A1 FR2935498 A1 FR 2935498A1
- Authority
- FR
- France
- Prior art keywords
- identified
- semantic feature
- archive
- images
- video archive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000012512 characterization method Methods 0.000 claims abstract description 19
- 230000000007 visual effect Effects 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 4
- 238000011524 similarity measure Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000011835 investigation Methods 0.000 description 2
- 238000001454 recorded image Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000016571 aggressive behavior Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000000280 densification Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 235000020281 long black Nutrition 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000135 prohibitive effect Effects 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/54—Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
- G06V20/47—Detecting features for summarising video content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
L'invention concerne un procédé d'identification d'un objet dans une archive vidéo comprenant une pluralité d'images acquises sur un réseau de caméras comportant une phase de caractérisation de l'objet à identifier et une phase de recherche dudit objet dans ladite archive, ladite phase de caractérisation consistant à définir pour ledit objet au moins une caractéristique sémantique extractible, même sur des images à basse résolution, de ladite archive vidéo.
Description
1 PROCEDE D'IDENTIFICATION D'UN OBJET DANS UNE ARCHIVE VIDEO
DESCRIPTION DOMAINE TECHNIQUE L'invention se situe dans la recherche d'informations dans une archive vidéo et se rapporte plus spécifiquement à un procédé et à un dispositif d'identification d'un objet dans une archive vidéo comprenant une pluralité d'images acquises sur un réseau de caméras.
L'invention concerne également un programme d'ordinateur mémorisé sur un support d'enregistrement et adapté, lorsqu'il est exécuté sur un ordinateur, pour mettre en oeuvre le procédé selon l'invention. ÉTAT DE LA TECHNIQUE ANTÉRIEURE Les bases de données modernes permettent d'archiver de plus en plus d'informations de différents types (données, texte, audio, vidéo...). L'efficacité de l'exploitation d'une base dépend, notamment, du modèle utilisé pour structurer les données dans la base.
Dans un modèle hiérarchique, l'information est organisée de manière arborescente selon une hiérarchie, accessible uniquement à partir de la racine de cette arborescence. Le défaut principal de cette représentation provient du fait que le point d'accès à l'information est unique et est constitué par la racine de l'arbre hiérarchique, d'où des problèmes dans la recherche d'informations. 2 Les données peuvent également être organisées selon un modèle réseau sous forme de graphe où les entités archivées sont reliées entre elles à l'aide de pointeurs logiques.
On connaît également des bases de données orientées objets qui sont capables de stocker une multitude d'informations dans des objets tels que par exemple une fiche individuelle, une machine, une ressource... à laquelle on associe des valeurs et des attributs. Plusieurs recherches ont proposé un modèle sémantique pour les bases de données dans lequel les données sont organisées selon un schéma conceptuel (concept map en anglais) consistant en une représentation d'un ensemble de concepts reliés sémantiquement entre eux. Toutefois, aucun modèle sémantique n'est encore disponible. Quel que soit le type de base de données, un problème fondamental provient du fait qu'il est particulièrement difficile d'identifier rapidement un objet dans une archive vidéo d'une base de données contenant un grand nombre d'images, particulièrement lorsque l'on dispose de très peu d'informations sur l'objet recherché.
Une telle situation se présente par exemple lors de la recherche, à partir d'un simple signalement, d'un individu non préalablement identifié, dans une archive de vidéosurveillance contenant des milliers d'heures d'enregistrement. 3 Dans ce contexte, il est actuellement nécessaire de visionner manuellement toutes les archives vidéo enregistrées. Outre le fait que ce mode opératoire soit excessivement fastidieux et le deviendra d'autant plus avec la multiplication des caméras dans les réseaux de caméras de télésurveillance et la densification de ces réseaux, il est inadapté aux situations d'urgence en cas de recherche d'un individu en fuite. De plus, il implique des temps d'analyse prohibitifs incompatibles avec la nécessité de faire rapidement progresser les enquêtes. Un but de l'invention est d'optimiser la navigation dans une telle base de données en automatisant le dépouillement afin d'accélérer la procédure de recherche dans une archive vidéo. Un autre but de l'invention est de permettre à un opérateur humain d'avoir accès à des résumés visuels structurés des objets présents dans une base de données vidéo hétérogène. Un autre but de l'invention est de fournir à l'opérateur humain des outils optimisés de navigation dans la base de données grâce à une stratégie de recherche interactive.
EXPOSÉ DE L'INVENTION Ces buts sont atteints au moyen d'un procédé d'identification d'un objet dans une archive vidéo comprenant une pluralité d'images acquises sur un réseau de caméras, comportant une phase de caractérisation de l'objet à identifier et une phase de recherche dudit objet dans ladite archive, ladite phase 4 de caractérisation consistant à définir pour ledit objet au moins une caractéristique semantique extractible de ladite archive vidéo, même sur des images à basse résolution, et directement interprétable(s) par un opérateur, ladite phase de recherche consistant à filtrer les images de ladite archive vidéo en fonction de la caractéristique sémantique définie précédemment, à extraire automatiquement de ladite archive les images contenant un objet ayant ladite caractéristique sémantique, à définir un groupe d'objets comportant tous les objets présents dans l'archive vidéo présentant ladite caractéristique sémantique, et à mesurer la similitude de l'objet à identifier avec tout autre objet du groupe défini précédemment en fonction de caractéristiques visuelles et de contraintes spatio-temporelles sur le parcours de l'objet à identifier dans l'espace couvert par le réseau de caméras. Selon une autre caractéristique de l'invention, l'étape de mesure de similitude comporte les étapes suivantes : - estimer la compatibilité de la caractérisation sémantique de l'objet à identifier avec la caractéristique sémantique extraite des images des autres objets du groupe défini précédemment, et/ou, estimer la compatibilité spatio-temporelle du parcours de l'objet à identifier avec le parcours d'un autre objet du groupe défini précédemment ayant une caractéristique sémantique similaire et n'ayant aucune caractéristique incompatible à celle de l'objet à identifier, Préférentiellement, le procédé selon l'invention comporte en outre une étape consistant à affecter à chaque mesure de similitude un coefficient de vraisemblance. 5 En outre, le procédé selon l'invention comporte une étape consistant à fusionner les résultats des étapes de la mesure de similitude de manière à définir une mesure unique unifiée de similitude, permettant de définir une distance dans l'espace des objets à identifier. De plus, le procédé selon l'invention comporte une structuration dynamique de cet espace des objets d'intérêt, au moyen de la distance définie précédemment, de manière à pouvoir naviguer de façon interactive dans l'archive vidéo selon un arbre hiérarchique. L'invention s'applique dans la recherche d'une personne humaine dans laquelle ledit objet à identifier est une personne humaine pour laquelle on dispose uniquement d'un signalement sommaire. Dans cette application, la caractéristique sémantique de ladite personne humaine consiste en une caractéristique physique visible et/ou en un accessoire visible. L'invention est particulièrement avantageuse pour rechercher un suspect dans une archive vidéo comportant plusieurs séquences vidéo prises par plusieurs caméras réparties dans un espace couvert par un réseau de caméras de télésurveillance. Le procédé selon l'invention est mis en oeuvre par un dispositif d'identification d'un objet dans une archive vidéo comprenant une pluralité 6 d'images acquises sur un réseau de caméras, caractérisé en ce qu'il comporte un module de caractérisation de l'objet à identifier et un module de recherche dudit objet dans ladite archive, ledit module de caractérisation comportant des moyens pour définir pour ledit objet au moins une caractéristique sémantique extractible de ladite archive vidéo, même sur des images à basse résolution, et directement interprétable par un opérateur, ledit module de recherche comportant des moyens pour filtrer les images de ladite archive vidéo en fonction de la caractéristique sémantique définie précédemment, des moyens pour extraire automatiquement de ladite archive les images contenant un objet ayant ladite caractéristique sémantique, des moyens pour définir un groupe d'objets comportant tous les objets présents dans l'archive vidéo présentant ladite caractéristique sémantique, et des moyens pour mesurer la similitude de l'objet à identifier avec tout autre objet du groupe défini précédemment en fonction de caractéristiques visuelles et de contraintes spatio- temporelles sur le parcours de l'objet à identifier dans l'espace couvert par le réseau de caméras. Préférentiellement, lesdits moyens de mesure de similitude comportent : un premier module de calcul configuré pour estimer la compatibilité de la caractéristique sémantique de l'objet à identifier avec la caractéristique sémantique extraite des images des autres objets du groupe défini précédemment, et/ou, - un deuxième module de calcul configuré pour estimer la compatibilité spatio-temporelle du 30 7 parcours de l'objet à identifier avec le parcours d'un autre objet du groupe défini précédemment ayant une caractéristique sémantique similaire à celle de l'objet à identifier.
Le procédé selon l'invention est implémenté dans ledit dispositif par un programme d'ordinateur mémorisé sur un support d'enregistrement et adapté, lorsqu'il est exécuté sur un ordinateur, pour identifier un objet dans une archive vidéo comprenant une pluralité d'images acquises sur un réseau de caméras, ledit programme d'ordinateur comportant des instructions pour réaliser une phase de caractérisation de l'objet à identifier et des instructions pour réaliser une phase de recherche dudit objet dans ladite archive, ladite phase de caractérisation consistant à définir pour ledit objet au moins une caractéristique sémantique extractible de ladite archive vidéo, même sur des images à basse résolution, et directement interprétable par un opérateur, ladite phase de recherche consistant à filtrer les images de ladite archive vidéo en fonction de la caractéristique sémantique définie précédemment, à extraire automatiquement de ladite archive les images contenant un objet ayant ladite caractéristique sémantique, à définir un groupe d'objets comportant tous les objets présents dans l'archive vidéo présentant ladite caractéristique sémantique, et à mesurer la similitude de l'objet à identifier avec tout autre objet du groupe défini précédemment en fonction de caractéristiques visuelles et de contraintes sur le parcours spatio- 8 temporel de l'objet à identifier dans l'espace couvert par le réseau de caméras. BRÈVE DESCRIPTION DES DESSINS D'autres caractéristiques et avantages de l'invention ressortiront de la description qui suit, prise à titre d'exemple non limitatif, en référence à la figure annexée. EXPOSÉ DÉTAILLÉ DE MODES DE RÉALISATION PARTICULIERS L'invention sera décrite dans la cadre d'une application particulière dans laquelle on considère un réseau étendu de caméras de vidéosurveillance existant, comme par exemple celui d'un réseau de transport urbain ou celui d'un aéroport. On se place dans le cadre typique d'une enquête suite à un incident (agression, vol, acte terroriste). On considère également que plusieurs témoins fournissent une description d'un suspect. L'objectif est alors de retrouver rapidement des images de l'incident, si elles existent, et de retrouver le parcours complet du suspect dans la zone couverte par le réseau de caméras pour en déterminer le parcours spatio-temporel et pour l'identifier. L'approche classique consiste à visionner les images prises par les caméras proches du lieu indiqué de l'incident et à des instants proches de celui indiqué par les témoins afin de repérer l'incident dans l'archive vidéo filmé. L'approche proposée par la présente invention consiste à exploiter les signalements donnés 30 par les témoins pour systématiser la recherche du 9 suspect et pour filtrer les données avant d'optimiser la recherche des images dans l'archive de vidéosurveillance. A cet effet, la description du suspect fournie par les témoins est exploitée pour définir des informations sémantiques sur le suspect. Ainsi, ce dernier peut par exemple être grand, très mince, porter un long manteau noir et des lunettes de soleil, avec une barbe et les cheveux longs. Parmi ces caractéristiques, certaines sont exploitables par le procédé selon l'invention et programmées directement dans le système. Ce dernier effectue automatiquement un prétraitement de l'ensemble des données vidéo présentes dans l'archive. Ce prétraitement comporte les étapes suivantes: analyser tous les objets en mouvement et les pister en prenant notamment en compte les occlusions et les arrêts ; détecter les personnes dans les images de l'archive, caractériser chacune des personnes identifiées grâce à des algorithmes spécialisés qui, à partir d'une entrée spécifiée, donnent en sortie une liste d'attributs sémantiques et pour chaque attribut une mesure de confiance, de probabilité et/ou de plausibilité. Dans un mode préféré de réalisation de l'invention, la détection des mouvements est réalisée par modélisation de la scène par des mélanges de gaussiennes (le fond étant fixe), et le pistage est réalisé au moyen d'un filtre de Kalman, puis complété 10 par une analyse locale en utilisant des descripteurs locaux de type SIFT ou SURF par exemple, voire des modélisations plus simples et plus ponctuelles, afin de résoudre les ambiguïtés dues aux occlusions.
Dans ce mode de réalisation, la détection des personnes est obtenue par exemple en détectant les visages par utilisation des techniques à base de cascades de classifieurs telle que Adaboost et de filtres de Haar, puis éventuellement en remontant à l'enveloppe corporelle complète par des analyses de formes avec, éventuellement, des postulats sur des ratios physionomiques ou détecteurs d'individus à base de techniques d'apprentissage. Préférentiellement, les algorithmes spécialisés utilisés pour caractériser chacune des personnes sont par exemple des classifieurs capables d'indiquer si un individu a des cheveux longs ou courts, porte ou non une barbe, présente un visage très arrondi ou plutôt allongé, affiche de l'embonpoint ou dispose d'une silhouette svelte, etc. Avantageusement, une mesure de fiabilité de la réponse est fournie pour chacune des informations extraites. Ces caractérisations (ou descripteurs extraits des images) sont directement interprétables par un opérateur humain et peuvent être mises directement en relation avec les informations sémantiques recueillies lors d'un témoignage. En outre, elles sont calculées même sur des images à basse résolution. Iil n'est en effet pas nécessaire d'avoir des centaines de pixels de large sur un 11 visage pour déterminer si une personne porte des lunettes. Dans le mode préféré de réalisation, les classifieurs sont obtenus selon la méthode décrite ci-après: on extrait des descripteurs images localement sur les vignettes extraites (par exemple, pour déterminer si une personne porte une barbe, on s'intéresse à la moitié inférieure du masque de détection du visage) ; ces descripteurs peuvent être par exemple des histogrammes de couleurs, de gradients, des propriétés de répartition spatiale caractérisant les textures, des réponses à des filtres (de Gabor par exemple), etc; on construit ensuite des classifieurs par apprentissage statistique (machine learning) afin d'indiquer quels visages disposent de la caractéristique barbe ; une approche alternative consiste à apprendre des mesures de distance spécifiques à ces caractéristiques, puis à exploiter ces distances spécifiques pour déterminer la proximité ou la différence entre deux visages sur certains aspects sémantiques. La mesure de fiabilité peut être fournie directement par le classifieur.
Elle peut également être modélisée a posteriori en traduisant par exemple les sorties précédentes en probabilités. De plus, il est également possible de faire intervenir des critères sur la qualité des images de l'archive pour déterminer si l'estimation du trait sémantique sur une vignette est fiable ou pas. Ainsi, une image très bruitée ou très altérée 12 par des artefacts de compression est beaucoup plus délicate à analyser, et dans ce cas les estimations sont naturellement moins sûres et moins fiables. Lorsque l'on dispose d'informations spatio- temporelles permettant de relier des caméras, celles- ci sont exploitées pour établir des premiers liens entre les observations faites dans diverses caméras. Ainsi, si l'on connaît les positionnements relatifs des différentes caméras et des emprises des champs de vision, il est possible de mettre en place des critères de compatibilités spatiales et temporelles entre les mouvements dans les différentes caméras ; cela permet notamment de dire qu'une entité dont on a mesuré la vitesse globalement constante ne peut pas apparaître avant une certaine date dans une vidéo et apparaîtra vraisemblablement autour d'une date prévisible, de part la connaissance de la vitesse de déplacement. Les contraintes de compatibilité spatio-temporelles peuvent être binaires (une personne ne peut pas être en deux endroits en même temps) ou floues (valeur flottante de confiance, i.e. plus ou moins de probabilité). Grâce à ces contraintes, des observations entre plusieurs caméras peuvent être mises en correspondance, des relations plus ou moins complexes et fiables sont donc mises en place entre toutes les entités de la base. A partir de ce point, l'archive de vidéosurveillance est représentée par une base de données sémantiques associées à chaque individu vu dans au moins l'une des vidéos. 13 La structuration de la base de données sémantiques comporte les étapes suivantes : On exploite le signalement transmis par les témoins. Ce signalement comporte des caractérisations sémantiques, avec éventuellement des mesures de confiance associées en fonction des souvenirs des témoins et de la cohérence des déclarations ; on filtre, la base de données, à partir desdites caractéristiques sémantiques en ne conservant que les individus présentant ces traits caractéristiques en supprimant tous les individus ne présentant pas ces traits; - on regroupe de manière hiérarchique tous les individus ayant des apparences semblables, en d'autres termes, on regroupe les individus sur des critères de similarité en établissant pour chaque groupe et pour chaque sous-groupe une caractérisation commune des individus du groupe. Etant donné que les mesures de similarité entre individus se basent sur des critères sémantiques, le regroupement hiérarchique peut également être qualifié de sémantique. Ainsi deux images ne sont pas groupées uniquement du fait qu'elles se ressemblent (deux individus portant exactement les mêmes vêtements) mais aussi parce qu'elles présentent une ou plusieurs informations descriptives communes (deux individus portant une barbe et des lunettes de soleil, par exemple). Avantageusement, la structuration de la base de données peut être dynamique. A cet effet, il suffit d'ajouter, supprimer ou d'adapter des critères sémantiques pour que la structuration hiérarchique 14 puisse être mise à jour pour refléter les attentes de l'opérateur. Ainsi, il est possible de nuancer la fiabilité d'une information de corpulence ou ajouter une nouvelle information sur la forme du visage et le port d'une casquette. Il est par ailleurs envisageable de proposer automatiquement de nouvelles structuration à l'utilisateur. Une fois la base de données structurée, l'utilisateur peut naviguer efficacement dans la base de données en fonction des individus et de leurs caractéristiques et non plus en fonction des caméras et du défilement du temps. Lorsqu'un individu est désigné, la séquence vidéo correspondante peut être visualisée ; cette désignation permet de spécifier plus précisément l'apparence visuelle, qui permet de compléter les mesures de similarité. Par ailleurs, elle fournit une information spatio-temporelle sur la localisation de l'individu. Ainsi, la base de données déjà filtrée est à nouveau filtrée pour supprimer tous les individus dont les positionnements et les dates d'acquisition ne correspondent pas avec les contraintes spatio-temporelles du déplacement normal de l'individu désigné ; Les individus restants sont ordonnés selon une combinaison de facteurs sémantiques, de caractéristiques d'apparence et de la probabilité qu'il s'agisse bien de l'individu désigné, grâce aux contraintes spatio-temporelles sur le déplacement (une distance pouvant être estimée, une vitesse probable pouvant être calculée et une vitesse maximale définie). 15 L'utilisateur peut alors parcourir cette liste ordonnée et effectuer très efficacement et très rapidement le pistage (tracking) et le back-tracking (qui consiste à revenir dans le temps) de l'individu désigné, en parcourant l'archive via les contraintes spatio-temporelles, les propriétés sémantiques et les critères d'apparence, sans avoir à se préoccuper de la sélection des caméras ou de l'horodatage des données. La figure annexée décrit les étapes principales du procédé selon l'invention dans le cadre de l'application décrites ci-dessus. Au cours de la phase T1 des images d'une scène sont enregistrées (étape 2) par un réseau de caméra 4 comportant plusieurs caméras réparties géographiquement sur une zone surveillée. A l'étape 6, on sélectionne une plage temporelle au cours de laquelle les images enregistrées seront analysées. Au cours de la phase T2, on détecte les individus dans les images enregistrées (étape 8) et on génère (étape 10) des imagettes des individus détectés. Au cours de la phase T3, on extrait (étape 12) des caractéristiques sémantiques desdites imagettes. Celles-ci sont ensuite codées et indexées.
A l'étape 14, les imagettes présentant une ou plusieurs informations descriptives communes sont groupées. Un fichier comportant un résumé visuel des images est généré à l'étape 16, puis affiché à l'étape 18.
16 La phase T4 décrit l'exploitation par un opérateur 20 de la base de données constituée au cours des phases T1 à T3. A l'étape 22, l'opérateur désigne la plage temporelle de l'événement filmé. A l'étape 24, l'opérateur fournit, via une interface utilisateur, des attributs de l'individu recherché. Le système affiche (étape 26) les images filtrées à partir de la base de données structurée générées au cours des étapes précédentes. Le mode de réalisation particulière décrite ci-dessus est appliqué aux individus. Le concept est généralisable à d'autres entités tels que des véhicules par exemple.
Claims (11)
- REVENDICATIONS1. Procédé d'identification d'un objet dans une archive vidéo comprenant une pluralité d'images acquises sur un réseau de caméras, caractérisé en ce qu'il comporte une phase de caractérisation de l'objet à identifier et une phase de recherche dudit objet dans ladite archive, ladite phase de caractérisation consistant à définir pour ledit objet au moins une caractéristique semantique extractible de ladite archive vidéo, même sur des images à basse résolution, et directement interprétable par un opérateur, ladite phase de recherche consistant à filtrer les images de ladite archive vidéo en fonction de la caractéristique sémantique définie précédemment, à extraire automatiquement de ladite archive les images contenant un objet ayant ladite caractéristique sémantique, à définir un groupe d'objets comportant tous les objets présents dans l'archive vidéo présentant ladite caractéristique sémantique, et à mesurer la similitude de l'objet à identifier avec tout autre objet du groupe défini précédemment en fonction de caractéristiques visuelles et de contraintes spatio-temporelles sur le parcours de l'objet à identifier dans l'espace couvert par le réseau de caméras.
- 2. Procédé selon la revendication 1, dans lequel ladite mesure de similitude comporte les étapes suivantes . - estimer la compatibilité de la caractérisation sémantique de l'objet à identifier avec 18 la caractéristique sémantique extraite des images des autres objets du groupe défini précédemment, et/ou, estimer la compatibilité spatio- temporelle du parcours de l'objet à identifier avec le parcours d'un autre objet du groupe défini précédemment ayant une caractéristique sémantique similaire et n'ayant aucune caractéristique incompatible à celle de l'objet à identifier.
- 3. Procédé selon la revendication 2, comportant en outre une étape consistant à affecter à chaque mesure de similitude un coefficient de vraisemblance.
- 4. Procédé selon la revendication 3, comportant en outre une étape consistant à fusionner les résultats des étapes de la mesure de similitude de manière à définir une mesure unique unifiée de similitude, permettant de définir une distance dans l'espace des objets à identifier.
- 5. Procédé selon la revendication 3, comportant en outre une étape consistant à réaliser une structuration dynamique de l'espace des objets à identifier au moyen de ladite distance de manière à pouvoir naviguer de façon interactive dans l'archive vidéo selon un arbre hiérarchique.
- 6. Procédé selon la revendication 5, dans 30 lequel ledit objet à identifier est une personne humaine. 19
- 7. Procédé selon la revendication 6, dans lequel la caractéristique sémantique de ladite personne humaine consiste en une caractéristique physique visible.
- 8. Procédé selon la revendication 6, dans lequel la caractéristique sémantique de ladite personne humaine consiste en un accessoire vestimentaire visible.
- 9. Dispositif d'identification d'un objet dans une archive vidéo comprenant une pluralité d'images acquises sur un réseau de caméras, caractérisé en ce qu'il comporte un module de caractérisation de l'objet à identifier et un module de recherche dudit objet dans ladite archive, ledit module de caractérisation comportant des moyens pour définir pour ledit objet au moins une caractéristique sémantique extractible de ladite archive vidéo même sur des images à basse résolution, et directement interprétable par un opérateur, ledit module de recherche comportant des moyens pour filtrer les images de ladite archive vidéo en fonction de la caractéristique sémantique définie précédemment, des moyens pour extraire automatiquement de ladite archive les images contenant un objet ayant ladite caractéristique sémantique, des moyens pour définir un groupe d'objets comportant tous les objets présents dans l'archive vidéo présentant ladite caractéristique sémantique, et des moyens pour mesurer la similitude de l'objet à identifier avec tout autre 20 objet du groupe défini précédemment en fonction de caractéristiques visuelles et de contraintes spatio-temporelles sur le parcours de l'objet à identifier dans l'espace couvert par le réseau de caméras.
- 10. Dispositif selon la revendication 9, dans lequel lesdits moyens de mesure de similitude comportent . un premier module de calcul configuré 10 pour estimer la compatibilité de la caractéristique sémantique de l'objet à identifier avec la caractéristique sémantique extraite des images des autres objets du groupe défini précédemment, et/ou, un deuxième module de calcul configuré 15 pour estimer la compatibilité spatio-temporelle du parcours de l'objet à identifier avec le parcours d'un autre objet du groupe défini précédemment ayant une caractéristique sémantique similaire à celle de l'objet à identifier. 20
- 11. Programme d'ordinateur mémorisé sur un support d'enregistrement et adapté, lorsqu'il est exécuté sur un ordinateur, pour identifier un objet dans une archive vidéo comprenant une pluralité 25 d'images acquises sur un réseau de caméras, ledit programme d'ordinateur étant caractérisé en ce qu'il comporte des instructions pour réaliser une phase de caractérisation de l'objet à identifier et des instructions pour réaliser une phase de recherche dudit 30 objet dans ladite archive, ladite phase de caractérisation consistant à définir pour ledit objet5 21 au moins une caractéristique sémantique extractible à basse résolution de ladite archive vidéo et directement interprétable par un opérateur, ladite phase de recherche consistant à filtrer les images de ladite archive vidéo en fonction de la caractéristique sémantique définie précédemment, à extraire automatiquement de ladite archive les images contenant un objet ayant ladite caractéristique sémantique, à définir un groupe d'objets comportant tous les objets présents dans l'archive vidéo présentant ladite caractéristique sémantique, et à mesurer la similitude de l'objet à identifier avec tout autre objet du groupe défini précédemment en fonction de caractéristiques visuelles et de contraintes sur le parcours spatio- temporel de l'objet à identifier dans l'espace couvert par le réseau de caméras.
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0855737A FR2935498B1 (fr) | 2008-08-27 | 2008-08-27 | Procede d'identification d'un objet dans une archive video. |
EP09809332A EP2316082A1 (fr) | 2008-08-27 | 2009-08-26 | Procede d'identification d'un objet dans une archive video |
US13/059,962 US8594373B2 (en) | 2008-08-27 | 2009-08-26 | Method for identifying an object in a video archive |
CN200980133643.0A CN102187336B (zh) | 2008-08-27 | 2009-08-26 | 用于识别视频档案中的对象的方法 |
PCT/EP2009/060960 WO2010023213A1 (fr) | 2008-08-27 | 2009-08-26 | Procede d'identification d'un objet dans une archive video |
IL211129A IL211129A0 (en) | 2008-08-27 | 2011-02-08 | Method for identifying an object in a video archive |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0855737A FR2935498B1 (fr) | 2008-08-27 | 2008-08-27 | Procede d'identification d'un objet dans une archive video. |
Publications (2)
Publication Number | Publication Date |
---|---|
FR2935498A1 true FR2935498A1 (fr) | 2010-03-05 |
FR2935498B1 FR2935498B1 (fr) | 2010-10-15 |
Family
ID=40467086
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR0855737A Active FR2935498B1 (fr) | 2008-08-27 | 2008-08-27 | Procede d'identification d'un objet dans une archive video. |
Country Status (6)
Country | Link |
---|---|
US (1) | US8594373B2 (fr) |
EP (1) | EP2316082A1 (fr) |
CN (1) | CN102187336B (fr) |
FR (1) | FR2935498B1 (fr) |
IL (1) | IL211129A0 (fr) |
WO (1) | WO2010023213A1 (fr) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103052987A (zh) * | 2010-07-28 | 2013-04-17 | 国际商业机器公司 | 促进视频监控中的人物搜索 |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8239359B2 (en) * | 2008-09-23 | 2012-08-07 | Disney Enterprises, Inc. | System and method for visual search in a video media player |
JP5476955B2 (ja) * | 2009-12-04 | 2014-04-23 | ソニー株式会社 | 画像処理装置および画像処理方法、並びにプログラム |
US8515127B2 (en) | 2010-07-28 | 2013-08-20 | International Business Machines Corporation | Multispectral detection of personal attributes for video surveillance |
US8532390B2 (en) * | 2010-07-28 | 2013-09-10 | International Business Machines Corporation | Semantic parsing of objects in video |
US9134399B2 (en) | 2010-07-28 | 2015-09-15 | International Business Machines Corporation | Attribute-based person tracking across multiple cameras |
GB2492450B (en) * | 2011-06-27 | 2015-03-04 | Ibm | A method for identifying pairs of derivative and original images |
US10242099B1 (en) * | 2012-04-16 | 2019-03-26 | Oath Inc. | Cascaded multi-tier visual search system |
GB2519348B (en) * | 2013-10-18 | 2021-04-14 | Vision Semantics Ltd | Visual data mining |
CN104866538A (zh) * | 2015-04-30 | 2015-08-26 | 北京海尔广科数字技术有限公司 | 一种动态更新语义告警库的方法、网络及系统 |
US9912838B2 (en) * | 2015-08-17 | 2018-03-06 | Itx-M2M Co., Ltd. | Video surveillance system for preventing exposure of uninteresting object |
US11294949B2 (en) | 2018-09-04 | 2022-04-05 | Toyota Connected North America, Inc. | Systems and methods for querying a distributed inventory of visual data |
CN110647804A (zh) * | 2019-08-09 | 2020-01-03 | 中国传媒大学 | 一种暴力视频识别方法、计算机系统和存储介质 |
US20220147743A1 (en) * | 2020-11-09 | 2022-05-12 | Nvidia Corporation | Scalable semantic image retrieval with deep template matching |
CN112449249A (zh) * | 2020-11-23 | 2021-03-05 | 深圳市慧鲤科技有限公司 | 视频流处理方法及装置、电子设备及存储介质 |
FR3140725A1 (fr) * | 2022-10-10 | 2024-04-12 | Two - I | système de surveillance |
CN116303549A (zh) * | 2023-04-14 | 2023-06-23 | 北京合思信息技术有限公司 | 电子会计档案的查询方法、装置、服务器及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1260934A2 (fr) * | 2001-05-22 | 2002-11-27 | Matsushita Electric Industrial Co., Ltd. | Dispositif et procédé d'enregistrement de données de surveillance |
WO2007140609A1 (fr) * | 2006-06-06 | 2007-12-13 | Moreideas Inc. | Procédé et système pour l'analyse, l'amélioration et l'affichage d'images et de films vidéo, à des fins de communication |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1997010564A1 (fr) * | 1995-09-15 | 1997-03-20 | Interval Research Corporation | Procede de compression de plusieurs images video |
US7127087B2 (en) * | 2000-03-27 | 2006-10-24 | Microsoft Corporation | Pose-invariant face recognition system and process |
US6804684B2 (en) * | 2001-05-07 | 2004-10-12 | Eastman Kodak Company | Method for associating semantic information with multiple images in an image database environment |
AU2002361483A1 (en) * | 2002-02-06 | 2003-09-02 | Nice Systems Ltd. | System and method for video content analysis-based detection, surveillance and alarm management |
US20050232574A1 (en) * | 2002-07-02 | 2005-10-20 | Fumi Kawai | Video generation device, video generation method, and video storage device |
JP4013684B2 (ja) * | 2002-07-23 | 2007-11-28 | オムロン株式会社 | 個人認証システムにおける不正登録防止装置 |
US20040095377A1 (en) * | 2002-11-18 | 2004-05-20 | Iris Technologies, Inc. | Video information analyzer |
US7606425B2 (en) * | 2004-09-09 | 2009-10-20 | Honeywell International Inc. | Unsupervised learning of events in a video sequence |
US20060274949A1 (en) * | 2005-06-02 | 2006-12-07 | Eastman Kodak Company | Using photographer identity to classify images |
US7519588B2 (en) * | 2005-06-20 | 2009-04-14 | Efficient Frontier | Keyword characterization and application |
EP2062197A4 (fr) * | 2006-09-15 | 2010-10-06 | Retica Systems Inc | Système et procédé de biométrie multimodale à distance |
US20080140523A1 (en) * | 2006-12-06 | 2008-06-12 | Sherpa Techologies, Llc | Association of media interaction with complementary data |
CN101201822B (zh) * | 2006-12-11 | 2010-06-23 | 南京理工大学 | 基于内容的视频镜头检索方法 |
BRPI0720802B1 (pt) * | 2007-02-01 | 2021-10-19 | Briefcam, Ltd. | Método e sistema para gerar uma sinopse de vídeo de uma fonte de fluxo de vídeo ininterrupta como a gerada por uma câmera de segurança de vídeo |
US8229227B2 (en) * | 2007-06-18 | 2012-07-24 | Zeitera, Llc | Methods and apparatus for providing a scalable identification of digital video sequences |
JP4982410B2 (ja) * | 2008-03-10 | 2012-07-25 | 株式会社東芝 | 空間移動量算出装置及びその方法 |
US8804005B2 (en) * | 2008-04-29 | 2014-08-12 | Microsoft Corporation | Video concept detection using multi-layer multi-instance learning |
JP5476955B2 (ja) * | 2009-12-04 | 2014-04-23 | ソニー株式会社 | 画像処理装置および画像処理方法、並びにプログラム |
JP5505723B2 (ja) * | 2010-03-31 | 2014-05-28 | アイシン・エィ・ダブリュ株式会社 | 画像処理システム及び位置測位システム |
-
2008
- 2008-08-27 FR FR0855737A patent/FR2935498B1/fr active Active
-
2009
- 2009-08-26 EP EP09809332A patent/EP2316082A1/fr not_active Ceased
- 2009-08-26 WO PCT/EP2009/060960 patent/WO2010023213A1/fr active Application Filing
- 2009-08-26 US US13/059,962 patent/US8594373B2/en active Active
- 2009-08-26 CN CN200980133643.0A patent/CN102187336B/zh not_active Expired - Fee Related
-
2011
- 2011-02-08 IL IL211129A patent/IL211129A0/en not_active IP Right Cessation
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1260934A2 (fr) * | 2001-05-22 | 2002-11-27 | Matsushita Electric Industrial Co., Ltd. | Dispositif et procédé d'enregistrement de données de surveillance |
WO2007140609A1 (fr) * | 2006-06-06 | 2007-12-13 | Moreideas Inc. | Procédé et système pour l'analyse, l'amélioration et l'affichage d'images et de films vidéo, à des fins de communication |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103052987A (zh) * | 2010-07-28 | 2013-04-17 | 国际商业机器公司 | 促进视频监控中的人物搜索 |
Also Published As
Publication number | Publication date |
---|---|
US20120039506A1 (en) | 2012-02-16 |
FR2935498B1 (fr) | 2010-10-15 |
US8594373B2 (en) | 2013-11-26 |
WO2010023213A1 (fr) | 2010-03-04 |
IL211129A0 (en) | 2011-04-28 |
CN102187336A (zh) | 2011-09-14 |
EP2316082A1 (fr) | 2011-05-04 |
CN102187336B (zh) | 2014-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
FR2935498A1 (fr) | Procede d'identification d'un objet dans une archive video. | |
US20120148149A1 (en) | Video key frame extraction using sparse representation | |
KR100956159B1 (ko) | 라이프로그 장치 및 정보 자동 태그 입력 방법 | |
EP2095327A1 (fr) | Procede de designation d'un objet dans une image | |
EP3496000A1 (fr) | Extraction automatique d'attributs d'un objet au sein d'un ensemble d'images numeriques | |
EP3857512A1 (fr) | Procede, programme d'ordinateur et systeme de detection et localisation d'objet dans une scene tridimensionnelle | |
Gandhimathi Alias Usha et al. | A novel method for segmentation and change detection of satellite images using proximal splitting algorithm and multiclass SVM | |
FR3011960A1 (fr) | Procede d'identification a partir d'un modele spatial et spectral d'objet | |
EP1543444A2 (fr) | Procede et dispositif de mesure de similarite entre images | |
CN105930459B (zh) | 一种有效的基于内容的人体皮肤图像分类检索方法 | |
EP0961227A1 (fr) | Procédé de détection de la profondeur relative entre deux objects dans une scène à partir d'un couple d'images issues de prises de vues différentes | |
WO2006032799A1 (fr) | Système d'indexation de vidéo de surveillance | |
FR2936627A1 (fr) | Procede d'optimisation de la recherche d'une scene a partir d'un flux d'images archivees dans une base de donnees video. | |
WO2011047889A1 (fr) | Méthode et système pour évaluer la classe d'une donnée de test dans un espace de données de grande dimension | |
Guldogan et al. | Personalized representative image selection for shared photo albums | |
EP0550101A1 (fr) | Procédé de recalage d'images | |
FR3094815A1 (fr) | Procédé, programme d’ordinateur et système pour l’identification d’une instance d’objet dans une scène tridimensionnelle | |
EP4439484A1 (fr) | Procédé de classification de données multidimensionnelles fortement résolues | |
WO2024079119A1 (fr) | Système de surveillance | |
FR2911984A1 (fr) | Procede pour identifier des points symboliques sur une image d'un visage d'une personne | |
Chu et al. | Travel video scene detection by search | |
FR2872326A1 (fr) | Procede de detection d'evenements par videosurveillance | |
Li | Learning and mining from personal digital archives | |
Tapu et al. | Multiresolution median filtering based video temporal segmentation | |
FR2801992A1 (fr) | Procede et dispositif de recherche d'images basee sur le contenu prenant en compte la definition de regions d'interet |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PLFP | Fee payment |
Year of fee payment: 9 |
|
PLFP | Fee payment |
Year of fee payment: 10 |
|
PLFP | Fee payment |
Year of fee payment: 11 |
|
PLFP | Fee payment |
Year of fee payment: 12 |
|
PLFP | Fee payment |
Year of fee payment: 13 |
|
PLFP | Fee payment |
Year of fee payment: 14 |
|
PLFP | Fee payment |
Year of fee payment: 15 |
|
PLFP | Fee payment |
Year of fee payment: 15 |
|
PLFP | Fee payment |
Year of fee payment: 16 |
|
PLFP | Fee payment |
Year of fee payment: 17 |