FR3102026A1 - Compression d'images vidéo segmentée sémantiquement - Google Patents

Compression d'images vidéo segmentée sémantiquement Download PDF

Info

Publication number
FR3102026A1
FR3102026A1 FR1911378A FR1911378A FR3102026A1 FR 3102026 A1 FR3102026 A1 FR 3102026A1 FR 1911378 A FR1911378 A FR 1911378A FR 1911378 A FR1911378 A FR 1911378A FR 3102026 A1 FR3102026 A1 FR 3102026A1
Authority
FR
France
Prior art keywords
image
context
interest
compression
video imagery
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR1911378A
Other languages
English (en)
Other versions
FR3102026B1 (fr
Inventor
Christopher Priebe
Darren Rhea
Christopher Hillar
Alexander Terekhov
Felix Effenberger
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Awecom Inc
Original Assignee
Awecom Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Awecom Inc filed Critical Awecom Inc
Priority to FR1911378A priority Critical patent/FR3102026B1/fr
Publication of FR3102026A1 publication Critical patent/FR3102026A1/fr
Application granted granted Critical
Publication of FR3102026B1 publication Critical patent/FR3102026B1/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/115Selection of the code volume for a coding unit prior to coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

La compression vidéo segmentée sémantiquement comprend le chargement d'une image d’une imagerie vidéo, la détermination d'un contexte pour l'image, la sélection d'un objet d'intérêt pour le contexte et l'identification dans l'image d'une partie de l'image de l’imagerie considérée d’intérêt supérieur que d'autres parties de l'image de l’imagerie vidéo en fonction de l'objet d'intérêt du contexte déterminé pour l’imagerie vidéo et d'un objet qui a été prédéfini pour être important pour le contexte. Une compression hybride de l'imagerie vidéo est alors effectuée qui comprend à la fois une compression de qualité supérieure de la partie de l'imagerie vidéo déterminée comme étant une région d'intérêt supérieur qui produit une minimisation de perte pendant la décompression et également une compression des autres parties de l'imagerie vidéo déterminées comme n'étant pas une région d'intérêt supérieur qui produit plus de perte pendant la décompression. Figure accompagnant l'abrégé : Figure 1

Description

COMPRESSION D'IMAGES VIDÉO SEGMENTÉE SÉMANTIQUEMENT
La présente invention concerne le domaine de la compression d'images et plus particulièrement la compression vidéo.
La compression d'images fait référence à l'application de la compression de données à l'imagerie numérique. Les algorithmes de compression d'image tiennent compte de la perception visuelle et des propriétés statistiques des données d'image pour fournir une compression supérieure par rapport à la compression généralisée des données utilisée dans la compression de non imagerie. La compression vidéo est liée à la compression d'images dans la mesure où l'imagerie vidéo est une séquence d'images statiques qui, lorsqu'elles sont présentées dans l'ordre chronologique, produisent une vidéo en mouvement complet.
D'une manière générale, les techniques de compression d'images appliquées à l'imagerie statique sont l'une des nombreuses approches, généralement utilisées en combinaison, pour compresser des vidéos. Les normes de compression vidéo les plus répandues sont H.261, H.263, MPEG-1, MPEG-2, MPEG-4, H.264, H.265, VP8 et AV1. Chacune des normes susmentionnées a en commun une combinaison de techniques visant à réduire la redondance de l'information dans les directions spatiale et de temps. La compression spatiale réduit la taille des images dans les données vidéo en utilisant des techniques de compression d'image qui incluent le sous-échantillonnage chromatique, les transformations cosinus discrètes et le codage entropique, entre autres. La compression temporelle, comme la compression entre images ou la compensation de mouvement, réduit considérablement la quantité de données nécessaires au stockage d'une image vidéo en codant uniquement les pixels qui changent entre des images consécutives dans une séquence, entre autres techniques qui reposent sur de petites différences entre les images d'une séquence.
Il est à noter que les différentes techniques de compression vidéo répondent à trois objectifs principaux : haute efficacité de compression, haute qualité et faible complexité. Cependant, chaque technique, tout en excellant dans l'un des trois objectifs principaux, peut ne pas réussir dans un autre des trois objectifs principaux. Ainsi, dès le départ, il faut décider, en matière de compression vidéo, lequel des trois objectifs principaux doit être priorisé au détriment des autres objectifs principaux. Ce faisant, on suppose principalement que l'imagerie vidéo doit être traitée uniformément et que chaque partie de l'imagerie vidéo a la même importance pour l'ensemble de l'imagerie vidéo, surtout dans la mesure où les indices contextuels d'une image reconnaissable à la vision humaine ne sont pas facilement compris par des moyens automatisés.
Les modes de réalisation de la présente invention comblent les lacunes de l'état de l’art en matière de compression vidéo et fournissent un procédé, un système et un programme informatique nouveaux et non évidents pour la compression vidéo segmentée sémantiquement. Dans un mode de réalisation de l'invention, un procédé de compression vidéo segmentée sémantiquement comprend le chargement dans une mémoire d'un ordinateur, d'une image d’imagerie vidéo, la détermination d'un contexte pour l'image et la sélection d'un objet d'intérêt pour ce contexte. Par la suite, une partie de l’image peut être identifiée comme étant considérée comme étant d’intérêt supérieur par rapport à d'autres parties de l’image d'imagerie en fonction de l'objet d'intérêt du contexte déterminé pour l'imagerie vidéo. A cet égard, le contexte peut être un événement sportif ou une vidéoconférence, pour ne citer que deux exemples. La partie est considérée de plus comme étant d’intérêt supérieur à l'égard d'un objet dans la partie, comme un joueur avec une balle dans le cas d'un contexte qui est un événement sportif et qui a été précisé au préalable comme étant d'importance pour ce contexte. Le procédé comprend en outre l'exécution d'une compression de l'imagerie vidéo qui comprend à la fois une compression de qualité supérieure de la partie de l'imagerie vidéo déterminée comme étant d'intérêt supérieur qui produit une minimisation de perte pendant la décompression et une compression de qualité inférieure à l'extérieur de la partie déterminée comme étant d'intérêt supérieur qui produit plus de perte pendant la décompression, où la perte fait référence à une perte de qualité ou à une perte de bits, ou aux deux simultanément.
Dans un aspect du mode de réalisation, la compression est effectuée après avoir soumis chaque bloc, ou collection de pixels, de l'imagerie vidéo à un réseau neuronal formé pour indiquer si le bloc présente ou non un intérêt supérieur par rapport au contexte déterminé. Dans un autre aspect du mode de réalisation, plusieurs parties différentes de l’image sont considérées comme ayant des degrés d'intérêt différents en fonction du contexte déterminé et différents objets correspondants dans l’image sont identifiés et classés à différents niveaux d'importance de sorte que les différents modes de compression à différents niveaux d'agressivité sont associés aux différents niveaux d'importance. Dans un autre aspect du mode de réalisation, le procédé comprend également le traitement d'image de l’image pour identifier un contexte de l’image.
Dans un autre mode de réalisation de l'invention, un système de compression d’image vidéo comprend un ordinateur hôte avec une mémoire et au moins un processeur et un compresseur vidéo fonctionnant dans la mémoire de l'ordinateur hôte. Le système comprend en outre un module de segmentation sémantique qui comprend des instructions de programme informatique chargées dans la mémoire de l'ordinateur hôte. Les instructions permettent de charger dans la mémoire une image d'imagerie vidéo, de déterminer un contexte pour l'image et de sélectionner un objet d'intérêt pour le contexte, d'identifier dans l'image une partie de l'image de l'imagerie vidéo considérée comme étant d’intérêt supérieur par rapport à d’autres parties de l'image de l’imagerie vidéo en fonction de l'objet d'intérêt du contexte déterminé pour l’imagerie vidéo et un objet prédéfini comme étant important pour le contexte, et effectuer une compression de l'imagerie vidéo qui comprend à la fois une compression de la partie de l'imagerie vidéo considérée d’intérêt supérieur qui produit une minimisation de perte tout en préservant la qualité pendant la décompression et une compression des autres parties de l'imagerie vidéo à l'extérieur de la partie déterminée comme étant d’intérêt supérieur qui produit plus de perte, sacrifiant une certaine qualité, pendant la décompression.
D'autres aspects de l'invention seront exposés en partie dans la description qui suit et en partie seront évidents dans la description, ou pourront être appris par la pratique de l'invention. Les aspects de l'invention seront réalisés et atteints au moyen des éléments et combinaisons particulièrement indiqués dans les revendications en annexe. Il est entendu que la description générale qui précède et la description détaillée qui suit sont toutes deux données à titre d’exemple et explicatives et ne sont pas restrictives à l'égard de l'invention, telle que revendiquée.
Les dessins accompagnant, qui sont incorporés dans le présent fascicule et en font partie intégrante, illustrent des modes de réalisation de l'invention et servent, avec la description, à expliquer les principes de l'invention. Les modes de réalisation illustrés ici sont actuellement préférés, étant entendu, toutefois, que l'invention ne se limite pas aux arrangements précis et aux instruments montrés, dans lesquels :
La figure 1 est une illustration imagée d'un procédé de compression vidéo segmentée sémantiquement ;
La figure 2 est une illustration schématique d'un système informatique de traitement des données adapté à la compression vidéo segmentée sémantiquement ; et,
La figure 3 est un organigramme illustrant un procédé de compression vidéo segmentée sémantiquement.
Les modes de réalisation de l'invention fournissent une compression vidéo segmentée sémantiquement. Conformément à un mode de réalisation des arrangements inventifs, l'imagerie vidéo peut être chargée dans une mémoire, soit après la capture de l'ensemble de l'imagerie vidéo, soit en temps réel au fur et à mesure que l'imagerie du clip vidéo est capturée. Un contexte de l'imagerie vidéo est déterminé, tel qu'une vue particulière d'un événement sportif particulier, une représentation dramatique, un discours ou un lieu intérieur ou extérieur d'un bâtiment. À cet égard, le contexte peut être une modalité particulière de la vue, comme une vue de paysage d'une compétition, ou une vue rapprochée d'un petit nombre de joueurs de la compétition, une vue de spectateurs de la compétition, ou une vue d'une balle ou d'un palet de la compétition.
En fonction du contexte, un objet ou plusieurs objets d'intérêt tels qu'un joueur avec une balle ou un palet, un visage d'une personne, un individu complet ou un objet placé positionné à l'endroit intérieur ou extérieur, est sélectionné en association avec le contexte. Par exemple, l'objet ou les objets d'intérêt peuvent être sélectionnés au moyen d'un tableau corrélant différents objets d'intérêt à un contexte particulier. Par exemple, dans le contexte d'une vue panoramique des spectateurs d'un spectacle, un objet d'intérêt peut être un spectateur debout par opposition aux spectateurs assis, ou un panneau tenu par un spectateur. Comme autre exemple, dans le contexte d'une vue rapprochée d'un joueur dans un sport de spectateur, les objets d'intérêt peuvent être le visage du joueur et la balle ou le palet utilisé pendant le sport. Comme encore un autre exemple, dans le contexte d'un hall d'une banque, un objet d'intérêt peut être le visage d'une personne debout dans le hall.
Par la suite, l'objet ou les objets sont situés dans une première image de l'imagerie vidéo. A cet égard, la première image peut être soumise à un réseau neuronal sélectionné en fonction de mots-clés associés à l'objet ou aux objets et formé pour localiser différents pixels ou blocs de pixels dans une image reçue dans laquelle on a la certitude que les pixels ou blocs de pixels sont inclus dans une image de l'objet ou des objets. Pour chaque pixel ou bloc de pixels que le réseau neuronal détermine comme faisant partie d'une image de l'objet ou des objets, le pixel ou bloc de pixels peut être identifié comme faisant partie d'une partie déterminée comme étant d’intérêt supérieur, tandis que les pixels ou blocs de pixels restants sont identifiés comme faisant partie d'une partie déterminée comme étant d’intérêt moindre.
Par conséquent, une compression avec plus de perte de l'imagerie vidéo est effectuée sur la partie de l’image qui se trouve à l'extérieur de la partie déterminée comme étant d’intérêt supérieur, tandis qu'une compression avec moins de perte de l'imagerie vidéo est effectuée sur la partie de l’image déterminée comme étant d’intérêt supérieur. Le procédé se répète ensuite pour une image suivante de l'imagerie vidéo en commençant par l'emplacement de l'objet dans l'image suivante. Optionnellement, à condition que la vidéo soit capturée avec une fréquence d'images suffisamment élevée, toutes les autres images de la vidéo peuvent être compressées dans leur intégralité en utilisant uniquement la compression avec plus de perte, car la dégradation de la qualité est moins facilement perçue lorsqu'elle est affichée pendant un intervalle extrêmement court. L'utilisation d'une compression de qualité supérieure avec moins de perte peut être limitée à la partie de l'image vidéo considérée la plus pertinente, tandis qu'une compression de qualité inférieure mais avec plus de perte peut être effectuée ailleurs dans l'image vidéo.
Dans une autre illustration, la figure 1 est une illustration imagée d'un procédé de compression vidéo segmentée sémantiquement. Comme le montre la figure 1, une image 100 d'une imagerie vidéo peut être traitée dans un contexte, tel qu'un événement sportif (montré ici), un spectacle dramatique ou non dramatique, tel qu'un spectacle de musique, un spectacle de théâtre ou une performance orale, une visiophonie ou une tâche de surveillance comme la surveillance d'un espace intérieur ou extérieur, d'un objet disposé dans un espace intérieur ou extérieur. Le contexte peut être traité manuellement par une lecture en relation avec l'imagerie vidéo, les méta-données indiquant explicitement le contexte, ou le contexte peut être traité automatiquement par l'utilisation d'un outil de reconnaissance d'image.
À cet égard, un identificateur d'objet et un détecteur de limites 165 traitent l’image 100 pour déterminer un contexte général 155, puis une vue particulière du contexte 155, telle qu'une vue rapprochée de joueurs ou d'acteurs dans une prestation, une vue panoramique de l'audience d'une prestation ou une vue panoramique de la prestation elle-même. En association avec le contexte général 155, l'identificateur d'objet et le détecteur de limites 165 se réfère à un tableau modalité-objet 145 pour localiser différents objets d'intérêt pour le contexte général 155. Par exemple, les objets d'intérêt comprennent, à titre d'exemple, un ballon ou un palet dans le contexte d'un événement sportif, le visage ou le corps complet d'une personne dans le cas d'une représentation dramatique ou non dramatique, un endroit précis dans un espace surveillé ou un article particulier disposé dans l'espace surveillé dans le contexte de la surveillance.
Une fois l'objet déterminé, l’image 100 est traitée pour localiser l'objet dans l’image 100 et définir une région d'intérêt supérieur 110 de sorte que les parties de l’image 100 existant en dehors de la région d'intérêt supérieur 110 soient déterminées comme étant des régions d'intérêt inférieur 120.
Par la suite, la partie de l’image 100 définie comme la région d'intérêt supérieur 110 est soumise à une compression de qualité supérieure 150A, par exemple une compression avec moins de perte, tandis que la partie de l’image 100 définie comme la région d'intérêt inférieur 120 est soumise à une compression de qualité inférieure 140A, par exemple une compression avec plus de perte. Dans un aspect du mode de réalisation, les objets d'intérêt à l'intérieur d'une distance seuil de l'objet déterminé voient leurs régions soumises à un niveau de compression différent par rapport aux régions d'objets plus éloignées de l'objet déterminé. En option, le niveau de compression appliqué aux régions d'objet d'intérêt peut être fonction de la distance par rapport à l'objet déterminé, de sorte que la qualité est inférieure pour les objets plus éloignés de l'objet déterminé et supérieure pour les objets plus proches de cet objet.
Cette fonction de dégradation de qualité peut également s'appliquer aux régions peu remarquables, aussi appelées régions restantes de l’image après que les régions d'intérêt ont été déterminées, de l’image qui sont sujettes à perte, permettant ainsi une perte et une réduction de la qualité plus importantes dans la région la plus éloignée de l'objet déterminé tout en permettant une perte et une réduction de la qualité moins importantes dans les régions moins remarquables plus proches de cet objet déterminé. Par exemple, dans la mesure où il est déterminé que le contexte général est un événement sportif et que l'objet est un ballon, la distance physique d'un joueur à l'intérieur de l'imagerie du ballon est déterminée et dans la mesure où un quelconque joueur se trouve à l’intérieur d’une distance seuil prédéfinie du ballon, seuls ces joueurs sont considérés comme étant dans la région d’intérêt supérieur 110, de façon à assurer une compression supérieur plus fidèle étant donné que les joueurs sont jugés comme étant les plus pertinents vu la proximité de ces faces du ballon.
Quoi qu'il en soit, comme on le verra, la combinaison des deux schémas de compression 140A et 150A forme la base du procédé de compression de l'encodeur 130, ce qui donne une image compressée 160 de l'imagerie vidéo et peut être répétée pour chaque autre image de l'imagerie vidéo. A cet égard, lorsque chaque bloc de pixels 180 de l'image 100 est reçu, il est déterminé si le bloc 180 se situe dans la région d'intérêt supérieur 110 et si c'est le cas, l’encodeur 130 applique la compression de qualité supérieure 150A. Inversement, s'il est déterminé que le bloc 180 ne fait pas partie de la région d'intérêt supérieur 110, mais de la région d'intérêt inférieur 120, l’encodeur 130 applique la compression de qualité inférieure 140A.
Inversement, une fois que l’image compressée 160 a été stockée en stockage permanent, l’image compressée 160 peut être décompressée en utilisant un décodeur standard 190 afin de reconstruire l’image 100. De cette façon, comme chaque image de l'imagerie vidéo est soumise au procédé de compression de l'encodeur 130, seule la partie de chaque imagerie a droit au luxe d'une compression de qualité supérieure avec moins de perte 150A (même si la région d'intérêt supérieur 110 change étant donné la position changeante dans l’image 100 de l'objet déterminé), alors que la région d’intérêt inférieur 120 de chaque image est soumise au schéma de compression avec plus de perte 140A. Par conséquent, la partie de l'imagerie vidéo d’intérêt supérieur pour le spectateur semble toujours de qualité supérieure à celle des parties d’intérêt inférieur en raison de l'augmentation de la compression avec plus de perte.
Le procédé décrit en liaison avec la figure 1 peut être mis en œuvre dans un système informatique de traitement des données. Dans une autre illustration, la figure 2 montre schématiquement un système informatique de traitement des données adapté à la compression vidéo segmentée sémantiquement. Le système comprend une plate-forme informatique hôte qui comprend un ou plusieurs ordinateurs, chacun avec un écran 210, un processeur 220 et une mémoire 230. Un module de compression vidéo 300 s'exécute dans la mémoire 230 du système informatique hôte et est accessible par un procédé défini dans une interface de programmation d'application (API) 240. En option, le module de compression vidéo 300 comprend un composant d'identification de contexte 270. Enfin, le module de compression vidéo 300 est couplé à un réseau neuronal profond 280 formé pour reconnaître un bloc de pixels à l'intérieur de chacune des différentes images d'imagerie vidéo déterminées comme étant dans une région d'intérêt supérieur.
Le module de compression vidéo 300 comprend des instructions de programme informatique qui s'exécutent dans la mémoire 230 par le processeur 220 et sont adaptées pour répondre à l'invocation du procédé de l'API 240 en effectuant la compression de l'imagerie vidéo. Plus précisément, les instructions de programme sont adaptées pour répondre soit à une invocation locale du procédé de l'API 240 dans lequel les instructions de programme sont co-positionnées avec un appareil d'acquisition d'image acquérant l'imagerie vidéo, soit à une invocation à distance du procédé de l'API 240 dans lequel les instructions de programme sont positionnées à distance sur un réseau de communication informatique depuis l'appareil d'acquisition d'images acquérant l'imagerie vidéo. Plus particulièrement, l'invocation du procédé de l'API 240 peut inclure une référence d'emplacement de fichier ou d'emplacement réseau à l'imagerie vidéo et, éventuellement, une spécification explicite du contexte de l'imagerie vidéo. Dans la mesure où le contexte n'est pas explicitement spécifié dans l'invocation du procédé de l'API 240, le contexte peut être déterminé au moyen de le composant d'identification de contexte 270 par reconnaissance d'images dans laquelle les images d'imagerie vidéo sont soumises à un réseau neuronal ou à une mémoire de données d'imagerie pour une concordance par comparaison, afin d'identifier le contexte d'imagerie vidéo.
Il convient de noter que, dans le composant d'identification de contexte 270, un objet associé peut être déterminé en fonction du contexte déterminé, par exemple tel qu'indiqué dans un tableau qui associe les contextes aux objets. Une fois que le composant d'identification de contexte 270 détermine le contexte, une unité de détection de limite 290 détermine un ou plusieurs objets d'intérêt pour le contexte déterminé. À cet égard, par référence à un tableau de consultation, l'unité de détection des limites 290 sélectionne un ou plusieurs objets d'intérêt pour le contexte et traite ensuite chaque bloc d'une première image sélectionnée de l'imagerie vidéo afin de déterminer si le bloc se rapporte ou non à un des objets d'intérêt sélectionnés pour le contexte, c'est-à-dire une région d’intérêt supérieur par rapport au contexte déterminé ou une région d’intérêt inférieur. En option, chaque image de la vidéo peut être vérifiée pour vérifier le contexte ou détecter un changement de contexte de sorte qu'un ensemble différent d'objets d'intérêt puisse être consulté à partir du tableau. De plus, de manière optionnelle, de multiples niveaux d'intérêt différents peuvent être définis en fonction du contexte en fonction d'un objet correspondant parmi les objets sélectionnés pour le contexte, ce qui peut aller d'une région d'intérêt supérieur à une région d'intérêt inférieur, et éventuellement, peut inclure une ou plusieurs régions intermédiaires d'intérêt.
À cette fin, le réseau neuronal 280 est formé pour calculer, pour chaque pixel ou bloc de pixels fourni, une probabilité que le pixel ou le bloc de pixels soit inclus dans l'un des objets d'intérêt sélectionnés pour le contexte. Par conséquent, les instructions du programme pour chaque bloc invoquent une compression de haute qualité 250 pour un pixel ou un bloc de pixels dans la région définie d’intérêt, alors que les instructions du programme invoquent une compression de basse qualité 260 pour un pixel ou un bloc de pixels hors de la région définie d'intérêt. Dans la mesure où d'autres régions d'intérêt intermédiaire sont définies, les instructions de programme permettent en outre d'invoquer un pixel ou un bloc de pixels dans une image, ce qui correspond à des niveaux intermédiaires de compression.
Dans chaque cas, les instructions de programme déterminent et sauvegardent une carte des valeurs de qualité des blocs de pixels correspondants indiquant le niveau de compression appliqué au pixel ou bloc de pixels correspondant. Comme on le comprendra, chacun des compresseurs 250, 260 agit sur le pixel ou le bloc de pixels pertinent de chaque image en place de sorte que la forme comprimée de chaque image soit le sous-produit du procédé de compression. Comme il sera mieux compris, lors de la décompression, un décodeur traditionnel peut être utilisé, sans modification, pour décompresser l'imagerie vidéo.
Pour illustrer encore davantage le fonctionnement du module hybride de compression/décompression vidéo 300, la Figure 3 est un organigramme illustrant un procédé de compression vidéo segmentée sémantiquement. A partir du bloc 310, l'imagerie vidéo est chargée à partir d'un emplacement et dans le bloc 315, une première image ou séquence d'images de l'imagerie vidéo est récupérée et dans le bloc 340 un contexte est déterminé pour l'imagerie vidéo. Ensuite, dans le bloc 345, un objet d'intérêt est déterminé pour le contexte. Dans le bloc 350, l'image est reçue et dans le bloc 355, un pixel, un bloc de pixels ou plusieurs blocs de pixels sont soumis au réseau neuronal afin de déterminer si le pixel, le bloc de pixels ou les blocs de pixels, selon le cas, résident dans une région d’intérêt supérieur pour le contexte déterminé. Dans le bloc de décision 360, si le réseau neuronal détermine que les éléments précédents ne se trouvent pas dans la région d'intérêt supérieur, dans le bloc 365, le pixel, le bloc de pixels ou les blocs de pixels sont compressés avec une compression de qualité inférieure (par exemple, plus de perte). En revanche, dans le bloc de décision 360, si le réseau neuronal détermine que le pixel, le bloc de pixels ou les blocs de pixels se trouvent dans la région d'intérêt supérieur, dans le bloc 370, le pixel, le bloc de pixels ou les blocs de pixels sont comprimés avec une compression de qualité supérieure (par exemple, moins de perte). Par la suite, dans le bloc de décision 375, on détermine s'il reste un pixel supplémentaire, un bloc de pixels ou plusieurs blocs de pixels supplémentaires à traiter. Si c'est le cas, le pixel, le bloc de pixels ou les blocs de pixels suivants sont récupérés pour traitement dans le bloc 350. Sinon, il est déterminé dans le bloc de décision 330 s'il reste d'autres images à traiter dans l'imagerie vidéo. Si c'est le cas, une image suivante est récupérée pour l'imagerie vidéo dans le bloc 315. Sinon, dans le bloc 335, les images compressées de l'imagerie vidéo sont stockées dans un fichier compressé.
La présente invention peut être incorporée dans un système, un procédé, un programme informatique ou toute combinaison de ceux-ci. Le programme informatique peut comprendre un support de stockage lisible par ordinateur ou un support sur lequel se trouvent des instructions de programme lisibles par ordinateur pour amener un processeur à exécuter des aspects de la présente invention. Le support de stockage lisible par ordinateur peut être un dispositif tangible qui peut conserver et stocker des instructions à utiliser par un dispositif d'exécution d'instructions. Le support de stockage lisible par ordinateur peut être, par exemple, un dispositif de stockage électronique, un dispositif de stockage magnétique, un dispositif de stockage optique, un dispositif de stockage électromagnétique, un dispositif de stockage semi-conducteur ou toute combinaison appropriée de ce qui précède, sans toutefois s'y limiter.
Les instructions de programme lisibles par ordinateur décrites ici peuvent être téléchargées à partir d'un support de stockage lisible par ordinateur ou sur un ordinateur externe ou un périphérique de stockage externe via un réseau, sur les dispositifs de calcul/traitement respectifs. Les instructions lisibles par ordinateur peuvent être exécutées entièrement sur l'ordinateur de l'utilisateur, en partie sur l'ordinateur de l'utilisateur, en tant que progiciel autonome, en partie sur l'ordinateur de l'utilisateur et en partie sur un ordinateur distant ou entièrement sur l'ordinateur ou le serveur distant. Certains aspects de la présente invention sont décrits ici à l'aide d'organigrammes et/ou de schémas fonctionnels de procédés, d'appareils (systèmes) et de produits de programmes informatiques sur la base des modes de réalisation de l'invention. Il est entendu que chaque bloc des organigrammes et/ou des schémas fonctionnels, ainsi que les combinaisons de blocs des organigrammes et/ou des schémas fonctionnels, peuvent être réalisés au moyen d'instructions de programme lisibles par ordinateur.
Ces instructions de programme lisibles par ordinateur peuvent être fournies à un processeur d'un ordinateur à usage général, d'un ordinateur à usage spécifique ou d'un autre appareil de traitement de données programmable pour produire une machine, de sorte que les instructions, qui sont exécutées par l'intermédiaire du processeur de l'ordinateur ou d'un autre appareil de traitement de données programmable, créent des moyens pour exécuter les fonctions/actions spécifiées dans le ou les blocs des organigrammes et/ou des schémas fonctionnels. Ces instructions de programme lisibles par ordinateur peuvent également être stockées dans un support de stockage lisible par ordinateur qui peut diriger un ordinateur, un appareil de traitement de données programmable et/ou d'autres dispositifs pour fonctionner d'une manière particulière, de sorte que le support de stockage lisible par ordinateur dans lequel sont stockées des instructions comprend un article de fabrication comprenant des instructions qui exécutent des aspects des fonctions/actions spécifiées dans le ou les blocs des organigrammes et/ou des schémas fonctionnels.
Les instructions de programme lisibles par ordinateur peuvent également être chargées sur un ordinateur, un autre appareil de traitement de données programmable ou un autre dispositif pour provoquer l'exécution d'une série d'étapes opérationnelles sur l'ordinateur, un autre appareil programmable ou un autre dispositif pour produire un procédé exécuté par ordinateur, de sorte que les instructions qui exécutent sur l'ordinateur, un autre appareil programmable ou un autre dispositif mettent en œuvre les fonctions/actions indiquées dans le ou les blocs des organigrammes et/ou des schémas fonctionnels.
L'organigramme et les schémas fonctionnels présentés dans les figures illustrent l'architecture, la fonctionnalité et le fonctionnement d'implémentations possibles de systèmes, de procédés et de produits de programmes informatiques sur la base des diverses modes de réalisation de la présente invention. À cet égard, chaque bloc de l'organigramme ou des schémas fonctionnels peut représenter un module, un segment ou une partie d'instructions, qui comprend une ou plusieurs instructions exécutables pour mettre en œuvre la ou les fonctions logiques spécifiées. Dans certaines implémentations alternatives, les fonctions notées dans le bloc peuvent se produire dans l'ordre indiqué dans les figures. Par exemple, deux blocs montrés successivement peuvent, en fait, être exécutés sensiblement simultanément, ou les blocs peuvent parfois être exécutés dans l'ordre inverse, sur la base de la fonctionnalité impliquée. Il convient également de noter que chaque bloc des schémas fonctionnels et/ou des organigrammes, et les combinaisons de blocs des schémas fonctionnels et/ou des organigrammes, peuvent être mis en œuvre par des systèmes matériels spéciaux qui effectue les fonctions ou les actes spécifiés ou exécutent des combinaisons de matériel spécial et d'instructions informatiques.
Enfin, la terminologie utilisée dans le présent document ne vise qu'à décrire des modes de réalisation particuliers et ne vise pas à limiter l'invention. Il sera en outre entendu que les termes "comprend" et/ou "comprenant", lorsqu'ils sont utilisés dans la présente spécification, précisent la présence de caractéristiques, entiers, étapes, opérations, éléments et/ou composants indiqués, mais n'excluent pas la présence ou l'ajout d'une ou plusieurs autres caractéristiques, entiers, étapes, opérations, éléments, composants et/ou groupes de ceux-ci.
Les structures, matériaux, actes et équivalents correspondants de tous les moyens ou éléments de l'étape et de la fonction dans les revendications ci-dessous sont destinés à inclure toute structure, tout matériau ou tout acte pour exécuter la fonction en combinaison avec d'autres éléments revendiqués comme revendiqué spécifiquement. La description de la présente invention a été présentée à des fins d'illustration et de description, mais ne se veut pas exhaustive ou limitée à l'invention sous la forme divulguée. De nombreuses modifications et variations seront apparentes aux hommes du métier sans s'écarter de la portée et de l'esprit de l'invention. Le mode de réalisation a été sélectionné et décrit afin d'expliquer au mieux les principes de l'invention et son application pratique, et de permettre à d'autres hommes du métier de comprendre l'invention pour diverses modes de réalisation avec diverses modifications adaptées à l'usage particulier envisagé.
Après avoir ainsi décrit l'invention de la présente demande en détail et par référence à ses modes de réalisation, il apparaîtra que des modifications et des variations sont possibles sans s'écarter de la portée de l'invention définie dans les revendications ci-jointes comme suit :

Claims (18)

  1. Procédé de compression vidéo segmentée sémantiquement comprenant les étapes consistant à :
    charger dans une mémoire d'un ordinateur, une image d’imagerie vidéo ;
    déterminer un contexte pour l’image et sélectionner un objet d'intérêt pour le contexte ;
    identifier à l'intérieur de l’image une partie de l’image de l'imagerie vidéo considérée d’intérêt supérieur par rapport à d’autres parties de l’image l'imagerie vidéo en fonction de l'objet d'intérêt du contexte déterminé pour l'imagerie vidéo ; et,
    effectuer une compression de l'imagerie vidéo qui comprend à la fois une compression de qualité supérieure de la partie de l'imagerie vidéo déterminée comme étant d’intérêt supérieur qui produit une minimisation de perte pendant la décompression et une compression de qualité inférieure des autres parties de l'imagerie vidéo à l'extérieur de la partie déterminée comme étant d’intérêt supérieur qui produit plus de perte pendant la décompression.
  2. Procédé selon la revendication 1, dans lequel la compression est effectuée en soumettant chaque bloc de pixels de l'imagerie vidéo à un réseau neuronal formé pour indiquer si le bloc de pixels présente ou non un intérêt supérieur par rapport au contexte déterminé.
  3. Procédé selon la revendication 1, dans lequel plusieurs parties différentes de l’image sont considérées comme ayant des degrés d'intérêt différents en fonction du contexte déterminé et différents objets correspondants dans l’image sont identifiés et classés à différents niveaux d'importance de sorte que la compression hybride comprend différents modes de compression à différents niveaux d'agressivité associés aux différents niveaux d'importance.
  4. Procédé selon la revendication 1, comprenant en outre le traitement d'image de l’image pour identifier le contexte de l’image.
  5. Procédé selon la revendication 1, dans lequel le contexte est un événement sportif et l'objet est un joueur.
  6. Procédé selon la revendication 1, dans lequel le contexte est un hall d'une banque.
  7. Système de compression de vidéo segmentée sémantiquement comprenant :
    un ordinateur hôte avec une mémoire et au moins un processeur ;
    un compresseur vidéo s'exécutant dans la mémoire de l'ordinateur hôte ; et,
    un module de compression segmentée sémantiquement comprenant des instructions de programme informatique chargées dans la mémoire de l'ordinateur hôte, les instructions pouvant être exécutées pour effectuer les étapes consistant à :
    charger dans la mémoire une image d’imagerie vidéo ;
    déterminer un contexte pour l’image et sélectionner un objet d'intérêt pour le contexte ;
    identifier à l'intérieur de l’image une partie de l’image de l'imagerie vidéo considérée d’intérêt supérieur par rapport à d’autres parties de l’image d'imagerie vidéo en fonction de l'objet d'intérêt du contexte déterminé pour l'imagerie vidéo ; et un objet prédéfini comme étant d’importance dans le contexte ; et,
    effectuer une compression hybride de l'imagerie vidéo qui comprend à la fois une compression de qualité supérieure de la partie de l'imagerie vidéo déterminée comme étant d’intérêt supérieur qui produit une minimisation de perte pendant la décompression et une compression de qualité inférieure des autres parties de l'imagerie vidéo à l'extérieur de la partie déterminée comme étant d’intérêt supérieur qui produit plus de perte pendant la décompression.
  8. Système selon la revendication 7, dans lequel la compression hybride est effectuée en soumettant chaque bloc de l'imagerie vidéo à un réseau neuronal formé pour indiquer si le bloc de pixels présente ou non un intérêt supérieur par rapport au contexte déterminé.
  9. Système selon la revendication 7, dans lequel plusieurs parties différentes de l’image sont considérées comme ayant des degrés d'intérêt différents en fonction du contexte déterminé et différents objets correspondants dans l’image sont identifiés et classés à différents niveaux d'importance de sorte que la compression hybride comprend différents modes de compression à différents niveaux d'agressivité associés aux différents niveaux d'importance.
  10. Système selon la revendication 7, dans lequel les instructions de programme sont en outre habilitées à effectuer un traitement d'image de l’image pour identifier un contexte de l’image.
  11. Système de la revendication 7, dans lequel le contexte est un évènement sportif et l'objet est un joueur.
  12. Produit programme d’ordinateur pour la compression vidéo segmentée sémantiquement, le produit programme d’ordinateur comprenant des instructions de programme enregistrées sur un support de stockage lisible par ordinateur, les instructions de programme étant exécutables par un dispositif pour amener le dispositif à effectuer les étapes consistant à :
    charger dans une mémoire d'un ordinateur, une image d’imagerie vidéo ;
    déterminer un contexte pour l’image et sélectionner un objet d'intérêt pour le contexte ;
    identifier à l'intérieur de l’image une partie de l’image de l'imagerie vidéo considérée d’intérêt supérieur par rapport à d’autres parties de l’image d'imagerie vidéo en fonction de l'objet d'intérêt d’un contexte déterminé pour l'imagerie vidéo, et un objet prédéfini comme étant d’importance dans le contexte et,
    effectuer une compression hybride de l'imagerie vidéo qui comprend à la fois une compression de qualité supérieure de la partie de l'imagerie vidéo déterminée comme étant d’intérêt supérieur qui produit une minimisation de perte pendant la décompression et une compression de qualité inférieure des autres parties de l'imagerie vidéo à l'extérieur de la partie déterminée comme étant d’intérêt supérieur qui produit plus de perte pendant la décompression.
  13. Produit programme d’ordinateur selon la revendication 12, dans lequel la compression hybride est effectuée en soumettant chaque bloc de l'imagerie vidéo à un réseau neuronal formé pour indiquer si le bloc présente ou non un intérêt supérieur par rapport au contexte déterminé.
  14. Produit programme d’ordinateur selon la revendication 12, dans lequel plusieurs parties différentes de l’image sont considérées comme ayant des degrés d'intérêt différents en fonction du contexte déterminé et différents objets correspondants dans l’image sont identifiés et classés à différents niveaux d'importance de sorte que la compression hybride comprend différents modes de compression à différents niveaux d'agressivité associés aux différents niveaux d'importance.
  15. Produit programme d’ordinateur selon la revendication 12, dans lequel le procédé comprend en outre le traitement d'image de l’image pour identifier un contexte de l’image.
  16. Produit programme d’ordinateur selon la revendication 12, dans lequel le contexte est un événement sportif et l'objet est un joueur.
  17. Produit programme d’ordinateur selon la revendication 12, dans lequel le contexte est un hall d'une banque.
  18. Produit programme d’ordinateur selon la revendication 12, dans lequel l’objet d’intérêt est un visage humain.
FR1911378A 2019-10-14 2019-10-14 Compression d'images vidéo segmentée sémantiquement Active FR3102026B1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR1911378A FR3102026B1 (fr) 2019-10-14 2019-10-14 Compression d'images vidéo segmentée sémantiquement

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1911378 2019-10-14
FR1911378A FR3102026B1 (fr) 2019-10-14 2019-10-14 Compression d'images vidéo segmentée sémantiquement

Publications (2)

Publication Number Publication Date
FR3102026A1 true FR3102026A1 (fr) 2021-04-16
FR3102026B1 FR3102026B1 (fr) 2022-06-10

Family

ID=69468751

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1911378A Active FR3102026B1 (fr) 2019-10-14 2019-10-14 Compression d'images vidéo segmentée sémantiquement

Country Status (1)

Country Link
FR (1) FR3102026B1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11770510B2 (en) 2018-09-21 2023-09-26 Andrew Sviridenko Video information compression using sketch-video

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010057170A1 (fr) * 2008-11-17 2010-05-20 Cernium Corporation Codage à modulation analytique d'une vidéo de surveillance
US20180176578A1 (en) * 2016-12-15 2018-06-21 WaveOne Inc. Adaptive compression based on content
US20190007690A1 (en) * 2017-06-30 2019-01-03 Intel Corporation Encoding video frames using generated region of interest maps

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010057170A1 (fr) * 2008-11-17 2010-05-20 Cernium Corporation Codage à modulation analytique d'une vidéo de surveillance
US20180176578A1 (en) * 2016-12-15 2018-06-21 WaveOne Inc. Adaptive compression based on content
US20190007690A1 (en) * 2017-06-30 2019-01-03 Intel Corporation Encoding video frames using generated region of interest maps

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11770510B2 (en) 2018-09-21 2023-09-26 Andrew Sviridenko Video information compression using sketch-video

Also Published As

Publication number Publication date
FR3102026B1 (fr) 2022-06-10

Similar Documents

Publication Publication Date Title
US10944996B2 (en) Visual quality optimized video compression
US10003768B2 (en) Apparatus and methods for frame interpolation based on spatial considerations
US8582915B2 (en) Image enhancement for challenging lighting conditions
JP2006092559A (ja) 少なくとも1つの画像及び画像群を表現する方法、画像又は画像群の表現、画像及び/又は画像群を比較する方法、画像又は画像群を符号化する方法、画像又は画像シーケンスを復号する方法、符号化されたデータの使用、画像又は画像群を表現する装置、画像及び/又は画像群を比較する装置、コンピュータプログラム、システム、及びコンピュータ読み取り可能な記憶媒体
JP2009501479A (ja) テクスチャの領域のための画像コーダ
EP1640914A2 (fr) Procédés de représentation d'images et de détermination de la ressemblance entre images
Hadizadeh et al. Video error concealment using a computation-efficient low saliency prior
CN107358141B (zh) 数据识别的方法及装置
Chao et al. Keypoint encoding for improved feature extraction from compressed video at low bitrates
FR2856219A1 (fr) Procede et appareil pour accomplir un processus de telecinema inverse
US20230127009A1 (en) Joint objects image signal processing in temporal domain
US20150379330A1 (en) Entropy-Reducing Low Pass Filter for Face-Detection
US10999582B1 (en) Semantically segmented video image compression
FR3102026A1 (fr) Compression d'images vidéo segmentée sémantiquement
EP2325801A2 (fr) Procédé pour la représentation et l'analyse d'images
CN113613024B (zh) 视频预处理方法及设备
US8412002B2 (en) Method for generating all-in-focus image
Boujut et al. No-reference video quality assessment of H. 264 video streams based on semantic saliency maps
US9807387B2 (en) Graphics processing unit and graphics processing method
KR20050102126A (ko) 숏컷 검출
Mucedero et al. A novel hashing algorithm for video sequences
EP3202147A1 (fr) Procédé de transcodage de données vidéo à fusion d'unités de codage, programme informatique, module de transcodage et équipement de télécommunications associés
Wan et al. A video forensic technique for detecting frame integrity using human visual system-inspired measure
US20160071281A1 (en) Method and apparatus for segmentation of 3d image data
Lavigne et al. Automatic Video Zooming for Sport Team Video Broadcasting on Smart Phones.

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20210416

PLFP Fee payment

Year of fee payment: 3

PLFP Fee payment

Year of fee payment: 4

PLFP Fee payment

Year of fee payment: 5