DE602004006306T2 - Vorrichtung und Verfahren zur Erzeugung einer Kartografie herausstechender Merkmale in einem Bild - Google Patents

Vorrichtung und Verfahren zur Erzeugung einer Kartografie herausstechender Merkmale in einem Bild Download PDF

Info

Publication number
DE602004006306T2
DE602004006306T2 DE602004006306T DE602004006306T DE602004006306T2 DE 602004006306 T2 DE602004006306 T2 DE 602004006306T2 DE 602004006306 T DE602004006306 T DE 602004006306T DE 602004006306 T DE602004006306 T DE 602004006306T DE 602004006306 T2 DE602004006306 T2 DE 602004006306T2
Authority
DE
Germany
Prior art keywords
luminance component
image
subbands
components
chromatic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE602004006306T
Other languages
English (en)
Other versions
DE602004006306D1 (de
Inventor
Olivier Le Meur
Dominique Thoreau
Edouard Francois
Patrick Le Callet
Dominique Barba
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of DE602004006306D1 publication Critical patent/DE602004006306D1/de
Application granted granted Critical
Publication of DE602004006306T2 publication Critical patent/DE602004006306T2/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/262Analysis of motion using transform domain methods, e.g. Fourier domain methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)
  • Facsimile Image Signal Circuits (AREA)

Description

  • Die Erfindung bezieht sich auf eine Vorrichtung und ein Verfahren zur Erzeugung einer Salienzenkarte eines Bildes.
  • Das menschliche Informationsverarbeitungssystem ist intrinsisch ein begrenztes System; dies gilt insbesondere für das visuelle System. Trotz unserer eingeschränkten kognitiven Ressourcen muss dieses System mit einer ungeheuren Menge an Informationen fertig werden, die in unserer visuellen Umgebung vorhanden sind. Da wir jedoch in der Lage sind, unsere visuelle Umgebung zu verstehen, scheinen wir dieses Problem paradoxerweise erfolgreich lösen zu können.
  • Es wird allgemein angenommen, dass bestimmte visuelle Eigenschaften für das visuelle System so elementar sind, dass sie keine Aufmerksamkeitsressourcen benötigen, um wahrgenommen zu werden. Diese visuellen Eigenschaften werden voraufmerksame Eigenschaften genannt.
  • Nach diesem Lehrsatz der Sehforschung ist das Aufmerksamkeitsverhalten des Menschen in voraufmerksame Verarbeitung und aufmerksame Verarbeitung unterteilt. Wie oben bereits erklärt, ist die voraufmerksame Verarbeitung, die so genannte „Bottom-Up"-Verarbeitung, mit unbeabsichtigter Aufmerksamkeit verknüpft. Unsere Aufmerksamkeit wird mühelos auf hervorstechende Teile dessen, was wir sehen, gelenkt. Bei der aufmerksamen Verarbeitung, der so genannten „Top-Down"-Verarbeitung, ist unsere Aufmerksamkeit nachweislich mit einer bestimmten Aufgabe, an die wir denken, verknüpft. Diese zweite Form der Aufmerksamkeit ist demnach insofern bewusster und stärker, als diese Form der Aufmerksamkeit mehr Mühe erfordert, damit unser Blick in eine bestimmte Richtung gelenkt wird.
  • Die Erkennung von hervorstechenden Punkten in einem Bild ermöglicht die Verbesserung weiterer Schritte, wie beispielsweise Kodierung oder Bildindizierung, Wasserzeichen, Einschätzung der Bildwiedergabequalität.
  • In der Abhandlung von Singhal A. et al., „A multilevel bayesian network approach to image sensor fusion", Proceedings of the International Conference an Multisource-Multisensor Information Fusion, 10. Juli 2000, S. 9-16, und in der Europäischen Patentanmeldung EP 1 017 019 A2 wird ein Verfahren zur Erzeugung einer „Belief Map" eines Eingangsbildes offenbart, welches ein Graustufenbild ist, das für jeden Bildpunkt des Eingangsbildes die Wahrscheinlichkeit der Zugehörigkeit zu einem bestimmten Gegenstand angibt.
  • Die bekannten Methoden basieren mehr oder weniger auf nichtpsychologischen visuellen Eigenschaften. Anders als derartige Verfahren beruft sich das vorgeschlagenen Verfahren auf die Tatsache, dass das Modell vollständig auf dem menschlichen visuellen System basiert, wie beispielsweise die Berechnung früher visueller Eigenschaften.
  • Nach einer ersten Eigenschaft schlägt die Erfindung ein Verfahren zur Erzeugung einer Salienzenkarte eines Bildes vor, welches die folgenden Schritte umfasst:
    • – Projektion des Bildes gemäß der Luminanzkomponente beziehungsweise, falls es sich bei dem Bild um ein Farbbild handelt, gemäß der Luminanzkomponente und gemäß der Chrominanzkomponenten,
    • – Zerlegung der Komponenten in perzeptionelle Teilbänder gemäß der Sichtbarkeitsschwelle eines menschlichen Auges,
    • – Extraktion der hervorstechenden Elemente der die Luminanzkomponente betreffenden Teilbänder,
    • – Konturverstärkung der hervorstechenden Elemente in jedem die Luminanzkomponente betreffenden Teilband,
    • – Berechnung einer Salienzenkarte aus der Konturverstärkung, und zwar für jedes die Luminanzkomponente betreffende Teilband,
    • – Erzeugung der Salienzenkarte in Abhängigkeit von den für jedes Teilband erhaltenen Salienzenkarten.
  • Nach einer zweiten Eigenschaft schlägt die Erfindung eine Vorrichtung zur Erzeugung einer Salienzenkarte eines Bildes vor, welche dadurch gekennzeichnet ist, dass sie Mittel für folgende Schritte umfasst:
    • – Projektion des Bildes gemäß der Luminanzkomponente beziehungsweise, falls es sich bei dem Bild um ein Farbbild handelt, gemäß der Luminanzkomponente und gemäß der Chrominanzkomponenten,
    • – Transposition der Luminanz- und Chrominanzsignale in die Frequenzbereiche,
    • – Zerlegung der Komponenten des Frequenzbereichs in perzeptionelle Teilbänder gemäß der Sichtbarkeitsschwelle eines menschlichen Auges,
    • – Extraktion der hervorstechenden Elemente der die Luminanzkomponente betreffenden Teilbänder,
    • – Konturverstärkung der hervorstechenden Elemente in jedem die Luminanzkomponente betreffenden Teilband,
    • – Berechnung einer Salienzenkarte aus der Konturverstärkung, und zwar für jedes die Luminanzkomponente betreffende Teilband,
    • – Erzeugung der Salienzenkarte in Abhängigkeit von den für jedes Teilband erhaltenen Salienzenkarten.
  • Weitere Eigenschaften und Vorteile der Erfindung ergeben sich aus der Beschreibung einer nicht-einschränkenden Ausgestaltung der Erfindung, die anhand der beiliegenden Zeichnungen erläutert wird. Es zeigen:
  • 1 zeigt ein allgemeines Ablaufdiagramm einer bevorzugten Ausgestaltung des erfindungsgemäßen Verfahrens, durchgeführt für ein Schwarz-Weiß-Bild.
  • 2 zeigt ein allgemeines Ablaufdiagramm einer bevorzugten Ausgestaltung des erfindungsgemäßen Verfahrens, durchgeführt für ein Schwarz-Weiß-Bild.
  • 3 zeigt die psychovisuelle Aufteilung der räumlichen Frequenz für die achromatische Komponente.
  • 4 zeigt die psychovisuelle Aufteilung der räumlichen Frequenz für die chromatische Komponenten.
  • 5 zeigt die Kontrastempfindlichkeitsfunktion nach Dally.
  • 6a und 6b zeigen die visuelle Maskierung beziehungsweise ein nicht-lineares Maskierungsmodell.
  • 7 zeigt das Ablaufdiagram des Normalisierungsschrittes nach der bevorzugten Ausgestaltung.
  • 8 zeigt den Schritt der Hemmung (Inhibition) und Erregung (Exzitation).
  • 9 zeigt das Profil der Filter zur Modellierung der fazilitativen Interaktionen für θ = 0.
  • 10 zeigt eine Darstellung des Operators D(z).
  • 11 zeigt den Schritt der chromatischen Verstärkung.
  • 12 zeigt das Auftreten außerhalb des klassischen rezeptiven Feldes, verursacht durch die benachbarten Bereiche der CRF-Flanken.
  • 13 zeigt ein Profilbeispiel für die normalisierte Gewichtungsfunktion für eine bestimmte Orientierung bei radialer Frequenz.
  • 1 zeigt das allgemeine Ablaufdiagramm einer bevorzugten Ausgestaltung des erfindungsgemäßen Verfahrens, durchgeführt für ein Schwarz-Weiß-Bild.
  • Der Algorithmus ist in drei Hauptabschnitte unterteilt.
  • Dem ersten Sichtbarkeit genannten Abschnitt liegt die Tatsache zugrunde, dass das menschliche visuelle System eine begrenzte Empfindlichkeit besitzt. Beispielsweise ist das menschliche visuelle System nicht in der Lage, alle Signale in der realen Umgebung sehr genau wahrzunehmen; außerdem ist es für geringfügige Stimuli unempfindlich. Um diesen ersten Schritt durchzuführen, müssen diese intrinsischen Einschränkungen berücksichtigt werden, indem perzeptionelle Zerlegung, Kontrastempfindlichkeitsfunktionen (CSF) und Maskierungsfunktionen angewendet werden.
  • Der zweite Abschnitt ist dem Begriff der Wahrnehmung gewidmet. Die Wahrnehmung ist ein Prozess, in dem aus Bildern der Außenwelt eine Beschreibung erzeugt wird, die für den Betrachter nützlich ist und nicht mit irrelevanten Informationen überladen ist. Um relevante Informationen auszuwählen, wird besonders ein Zentrum-Umgebung- Mechanismus verwendet, der biologischen Untersuchungen folgt.
  • Der letzte Schritt betrifft einige Gesichtspunkte des Bereichs der perzeptionellen Gruppierung. Die Wahrnehmungsgruppierung bezieht sich auf die visuelle Fähigkeit des Menschen, aus primitiven Bildeigenschaften niedriger Stufe ohne jegliche Kenntnis des Bildinhalts signifikante Bildrelationen zu extrahieren und diese so zu gruppieren, dass eine sinnvolle Struktur höherer Stufe entsteht. Das vorgeschlagene Verfahren konzentriert sich nur auf die Konturintegration und die Randverknüpfung.
  • Die Schritte E3 und E4 werden bei Auftreten des Signals im Frequenzbereich ausgeführt.
  • Die Schritte E1, E6 und E9 werden im räumlichen Bereich durchgeführt.
  • Die Schritte E7 und E8 werden im Frequenzbereich oder im räumlichen Bereich durchgeführt. Bei Ausführung im Frequenzbereich muss vor Schritt E7 eine Fourier-Transformation und vor Schritt E9 eine inverse Fourier-Transformation durchgeführt werden.
  • In Schritt E1 wird die Luminanzkomponente aus dem betrachteten Bild extrahiert.
  • In Schritt E2 wird die Luminanzkomponente in den Frequenzbereich durch Anwendung bekannter Transformationen, wie beispielsweise der Fourier-Transformation, transponiert, um in Schritt E3 die Zerlegung in perzeptionelle Teilbänder auf das Bild anwenden zu können.
  • In Schritt E3 wird die Luminanzkomponente einer perzeptionellen Zerlegung unterzogen. Diese Zerlegung wird von der Kortex-Transformation angeregt und basiert auf der in der Schrift „The computation of visual bandwidths and their impact in image decomposition and coding", International Conference and Signal Processing Applications and Technology, Santa-Clara, Kalifornien, S. 776-770, 1993, vorgeschlagenen Zerlegung. Diese Zerlegung erfolgt nach der Sichtbarkeitsschwelle eines menschlichen Auges.
  • Die auf verschiedenen psychophysikalischen Versuchen gründende Zerlegung wird erreicht, indem der Frequenzbereich in räumliche Radialfrequenz und Orientierung aufgeteilt wird. Die perzeptionelle Zerlegung der Komponente A führt zu 17 psychovisuellen Teilbändern, die, wie in 3 gezeigt, auf vier Segmente verteilt sind.
  • Der schattierte Bereich in 3 zeigt den Spektralträger des zu dem dritten Segment gehörenden Teilbands, welches eine von 15 bis 45 Grad reichende Winkelselektivität von 30 Grad besitzt.
  • Die vier Bereiche (Segmente) der räumlichen Frequenz werden wie folgt bezeichnet:
    • I: räumliche Frequenzen von 0 bis 1,5 Zyklen/Grad
    • II: räumliche Frequenzen von 1,5 bis 5,7 Zyklen/Grad
    • III: räumliche Frequenzen von 5,7 bis 14,2 Zyklen/Grad
    • IV: räumliche Frequenzen von 14,2 bis 28,2 Zyklen/Grad
  • Die Winkelselektivität ist abhängig von dem jeweiligen Frequenzbereich. Für niedrige Frequenzen gibt es keine Winkelselektivität.
  • Die Haupteigenschaften dieser Zerlegungen und die Hauptunterschiede in Bezug auf die Kortex-Transformation sind eine nicht-dyadische radiale Selektivität und eine mit der radialen Frequenz ansteigende Orientierungsselektivität.
  • Jedes resultierende Teilband kann als das neurale Bild angesehen werden, das einer Population auf einen räumlichen Frequenzbereich und eine bestimmte Orientierung abgestimmter Sehzellen entspricht. Tatsächlich gehören diese Zellen zum primären visuellen Kortex (auch Streifenkortex oder V1 genannt, wobei V1 für das visuelle Areal 1 steht). Dieser besteht insgesamt aus ca. 200 Millionen Neuronen und erhält seinen Input vom seitlichen Kniehöcker. Rund 80 Prozent der Zellen sind für die Orientierung und die räumliche Frequenz des visuellen Stimulus selektiv.
  • Auf das räumliche Bildspektrum wird eine bekannte Eigenschaft des menschlichen visuellen Systems angewendet, nämlich die Kontrastempfindlichkeitsfunktion (CSF). Die angewendete CSF ist eine mehrdimensionale Funktion, die in der Hauptsache von der räumlichen Frequenz, der Orientierung und dem Betrachtungsabstand abhängt.
  • Biologische Untersuchungen haben gezeigt, dass Sehzellen auf Stimuli, die über einen bestimmten Kontrast hinausgehen, reagieren. Der Kontrastwert, auf den eine Sehzelle reagiert, wird Sichtbarkeitsschwelle genannt (über dieser Schwelle ist der Stimulus sichtbar). Dieser Schwellenwert hängt von einer ganzen Anzahl von Parametern ab, beispielsweise der räumlichen Frequenz des Stimulus, der Orientierung des Stimulus, des Betrachtungsabstands, usw. Diese Veränderlichkeit führt uns zu dem Begriff der CSF, die die Empfindlichkeit des menschlichen Auges (die Empfindlichkeit ist gleich dem Kehrwert der Kontrastschwelle) als eine mehrdimensionale Funktion ausdrückt. Folglich erlaubt die CSF eine Einschätzung der Empfindlichkeit des menschlichen Auges für einen gegebenen Stimulus.
  • In Schritt E4 wird eine von Dally entwickelte zweidimensionale anisotrope Kontrastempfindlichkeitsfunktion angewendet. Eine derartige CSF ist in der Schrift „The visible different predictor: an algorithm for the assessment of image fidelity", in Proceedings of SPIE Human vision, visual processing and digital display III, Band 1666, S. 2-15, 1992, beschrieben.
  • Mit der CSF kann eine wichtige Eigenschaft der Augen modelliert werden, da die Zellen des menschlichen visuellen Systems sehr empfindlich auf räumliche Frequenzen reagieren.
  • 5 veranschaulicht die CSF nach Dally.
  • Nach Anwendung der Funktion nach Dally erfolgt für das Signal eine inverse Fourier-Transformation in Schritt E5, um den nächsten Schritt E6 durchführen zu können.
  • Für natürliche Bilder kann die Empfindlichkeit durch die Anwesenheit eines weiteren Stimulus moduliert werden (Anheben oder Senken der Sichtbarkeitsschwelle). Diese Modulation der Empfindlichkeit des menschlichen Auges wird visuelle Maskierung genannt und wird in Schritt E6 durchgeführt.
  • Der Maskierungseffekt ist in den 6a und 6b veranschaulicht. Betrachtet werden zwei Schlüsselpunkte, nämlich ein Ziel und eine Maske, wobei CT für die Kontrastschwelle des Ziels bei Anwesenheit der Maske und CM für den Kontrast der Maske stehen. Darüber hinaus steht CT0 für die mit Hilfe einer CSF gemessenen Kontrastschwelle (ohne Maskierungseffekt).
  • Bei Veränderung von CM können drei Bereiche festgelegt werden:
    • • Bei niedrigen Werten für CM bleibt die Erkennungsgrenze konstant. Die Sichtbarkeit des Ziels erfährt durch die Maske keine Veränderung.
    • • Geht CM gegen CT0, erleichtert die Maske die Erkennung des Ziels durch Senken der Sichtbarkeitsschwelle. Dieses Phänomen wird fazilitativer Effekt oder „Sockeleffekt" genannt.
    • • Steigt CM an, wird das Ziel durch die Maske verdeckt. Die Kontrastschwelle wird angehoben.
  • Das Verfahren der visuellen Maskierung basiert auf der Erkennung eines einfachen Signals als sinusförmigem Muster.
  • Es gibt eine Reihe anderer Verfahren für die Modellierung der visuellen Maskierung, die auf psychophysikalischen Versuchen gründen. Zum Beispiel bezieht sich ein optimales Verfahren auf die Erkennung von Quantisierungsrauschen.
  • Es ist offensichtlich, dass das bevorzugte Verfahren in Anbetracht der den natürlichen Bildern innewohnenden Komplexität eine starke Vereinfachung darstellt. Dennoch sind auf diesem Grundsatz zahlreiche Anwendungen (Wasserzeichen, Einschätzung der Bildwiedergabequalität) aufgebaut, die angesichts der Komplexität interessante Ergebnisse liefern.
  • In Zusammenhang mit der Zerlegung in Teilbänder wurde die Maskierung gründlich untersucht, was zur Festlegung von drei Maskierungsarten führte: kanalinterne Maskierung, kanalübergreifende Maskierung und komponentenübergreifende Maskierung.
  • Die kanalinterne Maskierung findet zwischen Signalen statt, die die gleichen Eigenschaften haben (Frequenz und Orientierung) und folglich zum gleichen Kanal gehören. Es handelt sich hierbei um den wichtigsten Maskierungseffekt.
  • Die kanalübergreifende Maskierung findet zwischen Signalen statt, die zu verschiedenen Kanälen der gleichen Komponente gehören.
  • Die komponentenübergreifende Maskierung findet zwischen Kanälen unterschiedlicher Komponenten statt (beispielsweise zwischen Komponente A und einer chromatischen Komponente). Diese beiden letzten visuellen Maskierungen werden im Folgenden kombiniert und einfach übergreifende Maskierung genannt.
  • Für die achromatische Komponente verwendeten wir die von Dally in der Schrift mit dem Titel „A visual model for Optimizing the Design of Image Processing Algorithms", in IEEE international conferences an image processing, S. 16-20, 1994, entwickelte Maskierungsfunktion, und zwar trotz der Tatsache, dass dieses Modell den „Sockeleffekt" nicht berücksichtigt. Die Kraft dieses Modells liegt darin, dass es mit einer ungeheuren Menge an Untersuchungsergebnissen optimiert worden ist.
  • Die Veränderlichkeit der Sichtbarkeitsschwelle ist durch folgende Gleichung gegeben:
    Figure 00120001
    wobei Ri,j für einen aus der perzeptionellen Kanalzerlegung stammenden psychovisuellen Kanal steht (zum Beispiel ergibt sich aus dem schattierten Bereich in 2.1 der Kanal RIII,2). Die Werte k1, k2, s und b sind im Folgenden angegeben:
    k1 = 0,0153
    k2 = 392,5
  • In der folgenden Tabelle sind die Werte für s und b für das jeweilige Teilband angegeben:
    Teilband s b
    I 0,75 4
    II 1 4
    III 0,85 4
    IV 0,85 4
  • Daraus ergibt sich am Ende des Maskierungsschrittes das Signal R'i,j(x, j) R'i,j(x, y) = Ri,j(x, y)/Ti,j(x, y)
  • Der Normalisierungsschritt E7 ermöglicht dann die Extraktion der wichtigen Hauptinformationen aus dem Teilband. Schritt E7 wird in 7 im Einzelnen veranschaulicht.
  • In Schritt S1 wird ein erstes Teilband R'I,J(x, y) ausgewählt. Die Schritte S2 bis S4 und S8 werden für jedes Teilband R'I,J(x, y) der 17 Teilbänder durchgeführt.
  • Die Schritte S5 bis S7 werden für das zweite Segment (II) durchgeführt.
  • I steht für das räumliche Radialfrequenzband und gehört zu {I, II, III, IV}.
  • J steht für die Orientierung und gehört zu {1, 2, 3, 4, 5, 6}.
  • (x, y) steht für die Raumkoordinaten.
  • In weiteren Ausgestaltungen können die verschiedenen Schritte für alle Teilbänder ausgeführt werden.
  • Die Schritte S2 und S3 sind für die Modellierung des Verhaltens des klassischen rezeptiven Feldes bestimmt.
  • Der Begriff des klassischen rezeptiven Feldes ermöglicht die Herstellung einer Verbindung zwischen einem retinalen Bild und der globalen Wahrnehmung der Szene. Das klassische rezeptive Feld ist definiert als der jeweilige Bereich des Sehfeldes, in dem eine entsprechende Anregung (mit der bevorzugten Orientierung und Frequenz) eine relevante aus einer Sehzelle stammende Reaktion hervorruft. Daher kann per definitionem ein Stimulus im äußeren Bereich (Umgebung genannt) die Zelle nicht direkt aktivieren.
  • Die Hemmung und Anregung in den Schritten S2 und S3 erhält man durch einen Gabor-Filter, der empfindlich für die Orientierung und die Frequenz ist.
  • Der Gabor-Filter kann wie folgt dargestellt werden.
    Figure 00140001
    wobei f für die räumliche Frequenz der Cosinus-Modulation in Zyklen/Grad (cy/°) steht.
  • (xθ/yθ) erhält man durch eine Translation der ursprünglichen Koordinaten (x0, y0) und durch Drehung von θ.
    Figure 00140002
    wobei A für die Amplitude und
    σx und σy für die Breite der Gaußkurve entlang der x-Achse beziehungsweise der y-Achse stehen.
  • Figure 00150001
  • Legende:
    • excitation = Exzitation (Erregung)
    • if = wenn
    • otherwise = sonst
  • Um elliptische Formen zu erhalten, nimmt man unterschiedliche Varianzen von σX < σy.
  • Das endgültige Ergebnis ergibt sich wie folgt: RExi,j (x, y) = R1i,j (x, y)·excitation(x, y, σx, σy, ⨍, θ)
  • Legende:
    • excitation = Exzitation (Erregung)
  • In Schritt S3 wird die Hemmung mit folgender Gleichung berechnet:
    Figure 00150002
  • Legende:
    • inhibition = Inhibition (Hemmung)
    • Si = wenn
    • sinon = sonst
  • Und zuletzt: RInhi,j (x, y) = R1i,j (x, y)·inhibition(x, y, σx, σy, ⨍, θ)
  • Legende:
    • inhibition = Inhibition (Hemmung)
  • In Schritt S4 wird die Differenz zwischen der Erregung und der Hemmung berechnet. Die positiven Komponenten werden beibehalten, während die negativen Komponenten auf „0" gesetzt werden. Dies geschieht mit folgender Operation:
    Figure 00160001
  • In Schritt S5 werden für jede Orientierung und für jedes Teilband des zweiten Bereichs zwei Konvolutionsprodukte berechnet:
    Figure 00160002
  • B0i,j (x, y) und B1i,j (x, y) sind zwei Halb-Butterfly-Filter. Das Profil dieser Filter ermöglicht die Modellierung von fazilitativen Interaktionen für θ = 0, wie in 9 gezeigt. Diese Filter sind durch Verwendung eines Bipolar/Butterfly-Filters definiert.
  • Es besteht aus einem Richtungsterm Dθ(x, y) und einem durch einen Kreis C erzeugten Näherungsterm, durch einen Gaußfilter Gσx,σy(x, y) unscharf gemacht.
    Figure 00160003
    mit
    Figure 00170001
  • Legende:
    • Si = wenn
    • sinon = sonst
  • und φ = arctan (y'/x'), wobei (x', y')T für den um θi,j gedrehten Vektor (x, y)T steht. Der Parameter α definiert den Öffnungswinkel 2α des Bipolarfilters. Er hängt von der Winkelselektivität γ des jeweiligen Teilbandes ab. Wir wählen α = 0,4xγ. Der Bipolarfilter ist ungefähr zweimal so groß wie das klassische rezeptive Feld einer Sehzelle.
  • In Schritt S6 wird der fazilitative Koeffizient berechnet:
    Figure 00170002
    wobei β eine Konstante ist,
    Figure 00170003
    mit
    αi ≤ l, i ∈ [0... N – 1]
  • 9 zeigt den Operator D(z).
  • Um die Anwendung des fazilitativen Koeffizienten zu vereinfachen, gewährleistet der Operator D(z), dass der fazilitative Koeffizient stückweise konstant ist, wie in 9 gezeigt.
  • In Schritt S7 wird der fazilitative Koeffizient auf das in Schritt S4 erhaltene normalisierte Ergebnis angewendet.
    Figure 00180001
  • Geht man nach Schritt S7 von 7 zurück zu Schritt E8 von 1, werden die vier für den Bereich II erhaltenen Salienzenkarten kombiniert, damit sich die gesamte Salienzenkarte nach der folgenden Gleichung ergibt:
    Figure 00180002
  • α, β, χ, δ stellen die Gewichtungskoeffizienten dar, die von der Anwendung abhängen (Wasserzeichen, Kodierung usw.).
  • In weiteren Ausgestaltungen kann man die Salienzenkarte erzeugen, indem man alle 17 Teilbänder und nicht nur die Teilbänder des Bereichs II berechnet.
  • 2 zeigt das allgemeine Ablaufdiagramm einer bevorzugten Ausgestaltung des erfindungsgemäßen Verfahrens, durchgeführt für ein Farbbild.
  • Die Schritte T1, T4, T'4, T''4, T5 und T8 erfolgen im räumlichen Bereich.
  • Die Schritte T2, T'2, T''2, T3, T'3, T''3 erfolgen im Frequenzbereich.
  • Zwischen Schritt T1 und Schritt T2, T'2, T''2 wird eine Fourier-Transformation ausgeführt.
  • Zwischen T3, T'3, T''3 und T4, T'4, T''4 wird eine inverse Fourier-Transformation ausgeführt.
  • Die Schritte T6 und T7 können im Frequenzbereich oder im räumlichen Bereich erfolgen. Erfolgen sie im Frequenzbereich, wird für das Signal zwischen Schritt T5 und T6 eine Fourier-Transformation und zwischen Schritt T7 und T8 eine inverse Fourier-Transformation ausgeführt.
  • Schritt T1 umfasst die Umwandlung der RGB-Luminanzen in den Krauskopf-Gegenfarbraum, der durch die Kardinalrichtungen A, Cr1 und Cr2 bestimmt ist.
  • Diese Transformation in den Gegenfarbraum ist eine Möglichkeit, die Wechselbeziehungen unter den Farbinformationen aufzulösen. Tatsächlich glaubt man, dass das Gehirn drei verschiedene Pfade für die Kodierung von Informationen benutzt: Der erste Pfad leitet das Luminanzsignal (A), der zweite die roten und grünen Komponenten (Cr1) und der dritte die blauen und gelben Komponenten (Cr2) weiter.
  • Diese Kardinalrichtungen hängen eng mit den von den drei Arten von Zapfen (L, M, S) stammenden Signalen zusammen.
  • Die drei RGB-Komponenten werden zunächst einer Nichtlinearisierung nach dem Potenzgesetz (Gamma-Korrektur) der Form xγ mit γ ≈ 2,4 unterzogen. Dieser Schritt ist erforderlich, um die Übertragungsfunktion des Anzeigesystems zu berücksichtigen. Die CIE-XYZ-Normfarbwerte (CIE = französisches Akronym für „commission internationale de l'éclairage"), die die Basis für die Umrechnung in einen Farbraum des menschlichen visuellen Systems bilden, werden dann mit Hilfe der folgenden Gleichung berechnet:
    Figure 00200001
  • Die Reaktion der L-, M-, S-Zapfen werden wie folgt berechnet:
    Figure 00200002
  • Aus dem LMS-Raum muss ein Gegenfarbraum abgeleitet werden. Es gibt verschiedene Gegenfarbräume, die sich darin unterscheiden, wie sie die verschiedenen Zapfenreaktionen kombinieren. In experimentellen Untersuchungen wurde der von Krauskopf entwickelte Farbraum bestätigt, der sich aus der folgenden Transformation ergibt:
    Figure 00200003
  • Danach wird in Schritt T2 eine perzeptionelle Zerlegung für die Luminanzkomponente durchgeführt. Vor Schritt T2 und nach Schritt T1 wird die Luminanzkomponente mit Hilfe bekannter Transformationen, wie beispielsweise der Fourier-Transformation, in den Frequenzbereich transponiert, um in Schritt T2 die perzeptionelle Zerlegung in Teilbänder für das Bild durchführen zu können.
  • Da die in Schritt T2 durchgeführte perzeptionelle Zerlegung in Teilbänder die gleiche ist wie die in Schritt E3 in 1 durchgeführte und bereits oben beschrieben wurde, wird hier nicht mehr darauf eingegangen.
  • Bezüglich der Zerlegung der chromatischen Komponenten Cr2 und Cr1 in den in 4 gezeigten Schritten T'2 und T''2 führt die Zerlegung zu fünf psychovisuellen Teilbändern für jede dieser auf zwei Segmente verteilten Komponenten. Vor Schritt T'2, T''2 und nach Schritt T1 werden die Chrominanzkomponenten mit Hilfe bekannter Transformationen, wie beispielsweise der Fourier-Transformation, in den Frequenzbereich transponiert, um in Schritt T'2 und T''2 die perzeptionelle Zerlegung in Teilbänder für das Bild durchführen zu können.
  • Zwei Bereiche der räumlichen Frequenz werden mit I und II bezeichnet:
    • I: räumliche Frequenzen von 0 bis 1,5 Zyklen/Grad
    • II: räumliche Frequenzen von 1,5 bis 5,7 Zyklen/Grad
  • In Schritt T3, T'3 und T''3 wird eine Kontrastempfindlichkeitsfunktion (CSF) angewendet.
  • In Schritt T3 wird für die Luminanzkomponente die gleiche Kontrastempfindlichkeit wie in Schritt E4 von 1 angewendet, weshalb hier nicht näher darauf eingegangen wird.
  • In Schritt T'3 und T''3 wird die gleiche CSF für die beiden chromatischen Komponenten Cr1 und Cr2 ausgeführt. Auf die beiden chromatischen Komponenten wird eine von Le Callet entwickelte zweidimensionale anisotrope CSF angewendet. Diese ist in der Schrift „critères objectifs avec rèfèrences de qualitè visuelle des images couleurs", Le Callet, Universität von Nantes, 2001, beschrieben.
  • Bei dieser CSF werden zwei Tiefpassfilter mit einer Abschaltfrequenz von ungefähr 5,5 Zyklen/Grad und 4,1 Zyklen/Grad für die Cr1- beziehungsweise Cr2-Komponenten verwendet.
  • Um frühe visuelle Eigenschaften, welche sich aus unterschiedlichen visuellen Modalitäten (achromatische und chromatische Komponenten) herleiten, direkt miteinander vergleichen zu können, werden die die Sichtbarkeit betreffenden Teilbänder gewichtet. Dabei ist die Sichtbarkeitsschwelle als der Kontrast des Stimulus an einem bestimmten Punkt definiert, an welchem der Stimulus gerade sichtbar wird.
  • Danach wird für die verschiedenen Komponenten (nicht in 2 gezeigt) eine inverse Fourier-Transformation durchgeführt, um die Maskierung im räumlichen Bereich anwenden zu können.
  • Daraufhin wird für die verschiedenen Teilbänder für die chromatischen Komponenten Cr1 und Cr2 in Schritt T'4 und T''4 sowie für die achromatische Komponente in Schritt T4 eine interne Maskierung durchgeführt. Da dieser letzte Schritt bereits in der Beschreibung von 1, Schritt E6, erläutert wurde, wird hier nicht näher darauf eingegangen.
  • Die kanalinterne Maskierung wird als eine Gewichtung der Ergebnisse der CSF-Funktion integriert. Die Maskierung ist ein äußerst wichtiges Phänomen bei der Wahrnehmung, da sie die Interaktionen zwischen den Stimuli beschreibt. Tatsächlich kann die Sichtbarkeitsschwelle eines Stimulus durch die Anwesenheit eines weiteren Stimulus beeinflusst werden.
  • Die Maskierung ist am stärksten zwischen Stimuli, die auf dem gleichen Wahrnehmungskanal oder im gleichen Teilband liegen. Wir wenden die von Dally entwickelte Funktion der internen Maskierung, wie in 1, Schritt E6, beschrieben, auf die achromatische Komponente und auf die Farbkomponente die Funktion der internen Maskierung an, welche in der von P. Le Callet und D. Barba verfassten Schrift „Frequency and spatial pooling of visual differences for still image quality assessment", in Proc. SPIE Human Vision and Electronic Imaging Conference, San Jose, CA, Band 3959, Januar 2000, beschrieben ist.
  • Diese Maskierungsfunktionen bestehen aus einem nichtlinearen Wandler, wie er in der von Legge und Foley verfassten Schrift „Contrast Masking in Human Vision", Journal of the Optical Society of America, Band 70, Nr. 12, S. 1458-1471, Dezember 1980, ausgedrückt ist.
  • Die visuelle Maskierung ist am stärksten zwischen Stimuli, die im gleichen Wahrnehmungskanal liegen (kanalinterne Maskierung). Dennoch gibt es, wie sich in zahlreichen Studien gezeigt hat, mehrere komponentenübergreifende Maskierung genannte Interaktionen, die eine Maskierung oder einen „Sockeleffekt" liefern. Aus psychophysikalischen Versuchen wurden signifikante komponentenübergreifende Interaktionen, an denen die chromatischen Komponenten beteiligt sind, ausgewählt. Demzufolge konnte die Empfindlichkeit der achromatischen Komponente durch die Komponente Cr1 erhöht oder verringert werden. Der Einfluss von Cr2 auf die achromatische Komponente wird als unbedeutend eingestuft. Zuletzt kann auch Cr1 die Empfindlichkeit der Komponente Cr2 modulieren (und umgekehrt).
  • In Schritt T5 erfolgt dann eine chromatische Verstärkung.
  • Die Farbe ist einer der Faktoren mit der stärksten Anziehungskraft für die Wahrnehmung. Die Erfindung möchte diese Anziehungskraft durch Vorstellen der folgenden Eigenschaft nutzen: Das Vorhandensein von Bereichen mit einer deutlichen Farbe, die vollständig von Flächen mit relativ anderen Farben umgeben sind, impliziert eine besondere Anziehung für die Ränder dieses Bereiches.
  • Um die schwierige Aufgabe, aus achromatischen und chromatischen Komponenten stammende Messungen zu sammeln, zu vermeiden, besteht die Farbfazilitation aus der Verstärkung der Salienz einer achromatischen Struktur, indem ein für die niedrigen Frequenzen der chromatischen Komponenten berechneter fazilitativer Koeffizient verwendet wird.
  • In der bevorzugten Ausgestaltung wird lediglich eine Teilmenge aus einer Menge von achromatischen Kanälen verstärkt. Diese Teilmenge enthält vier Kanäle mit einer Winkelselektivität von π/4 und einer unter [1,5; 5,7] fallenden räumlichen Radialfrequenz (in Zyklen/Grad). Diese Kanäle werden mit Ri , j bezeichnet, wobei i für die räumliche Radialfrequenz und j für die Orientierung stehen. Im Beispiel ist j gleich {0, π/4, π/2, 3π/4}. Um einen fazilitativen Koeffizienten zu berechnen, wird für jeden Bildpunkt mit der niedrigen Frequenz von Cr1 und Cr2 der Kontrastwert bestimmt, der sich auf den Inhalt der benachbarten Areale und der aktuellen Orientierung des verstärkten achromatischen Kanals bezieht, wie in 11 gezeigt. In 11 ergibt sich der Kontrastwert durch Berechnung der absoluten Differenz zwischen dem durchschnittlichen Wert der Menge A und dem durchschnittlichen Wert der Menge B. Die Mengen A und B fallen unter die niedrige Frequenz von Cr1 oder Cr2 und sind in der bevorzugten Orientierung des jeweiligen achromatischen Kanals ausgerichtet.
  • Die chromatische Verstärkung für einen achromatischen (Luminanz-)Kanal Ri , j(x, y) erhält man mit der folgenden Gleichung.
    Figure 00250001
    wobei R(1)i,j (x, y) für das verstärkte achromatische Teilband und Ri,j(x, y) für ein achromatisches Teilband stehen.
  • |A-B|k steht für den Kontrastwert, der um den aktuellen Punkt auf der chromatischen Komponente k in der bevorzugten Orientierung des Teilbands Ri,j(x, y) berechnet wird, wie in 7 gezeigt. In der Ausgestaltung gehören die Mengen A und B zum Teilband des ersten Segments (niederfrequentes Teilband) der chromatischen Komponente k mit einer Orientierung von π/4.
  • In weiteren Ausgestaltungen können alle Teilbänder berücksichtigt werden.
  • In Schritt T6 wird die suppressive Zentrum-Umgebung-Interaktion ausgeführt.
  • Der erste Schritt dieser Operation ist die Hemmung (Inhibition) und Erregung (Exzitation).
  • Für die Modellierung des Hemmverhaltens der Zellen außerhalb des klassischen rezeptiven Feldes wird eine zweidimensionale Differenz-der-Gaußfunktion (DoG, Difference of Gaussian) verwendet. Die
    Figure 00260001
    wird mit der folgenden Gleichung berechnet:
    Figure 00260002
    für eine zweidimensionale Gaußkurve steht.
  • Die Parameter exx , σexy ) und inhx , σinhy ) entsprechen der räumlichen Ausdehnung der Gaußkurve entlang der x-Achse und der y-Achse der zentralen Gaußkurve (des Zentrums des klassischen rezeptiven Feldes) beziehungsweise der hemmenden Gaußkurve (der Umgebung). Diese Parameter wurden gemäß der Radialfrequenz des zweiten Segments (die Radialfrequenz f∈[1,5;5,7] wird in Zyklen/Grad ausgedrückt) im Experiment bestimmt. Schließlich kann die nichtklassische Umgebungshemmung anhand der normalisierten Gewichtungsfunktion
    Figure 00270001
    modelliert werden, welche man mit der folgenden Gleichung erhält:
    Figure 00270002
    mit
    Figure 00270003
    (x', y') ergibt sich durch eine Translation des ursprünglichen Koordinatensystems um (x0, y0) und Drehung desselben um θi , j, ausgedrückt in rad:
    Figure 00270004
    bezeichnet die Norm L1, d.h. den absoluten Wert.
  • 12 zeigt die Struktur einer Hemmung außerhalb des klassischen rezeptiven Feldes.
  • 13 zeigt ein Beispiel eines Profils der normalisierten Gewichtungsfunktion
    Figure 00280001
  • Die Reaktion R(2)i,j (x, y) von Kortexzellen auf ein bestimmtes Teilband R(1)i,j (x, y) wird durch die Konvolution des Teilbandes R(1)i,j (x, y) mit der Gewichtungsfunktion
    Figure 00280002
    berechnet:
    Figure 00280003
    wobei H(z) wie oben beschrieben definiert ist.
  • In Schritt T7 wird eine fazilitative Interaktion durchgeführt.
  • Die fazilitative Interaktion wird üblicherweise als Konturverstärkung oder Konturintegration bezeichnet.
  • Fazilitative Interaktionen erscheinen außerhalb des klassischen rezeptiven Feldes entlang einer bevorzugten Orientierungsachse. Derartige Interaktionen erreichen ihr Maximum, wenn die Stimuli für Zentrum und Umgebung isoorientiert und koorientiert sind. Anders ausgedrückt wird, wie sich in mehreren physiologischen Beobachtungen gezeigt hat, die Aktivität der Zelle erhöht, wenn die Stimuli im klassischen rezeptiven Feld und ein Stimulus in der Umgebung miteinander verknüpft werden, um eine Kontur zu bilden.
  • Die Konturintegration bei der frühen visuellen Vorverarbeitung wird mit Hilfe zweiter Halb-Butterfly-Filter B0i,j und B1i,j simuliert. Die Profile dieser Filter sind in 9 gezeigt und werden mit Hilfe eines Bipolar/Butterfly-Filters definiert. Es besteht aus einem Richtungsterm Dθ(x, y) und einem durch einen Kreis C erzeugten Näherungsterm, durch einen Gaußfilter Gσx,σy(x, y) unscharf gemacht.
    Figure 00290001
    und φ = arctan (y'/x'), wobei (x', y')T für den um θi,j gedrehten Vektor (x, y)T steht. Der Parameter α definiert den Öffnungswinkel 2α des Bipolarfilters. Er hängt von der Winkelselektivität γ des jeweiligen Teilbandes ab. Wir wählen α = 0,4xγ. Der Bipolarfilter ist ungefähr zweimal so groß wie das klassische rezeptive Feld einer Sehzelle.
  • Die beiden Halb-Butterfly-Filter B0i,j und B1i,j werden später von dem Butterfly-Filter mit Hilfe geeigneter Fenster abgeleitet.
  • Für jede Orientierung, jedes Teilband und jeden Ort wird der fazilitative Koeffizient wie folgt berechnet:
    Figure 00300001
    wobei
    β eine Konstante ist, L0i,j (x, y) = R(2)i,j (x, y)·B0i,j (x, y) L1i,j (x, y) = R(2)i,j (x, y)·B1i,j (x, y)
    Figure 00300002
    wobei 9 den Operator D(z) veranschaulicht.
  • Das sich aus der fazilitativen Interaktion ergebende Teilband R(3)i,j erhält man schließlich durch Wichten des Teilbands R(2)i,j mit einem Faktor, der von dem Verhältnis des lokalen Maximums des fazilitativen Koeffizienten fisoi,j (x, y) und dem globalen Maximum des fazilitativen Koeffizienten abhängt, berechnet für alle Teilbänder, die zum gleichen räumlichen Frequenzbereich gehören:
    Figure 00300003
  • Dieser fazilitative Faktor ermöglicht, aus einer standardmäßigen Schmetterlingsform eine Verbesserung der Salienz von isolierten geraden Linien zu erzielen. Mit ηiso kann die Stärke dieser fazilitativen Interaktion gesteuert werden.
  • In Schritt E8 erhält man die Salienzenkarte, indem man alle sich aus Schritt E7 ergebenden Teilbänder addiert.
  • Figure 00310001
  • In weiteren Ausgestaltungen der Erfindung können alle Teilbänder verwendet werden und nicht nur die Teilbänder des zweiten Segments.
  • Obwohl Kortexzellen, die auf horizontale und vertikale Richtung abgestimmt sind, nahezu ebenso zahlreich sind wie Zellen, die auf andere Richtungen abgestimmt sind, wird keine Gewichtung eingeführt. Diese Eigenschaft des menschlichen visuellen Systems wird durch Anwendung einer zweidimensionalen anisotropen Kontrastempfindlichkeitsfunktion implizit nachgeahmt.

Claims (9)

  1. Verfahren zur Erzeugung einer Salienzenkarte eines Bildes, dadurch gekennzeichnet, dass es folgende Schritte umfasst: – Projektion (E1) des Bildes gemäß der Luminanzkomponente (A) beziehungsweise, falls es sich bei dem Bild um ein Farbbild handelt, gemäß der Luminanzkomponente (A) und gemäß der Chrominanzkomponenten (Cr1, Cr2), – Zerlegung (E3, T2, T'2, T''2) der Komponenten (A, Cr1, Cr2) in perzeptionelle Teilbänder gemäß der Sichtbarkeitsschwelle eines menschlichen Auges, – Extraktion (E7) der hervorstechenden Elemente der die Luminanzkomponente (A) betreffenden Teilbänder, – Konturverstärkung (E8, T7) der hervorstechenden Elemente in jedem die Luminanzkomponente (A) betreffenden Teilband, – Berechnung (T7) einer Salienzenkarte aus der Konturverstärkung, und zwar für jedes die Luminanzkomponente (A) betreffende Teilband, – Erzeugung (T8) der Salienzenkarte in Abhängigkeit von den für jedes Teilband erhaltenen Salienzenkarten.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass es außer der Zerlegung in perzeptionelle Teilbänder folgende Schritte umfasst: – Schritt einer achromatischen Kontrastempfindlichkeitsfunktion (CSF) für die Luminanzkomponente (A), wenn es sich bei dem Bild um ein Farbbild handelt, – Schritt einer chromatischen Empfindlichkeitsfunktion für die chromatischen Komponenten (Cr1, Cr2).
  3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass es außer dem Schritt der Kontrastempfindlichkeitsfunktion einen Schritt (E6, T4, T'4, T''4) der visuellen Maskierung für jedes Teilband der Luminanzkomponente (A) und der chromatischen Komponenten (Cr1, Cr2) umfasst.
  4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass, wenn es sich bei dem Bild um ein Farbbild handelt, es einen Schritt (T5) der chromatischen Verstärkung der Teilbänder der Luminanzkomponente (A) umfasst.
  5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Zerlegung in perzeptionelle Teilbänder erreicht wird, indem der Frequenzbereich in räumliche Radialfrequenz und Orientierung aufgeteilt wird.
  6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass die perzeptionelle Zerlegung der Luminanzkomponente (A) zu 17 über vier Segmente verteilten psychovisuellen Teilbändern führt.
  7. Verfahren nach Anspruch 5 oder 6, dadurch gekennzeichnet, dass die perzeptionelle Zerlegung der chromatischen Komponenten (Cr1, Cr2) zu fünf über zwei Segmente verteilten psychovisuellen Teilbändern für die jeweilige chromatische Komponente (Cr1, Cr2) führt.
  8. Verfahren nach Anspruch 4 bis 7, dadurch gekennzeichnet, dass die chromatische Verstärkung der Luminanzkomponente (A) auf den Teilbändern des zweiten Segments erfolgt, basierend auf den Teilbändern des ersten Segments der chromatischen Komponenten (Cr1, Cr2).
  9. Vorrichtung zur Erzeugung einer Salienzenkarte eines Bildes, dadurch gekennzeichnet, dass sie Mittel für die folgenden Schritte umfasst: – Projektion des Bildes gemäß der Luminanzkomponente (A) beziehungsweise, falls es sich bei dem Bild um ein Farbbild handelt, gemäß der Luminanzkomponente (A) und gemäß der Chrominanzkomponenten (Cr1, Cr2), – Transposition der Luminanz- und Chrominanzsignale in die Frequenzbereiche, – Zerlegung der Komponenten des Frequenzbereichs in perzeptionelle Teilbänder gemäß der Sichtbarkeitsschwelle eines menschlichen Auges, – Extraktion der hervorstechenden Elemente der die Luminanzkomponente betreffenden Teilbänder, – Konturverstärkung der hervorstechenden Elemente in jedem die Luminanzkomponente betreffenden Teilband, – Berechnung einer Salienzenkarte aus der Konturverstärkung, und zwar für jedes die Luminanzkomponente betreffende Teilband, – Erzeugung der Salienzenkarte in Abhängigkeit von den für jedes Teilband erhaltenen Salienzenkarten.
DE602004006306T 2003-12-18 2004-12-14 Vorrichtung und Verfahren zur Erzeugung einer Kartografie herausstechender Merkmale in einem Bild Active DE602004006306T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP03293216 2003-12-18
EP03293216A EP1544792A1 (de) 2003-12-18 2003-12-18 Vorrichtung und Verfahren zur Erzeugung einer Kartografie herausstechender Merkmale aus einem Bild
PCT/EP2004/053471 WO2005059832A1 (en) 2003-12-18 2004-12-14 Device and method for creating a saliency map of an image

Publications (2)

Publication Number Publication Date
DE602004006306D1 DE602004006306D1 (de) 2007-06-14
DE602004006306T2 true DE602004006306T2 (de) 2008-01-10

Family

ID=34486488

Family Applications (1)

Application Number Title Priority Date Filing Date
DE602004006306T Active DE602004006306T2 (de) 2003-12-18 2004-12-14 Vorrichtung und Verfahren zur Erzeugung einer Kartografie herausstechender Merkmale in einem Bild

Country Status (7)

Country Link
US (1) US7853076B2 (de)
EP (2) EP1544792A1 (de)
JP (1) JP4598778B2 (de)
CN (1) CN100478991C (de)
BR (1) BRPI0417594B1 (de)
DE (1) DE602004006306T2 (de)
WO (1) WO2005059832A1 (de)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2888375A1 (fr) 2005-07-06 2007-01-12 Thomson Licensing Sa Procede d'obtention d'une carte de saillance a partir d'une pluralite de cartes de saillances etablies a partir de grandeurs visuelles differentes
EP1744279A1 (de) * 2005-07-11 2007-01-17 Thomson Licensing Verfahren und Vorrichtung zur Filterung von digitalen Bildern mit Nutzung von Nebeninformation
EP1764736A1 (de) 2005-09-19 2007-03-21 Thomson Licensing Bildabschneideverfahren und System
FR2890517A1 (fr) * 2005-09-08 2007-03-09 Thomson Licensing Sas Procede et dispositif d'affichage d'images
FR2912237A1 (fr) 2007-02-07 2008-08-08 Thomson Licensing Sas Procede de traitement d'image
US7576755B2 (en) 2007-02-13 2009-08-18 Microsoft Corporation Picture collage systems and methods
FR2916931A1 (fr) * 2007-05-29 2008-12-05 Thomson Licensing Sas Procede de selection d'une donnee de codage et dispositif de codage implementant ledit procede
US8330768B2 (en) * 2007-07-27 2012-12-11 Sharp Laboratories Of America, Inc. Apparatus and method for rendering high dynamic range images for standard dynamic range display
EP2071511A1 (de) 2007-12-13 2009-06-17 Thomson Licensing Verfahren und Vorrichtung zur Generierung einer verkleinerten Bildfolge
TWI455064B (zh) 2007-12-20 2014-10-01 Thomson Licensing 聲影文件突起映圖之決定方法和裝置
FR2925705A1 (fr) * 2007-12-20 2009-06-26 Thomson Licensing Sas Dispositif d'aide a la capture d'images
WO2009120830A1 (en) * 2008-03-27 2009-10-01 Tufts University Methods and apparatus for visual sub-band decomposition of signals
TWI535267B (zh) * 2008-04-25 2016-05-21 湯姆生特許公司 影像序列的圖像之圖像部位寫碼方法及所用寫碼器和解碼器
US8374436B2 (en) * 2008-06-30 2013-02-12 Thomson Licensing Method for detecting layout areas in a video image and method for generating an image of reduced size using the detection method
EP2173090B1 (de) 2008-10-02 2014-11-05 Thomson Licensing Verfahren zur Einbettung eines Layouts in ein Quellbild
FR2936924A1 (fr) 2008-10-02 2010-04-09 Thomson Licensing Procede de conversion de format d'image avec insertion de bandeau d'information.
JP5334771B2 (ja) 2008-10-07 2013-11-06 トムソン ライセンシング 広告クリップをビデオ系列に挿入する方法、及び対応する装置
KR20100040236A (ko) * 2008-10-09 2010-04-19 삼성전자주식회사 시각적 관심에 기반한 2차원 영상의 3차원 영상 변환기 및 변환 방법
EP2200277A1 (de) 2008-12-22 2010-06-23 Thomson Licensing Verfahren und Vorrichtung zum Erfassen von Bildern durch Emulieren einer mechanischen Blende
KR20110106401A (ko) * 2008-12-23 2011-09-28 코닌클리케 필립스 일렉트로닉스 엔.브이. 이미지 스케일링 곡선 생성
EP2247114A1 (de) * 2009-04-29 2010-11-03 Thomson Licensing Verfahren und Vorrichtung zur Erstellung und Verarbeitung von Tiefendaten
EP2249307B1 (de) 2009-05-05 2019-07-03 InterDigital Madison Patent Holdings Verfahren zur wieder-rahmung
JP2010278724A (ja) * 2009-05-28 2010-12-09 Olympus Corp 画像処理装置、画像処理方法及び画像処理プログラム
FR2947979A1 (fr) 2009-07-09 2011-01-14 Thomson Licensing Dispositif de composition video
CN102779338B (zh) * 2011-05-13 2017-05-17 欧姆龙株式会社 图像处理方法和图像处理装置
EP2530642A1 (de) * 2011-05-31 2012-12-05 Thomson Licensing Verfahren zum Beschneiden von 3D-Inhalt
AU2011254040B2 (en) * 2011-12-14 2015-03-12 Canon Kabushiki Kaisha Method, apparatus and system for determining a saliency map for an input image
WO2013165565A1 (en) * 2012-04-30 2013-11-07 Nikon Corporation Method of detecting a main subject in an image
CN103424727A (zh) * 2012-05-23 2013-12-04 深圳市贝斯达医疗器械有限公司 一种磁共振图像亮度不均匀修正算法
CN104488255A (zh) 2012-06-18 2015-04-01 汤姆逊许可公司 用于图像的色彩调和的装置和方法
EP2709038A1 (de) 2012-09-17 2014-03-19 Thomson Licensing Vorrichtung und Verfahren zur Detektion des Vorhandenseins eines Logos in einem Bild
EP2979244B1 (de) 2013-03-28 2018-02-21 Thomson Licensing Verfahren und vorrichtung zur erzeugung einer wahrnehmungsharmoniekarte
WO2014154755A2 (en) 2013-03-28 2014-10-02 Thomson Licensing Method and apparatus for retouching the colors of an image
EP2849425A1 (de) 2013-09-16 2015-03-18 Thomson Licensing Farbvideoverarbeitungssystem und -verfahren sowie zugehöriges Computerprogramm
US9070023B2 (en) 2013-09-23 2015-06-30 Toyota Motor Engineering & Manufacturing North America, Inc. System and method of alerting a driver that visual perception of pedestrian may be difficult
CN103700100B (zh) * 2013-12-19 2016-08-31 华中科技大学 一种基于图论的高光谱图像显著度计算方法
WO2015128308A1 (en) * 2014-02-27 2015-09-03 Thomson Licensing Method and apparatus for generating a rotated image of modified size from a source image
EP2916325A1 (de) 2014-03-06 2015-09-09 Thomson Licensing Verfahren und Vorrichtung zur Verarbeitung eines Bildes
EP2947865B1 (de) 2014-05-19 2017-03-22 Thomson Licensing Verfahren zur Harmonisierung von Farben, zugehöriges Computerprogramm und Vorrichtung
EP2988485A1 (de) 2014-08-20 2016-02-24 Thomson Licensing Verfahren und Vorrichting zum Abbilden eines Eingangsbildes
EP2993668A1 (de) 2014-09-08 2016-03-09 Thomson Licensing Verfahren zum Editieren eines audiovisuellen Segments und entsprechende Vorrichtung und Computerprogrammprodukt
EP3026671A1 (de) 2014-11-26 2016-06-01 Thomson Licensing Verfahren und Vorrichtung zur Erkennung von emotionalem Schlüsselbild
KR20170098232A (ko) * 2014-12-22 2017-08-29 톰슨 라이센싱 오브젝트 검출에 기초하여 외삽된 이미지를 생성하는 방법 및 장치
CN106485247B (zh) * 2016-09-30 2019-04-26 广西师范大学 基于神经元感受野空间结构的显著性检测方法
US11381849B2 (en) * 2018-03-15 2022-07-05 Comcast Cable Communications, Llc Systems, methods, and apparatuses for processing video
US10931977B2 (en) 2018-03-15 2021-02-23 Comcast Cable Communications, Llc Systems, methods, and apparatuses for processing video
US10628929B2 (en) * 2018-05-28 2020-04-21 Augentix Inc. Method and computer system of image enhancement

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0733233A4 (de) * 1993-12-12 1997-05-14 Asp Solutions Usa Inc Vorrichtung und verfahren zur signalverarbeitung
US6282317B1 (en) * 1998-12-31 2001-08-28 Eastman Kodak Company Method for automatic determination of main subjects in photographic images
US6320976B1 (en) * 1999-04-01 2001-11-20 Siemens Corporate Research, Inc. Computer-assisted diagnosis method and system for automatically determining diagnostic saliency of digital images
US6553131B1 (en) * 1999-09-15 2003-04-22 Siemens Corporate Research, Inc. License plate recognition with an intelligent camera
US6421132B1 (en) * 1999-10-15 2002-07-16 Vladimir M. Brajovic Method and apparatus for rapid range imaging
JP3482923B2 (ja) * 1999-10-28 2004-01-06 セイコーエプソン株式会社 自動構図決定装置
US7123745B1 (en) * 1999-11-24 2006-10-17 Koninklijke Philips Electronics N.V. Method and apparatus for detecting moving objects in video conferencing and other applications
US6473522B1 (en) * 2000-03-14 2002-10-29 Intel Corporation Estimating text color and segmentation of images
JP2004526179A (ja) * 2000-12-22 2004-08-26 ヒューレット・パッカード・カンパニー 画像構図評価方法および装置
US7274741B2 (en) * 2002-11-01 2007-09-25 Microsoft Corporation Systems and methods for generating a comprehensive user attention model

Also Published As

Publication number Publication date
EP1695288B1 (de) 2007-05-02
BRPI0417594B1 (pt) 2016-11-22
WO2005059832A1 (en) 2005-06-30
US7853076B2 (en) 2010-12-14
EP1544792A1 (de) 2005-06-22
US20070116361A1 (en) 2007-05-24
CN1894721A (zh) 2007-01-10
CN100478991C (zh) 2009-04-15
BRPI0417594A (pt) 2007-03-20
JP2007515009A (ja) 2007-06-07
EP1695288A1 (de) 2006-08-30
JP4598778B2 (ja) 2010-12-15
DE602004006306D1 (de) 2007-06-14

Similar Documents

Publication Publication Date Title
DE602004006306T2 (de) Vorrichtung und Verfahren zur Erzeugung einer Kartografie herausstechender Merkmale in einem Bild
DE60132278T2 (de) Rauschverminderungsverfahren unter Verwendung von Farbinformationen, einer Vorrichtung und eines Programms zur Digital-Bildverarbeitung
DE60017600T2 (de) Digitales bilderzeugungsverfahren
DE602005004694T2 (de) Verfahren und Vorrichtung für lokal adaptive Bildverarbeitungsfilter
DE69914412T2 (de) Verfahren zum Bewahren von Bilddetails bei Abstimmung des Kontrastes eines digitalen Bildes
DE69726567T2 (de) Verfahren und vorrichtung zur bewertung der sichtbarkeit von unterschieden zwischen zwei bildsequenzen
DE60223982T2 (de) Kodierung von konzentrischen Daten
DE69333094T2 (de) Vorrichtung zum Extrahieren von Merkmalen eines Gesichtsbildes
DE60033484T2 (de) Umsetzung des Farbtonbereichs mit Erhaltung der lokalen Luminanzdifferenzen
DE60012649T2 (de) Beseitigung von chromarauschen aus digitalbildern durch verwendung veränderlich geformter pixelnachbarschaftsbereiche
EP1532583B1 (de) Verfahren zum extrahieren von texturmerkmalen aus einem mehrkanaligen bild
EP1609119A2 (de) Verfahren zur qualitativen beurteilung eines materials mit mindestens einem erkennungsmerkmal
DE102007019057A1 (de) Vorrichtung und Verfahren zum Bestimmen eines Kanten-Histogramms, Vorrichtung und Verfahren zum Ablegen eines Bildes in einer Bilddatenbank, Vorrichtung und Verfahren zum Auffinden von zwei ähnlichen Bildern und Computerprogramm
DE102015114651B4 (de) Bildskalierungstechniken
DE102005049017B4 (de) Verfahren zur Segmentierung in einem n-dimensionalen Merkmalsraum und Verfahren zur Klassifikation auf Grundlage von geometrischen Eigenschaften segmentierter Objekte in einem n-dimensionalen Datenraum
DE4027897C2 (de) Bildverarbeitungsvorrichtung
EP1206123B1 (de) Verfahren zur Falschfarbendarstellung von Bildinformation
DE10234085A1 (de) Verfahren zur Analyse von Farbabweichungen von Bildern mit einem Bildsensor
DE10017830A1 (de) Verfahren zum Abbilden von Farbwerten eines Farbbildes auf die Farbwerte eines Highlight-Color-Bildes
EP1359539A2 (de) Neurodynamisches Modell der Verarbeitung visueller Informationen
EP3089105A1 (de) Verfahren zum generieren eines kontrastbildes einer objektbeschaffenheit und diesbezügliche vorrichtungen
EP1741060A2 (de) Verfahren zum vergleich eines bildes mit mindestens einem referenzbild
DE10126375B4 (de) Verfahren und System zur Erkennung von Objekten
DE102022002448A1 (de) Verfahren und Vorrichtung zur Beschränkung von personenbezogenen Informationen in einem Kamerabild
DE10346348B4 (de) Verfahren und Vorrichtung zur Farbkorrektur von Bildern

Legal Events

Date Code Title Description
8364 No opposition during term of opposition