DE60005798T2 - Analyse der qualität von videosignalen - Google Patents

Analyse der qualität von videosignalen Download PDF

Info

Publication number
DE60005798T2
DE60005798T2 DE60005798T DE60005798T DE60005798T2 DE 60005798 T2 DE60005798 T2 DE 60005798T2 DE 60005798 T DE60005798 T DE 60005798T DE 60005798 T DE60005798 T DE 60005798T DE 60005798 T2 DE60005798 T2 DE 60005798T2
Authority
DE
Germany
Prior art keywords
image
edges
signal
signals
perception
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60005798T
Other languages
English (en)
Other versions
DE60005798D1 (de
Inventor
Michael Peter Woodbridge Hollier
Alexandre Ipswich Bourret
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GBGB9903107.2A external-priority patent/GB9903107D0/en
Priority claimed from GBGB9903293.0A external-priority patent/GB9903293D0/en
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Application granted granted Critical
Publication of DE60005798D1 publication Critical patent/DE60005798D1/de
Publication of DE60005798T2 publication Critical patent/DE60005798T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/004Diagnosis, testing or measuring for television systems or their details for digital television systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Image Analysis (AREA)

Description

  • Diese Erfindung bezieht sich auf die Analyse der Qualität von Videosignalen. Sie hat zahlreiche Anwendungen bei der Überwachung der Leistung von Videoübertragungsanlagen entweder während der Entwicklung, während des Baus oder bei der Wartung.
  • Da die Komplexität der Kommunikationssysteme zugenommen hat, ist es zunehmend schwierig geworden, ihre Leistung objektiv zu messen. Moderne Kommunikationsverbindungen verwenden häufig Datenkomprimierungstechniken, um die für die Übertragung erforderliche Bandbreite zu verringern. Wenn die Signale für eine effizientere Übertragung komprimiert werden, sind herkömmliche Bemessungsmaßstäbe, z. B. der Rauschabstand oder die Bitfehlerrate, unzuverlässige Indikatoren der Leistung, die der Mensch, der schließlich das Signal empfängt, erfährt. Zwei Systeme mit ähnlichen Bitfehlerraten können z. B. abhängig davon, welche digitalen Bits verloren werden, merklich verschiedene Wirkungen auf die Qualität der Daten (Ton oder Bild) besitzen, die dem Endbenutzer angeboten wird. Andere nichtlineare Prozesse, z. B. die Echokompensation, werden außerdem zunehmend üblich. Die Komplexität der modernen Kommunikationssysteme macht sie für die Analyse unter Verwendung herkömmlicher Signalverarbeitungstechniken ungeeignet. Die Gesamtbeurteilung der Netzqualität muß darauf basieren, was der Kunde gehört oder gesehen hat oder haben würde.
  • Die Hauptmaßstäbe der Meinung des Betrachters sind subjektive Tests, die nach den Standards der internationalen Telekommunikationsunion ausgeführt werden, P.800, "Methods for subjective determination of transmission quality", 1996, und P.911, "Subjective audiovisual quality assessment methods for multimedia applications", 1998. Diese messen die wahrgenommene Qualität in gesteuerten subjekti ven Experimenten, in denen einige menschliche Versuchspersonen jedes geprüfte Signal hören. Dies ist für die kontinuierliche Überwachung eines Netzes unpraktisch und gefährdet außerdem das Privatleben der Teilnehmer an den überwachten Gesprächen. Um diese Probleme zu überwinden, sind für die Messung der Qualität eines Telephonnetzes Hörwahrnehmungsmodelle entwickelt worden, wie z. B. diejenigen der internationalen Patentbeschreibungen WO 94/00922, WO95/01011, WO95/15035, WO97/05730, WO97/32428, WO98/53589 und WO98/53590 des Anmelders der vorliegenden Erfindung. Diese sind objektive Leistungsmaßstäbe, sie sind aber so konstruiert, daß sie sich direkt auf die wahrgenommene Signalqualität beziehen, indem Punktestände für die Qualität erzeugt werden, die zu denjenigen ähnlich sind, die durch menschliche Versuchspersonen berichtet worden wären.
  • Die Systeme des Standes der Technik, auf die oben Bezug genommen wird, messen die Qualität der Tonsignale (Audiosignale). Die vorliegende Erfindung befaßt sich mit der Anwendung ähnlicher Prinzipien auf Videosignale. Das Grundprinzip des Emulierens des menschlichen Wahrnehmungssystems (in diesem Fall statt des Ohr/Gehirn-Systems des Auge/Gehirn-Systems) wird immer noch verwendet, aber die Videosignale und das menschliche visuelle Wahrnehmungssystem sind beide sehr viel komplexer, wobei sich neue Probleme ergeben.
  • Wie beim Höhen besitzt das menschliche visuelle Wahrnehmungssystem physiologische Eigenschaften, die es sehr schwer oder unmöglich machen, einige in visuellen Anreizen vorhandene Merkmale wahrzunehmen. Die Komprimierungsprozesse, wie z. B. diejenigen durch JPEG (gemeinsame ISO/IEC-Arbeitsgruppe zur Ausarbeitung eines Datenkompressionsstandards für Standbilder) und MPEG (gemeinsame ISO/IEC-Arbeitsgruppe zur Ausarbeitung eines Datenkompressionsstandards für Bewegtbilder) stützen sich auf diese Eigenschaften, um die in den Videosignalen (beweglich oder bewegungslos) zu übertragende Menge der Informationen zu verringern. Zwei Komprimierungsschemata können zu ähnlichen Verlusten von Informationen führen, die wahrgenommene Qualität einer komprimierten Version eines gegebenen Bildes kann aber entsprechend des verwendeten Schemas sehr verschieden sein. Die Qualität der resultierenden Bilder kann deshalb nicht durch einfachen Vergleich des ursprünglichen Signals mit dem Endsignal bewertet werden. Die Eigenschaften des menschlichen Sehvermögens sind in die Beurteilung der wahrgenommenen Qualität einzubeziehen.
  • Es ist problematisch, die Informationen aus einem Bild durch die mathematische Verarbeitung der Werte der Bildpunkte zu prüfen und zu lokalisieren. Das Niveau der Intensität der Bildpunkte wird nur bedeutsam, wenn es durch die visuelle Kenntnis der Gegenstände und Formen der menschlichen Versuchsperson verarbeitet wird. In dieser Erfindung werden mathematische Lösungen verwendet, um die Informationen zu extrahieren, die den durch das Auge-Gehirn-System verwendeten so genau wie möglich ähneln.
  • Es ist eine Anzahl verschiedener Zugänge der visuellen Modellierung berichtet worden. Diese sind auf spezielle Anwendungen oder spezielle Typen der Videoverzerrung spezialisiert. Das MPEG-Komprimierungssystem versucht z. B., die Unterschiede zwischen aufeinanderfolgenden Teilbildern zu codieren. In Perioden der Überlastung, in denen es viele Unterschiede zwischen aufeinanderfolgenden Teilbildern gibt, verringert dieser Prozeß die Bildpunktauflösung und bewirkt, daß Blöcke mit einheitlicher Farbe und Luminanz produziert werden. Karunasekera, A. S., und Kingsbury, N. G., schlagen in "A distortion measure for blocking artefacts in images based on human visual sensitivity", IEEE Transactions on Image Processing, Bd. 4, Nr. 6, S. 713–724, Juni 1995, ein Modell vor, das besonders konstruiert ist, um die "Blockartigkeit" dieser Art zu erfassen. Eine solche Blockartigkeit läßt jedoch nicht immer einen Fehler erkennen, da die Wirkung absichtlich durch den Produzenten des Bildes entweder für die visuelle Wirkung oder um eine Einzelheit auszulöschen, wie z. B. die Gesichtsmerkmale einer Person, deren Identität verborgen werden soll, eingeführt worden sein kann.
  • Falls die Anforderungen eines breiten Bereichs von Anwendungen, vom hochauflösenden Fernsehen über Videokonferenzen und virtuelle Realität, zu erfüllen sind, ist eine komplexere Architektur zu verwenden.
  • Einige bestehende visuelle Modelle besitzen eine elementare Emulation der Wahrnehmungscharakteristiken, die hierin als "Wahrnehmungsstufe" bezeichnet wird. Beispiele sind in dem bereits erörterten Literaturhinweis auf Karunasekera und in Lukas, X. J., und Budrikis, Z. L., "Picture Quality Prediction Based on a Visual Model", IEEE Transactions on Communications, Bd. com-30, Nr. 7, S. 1679–1692, Juli 1982, zu finden, in der eine einfachere Wahrnehmungsstufe um das Grundprinzip konstruiert ist, daß große Fehler subjektiv dominieren werden. Andere Zugänge sind außerdem betrachtet worden, wie z. B. ein durch Tan, K. T., Ghanbari, M. und Pearson, D. E., "A video distortion meter", Informationstechnische Gesellschaft, Picture Coding Symposium, Berlin, September 1997, beschriebenes Modell der zeitlichen Ansammlung. Keiner dieser Zugänge wendet sich jedoch der relativen Wichtigkeit aller in dem Bild vorhandenen Fehler zu.
  • Für die Zwecke der vorliegenden Beschreibung ist die "Farbe" eines Bildpunktes als das Verhältnis der Primärfarben (Rot, Grün und Blau) im Bildpunkt definiert. Die "Luminanz" ist die Gesamtintensität der drei Primärfarben. Insbesondere werden die verschiedenen Schattierungen auf einer Grauskala durch die Variationen der Luminanz bewirkt.
  • Gemäß einem ersten Aspekt schafft die Erfindung ein Verfahren zum Messen der Differenzen zwischen einem ersten Videosignal und einem zweiten Videosignal, um ein Ausgangssignal zu erzeugen, das die wahrnehmbare Differenz zwischen den ersten und zweiten Signalen angibt, dadurch gekennzeichnet, daß das Ausgangssignal durch die folgenden Schritte erzeugt wird:
    Analysieren des Informationsgehaltes jedes Videosignals, um die für die Wahrnehmung relevanten Ränder der darin dargestellten Videobilder zu identifizieren; und Vergleichen der auf diese Weise in dem ersten Signal definierten Ränder mit jenen im zweiten Signal; wobei der Vergleich die Bestimmung des Ausmaßes enthält, in dem die Eigenschaften der im ersten Bild definierten Ränder im zweiten Bild bewahrt sind.
  • Die Erfindung schafft außerdem eine Vorrichtung zum Messen der Differenzen zwischen einem ersten Videosignal und einem zweiten Videosignal, die Mittel zum Erzeugen eines Ausgangssignals umfaßt, das die wahrnehmbare Differenz zwischen den ersten und zweiten Signalen angibt, gekennzeichnet durch:
    Analysemittel für den Informationsgehalt jedes Videosignals, um die für die Wahrnehmung relevanten Ränder der darin angezeigten Videobilder zu identifizieren;
    und Vergleichsmittel, die die auf diese Weise im ersten Signal definierten Ränder mit jenen im zweiten Signal vergleichen; wobei der Vergleich die Bestimmung des Ausmaßes umfaßt, in dem die Eigenschaften der im ersten Bild definierten Ränder im zweiten Bild bewahrt sind.
  • Die Ränder zwischen den Hauptelementen eines Bildes können durch irgendeine meßbare Eigenschaft identifiziert werden, die vom menschlichen Wahrnehmungssystem verwendet wird, um zwischen derartigen Elementen zu unterscheiden. Diese können die Farbe, die Luminanz, sogenannte "harte" Kanten (eine schmale Linie gegensätzlicher Farbe oder Luminanz, die einen Umriß oder einen anderen Rand definiert, wie z. B. eine Linie, die in der Bildanalyse als ein Gebiet mit hoher Ortsfrequenz identifizierbar ist) und andere, die später erörtert werden, enthalten, sie sind aber nicht darauf eingeschränkt.
  • Die Eigenschaften der Ränder, auf denen der Vergleich basiert, enthalten die Charakteristiken, durch die derartige Ränder definiert sind. Falls insbesondere ein Rand durch eine gegebene Charakteristik definiert ist, und diese Charakteristik wird im verschlechterten Bild verloren, ist der Grad der wahrgenommenen Verschlechterung des Bildelements davon abhängig, wie signifikant der ursprüngliche Rand für die Wahrnehmung war. Falls das durch den Rand definierte Element trotzdem im verschlechterten Bild mittels eines durch eine andere Charakteristik definierten Randes identifiziert werden kann, berücksichtigt der Vergleich außerdem, wie signifikant ein derartiger Ersatzrand für die Wahrnehmung ist und wie genau seine Position mit dem ursprünglichen verlorenen Rand übereinstimmt.
  • Die Grundlage für die Erfindung ist, daß die in dem Bild vorhandenen Elemente nicht von gleicher Wichtigkeit sind. Ein Fehler wird wahrnehmbarer sein, falls er die Form von einem der wesentlichen Merkmale des Bildes unterbricht. Die an einer Kante in der Mitte eines texturierten Gebietes vorhandene Verzerrung wird z. B. weniger wahrnehmbar als der gleiche Fehler an einer unabhängigen Kante sein. Dies ist so, weil eine Kante, die einen Teil einer Textur bildet, weniger Informationen als eine unabhängige Kante überträgt, wie durch Ran, X., und Favardin, N., "A Perceptually Motivated Three-Component Image Model – Part II: Application to Image Compression", IEEE Transactions on Image Processing, Bd. 4, Nr. 4, S. 713–724, April 1995, beschrieben ist. Falls jedoch ein texturierter Bereich einen Rand definiert, kann ein Fehler, der die Eigenschaften der Textur im ganzen texturierten Bereich ändert, so wichtig wie ein Fehler an einer unabhängigen Kante sein, falls der Fehler bewirkt, daß die texturierten Charakteristiken des Bereichs verloren werden. Die vorliegende Erfindung untersucht die kognitive Relevanz jedes Randes und das Ausmaß, in dem diese Relevanz bewahrt wird.
  • Der Prozeß identifiziert die Elemente mit der größten Relevanz für die Wahrnehmung, d. h. die Ränder zwischen den Hauptelementen des Bildes. Kleine Variationen in einer Eigenschaft innerhalb der durch die Ränder definierten Gebiete sind von weniger Relevanz als Fehler, die eine Änderung der Form des Randes verursachen.
  • Außerdem erlaubt der Prozeß den Vergleich dieser Informationen unabhängig davon, wie die Hauptelemente des Bildes identifiziert werden. Das menschliche Wahrnehmungssystem kann verschiedene Gebiete eines Bildes in vielen verschiedenen Arten unterscheiden.
  • Das Fehlen einer "harten Kante" wird z. B. eine größere Verschlechterung für die Wahrnehmung erzeugen, wenn die durch diese Kante getrennten Gebiete eine ähnliche Farbe besitzen, als erzeugt wird, wenn sie gegensätzliche Farben besitzen, weil der Farbekontrast trotzdem erlaubt, daß der Rand wahrgenommen wird. Je abrupter die Änderung, desto größer ist die Signifikanz des Randes für die Wahrnehmung.
  • Durch das Analysieren der in dem Bild definierten Ränder wird eine Anzahl weiterer Entwicklungen möglich.
  • Die Ränder können als ein Bezugssystem verwendet werden, indem die Hauptelemente in jedem Bild und die Differenzen in ihren relativen Positionen identifiziert werden. Durch die Verwendung der Differenzen in der relativen Position können im Gegensatz zur absoluten Position für die Wahrnehmung unwichtige Differenzen in den Bildern nicht beachtet werden, da sie die Qualität des resultierenden Bildes, wie sie durch den Betrachter wahrgenommen wird, nicht beeinflussen. Falls insbesondere ein Bild bezüglich eines anderen versetzt ist, gibt es viele Differenzen zwischen den einzelnen Bildpunkten eines Bildes und den entsprechenden Bildpunkten des anderen, diese Differenzen sind jedoch für die Wahrnehmung nicht relevant, vorausgesetzt, daß sich die Ränder in den gleichen relativen Positionen befinden. Durch Bezugnahme auf die Hauptränder in dem Bild anstatt auf ein absolutes Bezugssystem (der Bildpunktkoordinaten) kann jeder derartige Versatz kompensiert werden.
  • Die Analyse kann außerdem die Identifizierung der für die Wahrnehmung signifikanten Bildmerkmale enthalten, die abermals durch die Formen der Ränder identifiziert werden, anstatt dadurch, wie diese Ränder definiert sind. Das Ausgangssignal, das die Differenz der Wahrnehmung zwischen den ersten und zweiten Signalen angibt, kann entsprechend der Signifikanz für die Wahrnehmung derartiger Bildmerkmale gewichtet werden. Signifikante Merkmale würden die verschiedenen Charakteristiken enthalten, die ein menschliches Gesicht bilden, insbesondere diejenigen, die bei der Bereitstellung visueller Sprachhinweise signifikant sind. Derartige Merkmale sind für das menschliche kognitive System von besonderer Signifikanz, wobei deshalb Fehler, wie z. B. die Verzerrung, das Fehlen, das Vorhandensein falscher Elemente oder Änderungen in der relativen Position in diesen Merkmalen von größerer Relevanz für die Wahrnehmung sind als in anderen.
  • In einem Bild, das Text enthält, sind diejenigen Merkmale für die Wahrnehmung signifikant, die ein Zeichen aus einer Schriftart von einem anderen unterscheiden (z. B. die Serife am Buchstaben "G", die ihn von einem "C" unterscheidet).
  • Nun wird eine Ausführungsform der Erfindung lediglich beispielhaft unter Bezugnahme auf die Figuren beschrieben, worin:
  • 1 eine erste Stufe für die sensorische Emulation des Systems schematisch veranschaulicht,
  • 2 die in der sensorischen Emulationsstufe verwendeten Filterparameter veranschaulicht,
  • 3 eine zweite Wahrnehmungsstufe des Systems schematisch veranschaulicht,
  • 4, 5, 6 und 7 vier Arten veranschaulichen, in denen die Ränder wahrgenommen werden können.
  • In dieser Ausführungsform umfaßt der Meßprozeß zwei Stufen, die in den 1 bzw. 3 veranschaulicht sind. Der erste Stufe – die sensorische Emulationsstufe – berücksichtigt die physikalische Empfindlichkeit des menschlichen visuellen Systems auf gegebene Anreize. Die zweite Stufe – die Wahrnehmungsstufe – schätzt die durch die verbleibenden sichtbaren Fehler verursachte subjektive Störung. Die verschiedenen in den 1 und 3 gezeigten Funktionselemente können als Software verkörpert sein, die auf einem Universalrechner läuft.
  • Die sensorische Stufe (1) reproduziert die gesamte Psychophysik der sensorischen Mechanismen:
    • (i) die raum-zeitliche Empfindlichkeit, die als das menschliche visuelle Filter bekannt ist, und
    • (ii) die auf die Ortsfrequenz, die Orientierung und die Zeitfrequenz zurückzuführende Maskierung.
  • 1 gibt eine Darstellung der sensorischen Stufe, die die physikalischen Eigenschaften des menschlichen visuellen Systems emuliert. Dieselben Prozesse werden sowohl auf das ursprüngliche Signal als auch auf das verschlechterte Signal angewendet: diese können gleichzeitig in parallelen Verarbeitungseinheiten ausgeführt werden oder sie können der Reihe nach für jedes Signal unter Verwendung derselben Verarbeitungseinheiten ausgeführt werden.
  • Die sensorische Stufe identifiziert, ob die Einzelheiten physikalisch wahrnehmbar sind, wobei sie den Grad identifiziert, in dem das visuelle System für sie empfindlich ist. Um dies auszuführen, emuliert sie die zwei Hauptcharakteristiken des visuellen Systems, die einen Einfluß auf die physikalische Wahrnehmbarkeit eines visuellen Anreizes besitzen:
    • – die Empfindlichkeit des Auge/Gehirn-Systems,
    • – die Maskierungswirkungen – d. h. die Variationen der Wichtigkeit für die Wahrnehmung eines Anreizes entsprechend dem Vorhandensein anderer Anreize.
  • Jede dieser Charakteristiken besitzt sowohl eine zeitliche als auch eine räumliche Dimension, wie nun erörtert wird.
  • Jedes Signal wird zuerst durch ein Filter 12 in der Zeit- und Ortsfrequenz gefiltert, um eine gefilterte Folge zu erzeugen. Die in dem Filter 12 verwendeten Werte werden gewählt, um das menschliche visuelle Verhalten zu emulieren, wie es bereits in bezug auf 2 erörtert ist. Dieses Filter erlaubt, daß Einzelheiten, die für das menschliche visuelle System (Auge/Gehirn-System) nicht sichtbar sind, entfernt werden, und deshalb nicht als Fehler gezählt werden, während die Wahrnehmbarkeit der Einzelheiten mit anderen Orts- und Zeitfrequenzen durch die größerer Empfindlichkeit des menschlichen sensorischen Systems für diese Frequenzen vergrößert ist. Dies besitzt die Wirkung der Gewichtung der Informationen, die in den Signalen enthalten sind, entsprechend der visuellen Schärfe.
  • Das menschliche visuelle System ist für einige Orts- und Zeitfrequenzen empfindlicher als für andere. Die alltägliche Erfahrung lehrt, daß Einzelheiten, die kleiner als eine bestimmte Größe sind, nicht zu sehen sind. Auf die räumliche Auflösung wird in Form der Ortsfrequenz Bezug genommen, die durch das Zählen der Anzahl der Zyklen eines sinusförmigen Musters definiert ist, das pro Grad vorhanden ist, das dem Auge gegenüber liegt. Eng beabstandete Linien (feine Einzelheiten) entsprechen hohen Ortsfrequenzen, während große Muster niedrigen Ortsfrequenzen entsprechen. Sobald dieses Konzept eingeführt ist, kann das menschliche Sehvermögen mit einem Filter mit der Spitzenempfindlichkeit (im Mittenbereich) für Ortsfrequenzen von etwa 8 Zyklen/Grad und der Unempfindlichkeit für hohe Frequenzen (größer als 60 Zyklen/Grad) verglichen werden. Eine ähnliche Filtercharakteristik kann im Zeitbereich angewendet werden, wo das Auge scheitert, ein Flackern wahrzunehmen, das schneller als etwa 50 Hz ist. Die Gesamtfiltercharakteristik sowohl für die Orts- als auch Zeitfrequenz kann durch eine Oberfläche dargestellt werden, wie in 2 gezeigt ist, in der die Achsen die Orts- und Zeitfrequenz sind (gemessen in Zyklen/Grad bzw. Hertz). Die vertikale Achse ist die Empfindlichkeit, wobei die Einheiten so normiert sind, daß die maximale Empfindlichkeit gleich 1 ist.
  • Der zweite Aspekt des Sehvermögens, der durch die sensorische Stufe zu modellieren ist, ist als "Maskierung" bekannt, die verringerte Wahrnehmbarkeit von Fehlern in Bereichen eines Bildes, wo eine größere räumliche Aktivität vorhanden ist, wobei das zeitliche Gegenstück zu dieser Wirkung die Sichtbarkeit der Einzelheiten verringert, wenn die Geschwindigkeit der Bewegung zunimmt. Die Maskierung kann verstanden werden, indem die Organisation der primären Rinde betrachtet wird, der ersten Stufe des Gehirns, die für die visuelle Verarbeitung verantwortlich ist. Jeder Teil der Rinde ist für einen bestimmten Bereich der Netzhaut empfindlich. Der ankommende Bildstrom wird in Gruppierungen der Ortsfrequenz, der Zeitfrequenz und der Orientierung (die als Kanäle bekannt sind) unterteilt. Die "nächste Stufe" des Gehirns verarbeitet den Bildstrom als eine Menge von Kanälen, wobei jeder eine Kombination von Orts/Zeit-Frequenz und Orientierung in dem entsprechenden Bereich der Netzhaut berücksichtigt. Sobald ein gegebener Kanal angeregt ist, neigt er dazu, seine Nachbarn zu hemmen, wodurch es schwieriger gemacht wird, anderer Einzelheiten zu erfassen, die sich in der Orts- oder Zeitfrequenz oder der Orientierung in nächster Nähe befinden.
  • Die Maskierung ist ein Maß der Menge der Hemmung, die ein Kanal für seine Nachbarn verursacht. Diese Informationen werden erhalten, indem die durch repräsentative Abtastwerte der Kanäle erzeugte Maskierung hinsichtlich der Orts/Zeit-Frequenz- und Orientierungscharakteristiken untersucht wird. Damit die sensorische Stufe die Maskierung der Aktivität simuliert, ist es notwendig, die Menge der in jeder Kombination aus Ortsfrequenz und Orientierung innerhalb eines Bildes vorhandenen Aktivität zu kennen. Diese Berechnung kann unter Verwendung einer Garbor-Funktion, einer flexiblen Form des Bandpaßfilters, ausgeführt werden, um die entsprechenden Ausgangssignale 14 zu erzeugen, in denen der Inhalt jedes Signals durch die Ortsfrequenz und die Orientierung aufgespalten ist. Für jedes Ausgangssignal werden typischerweise sechzehn Ausgangskanäle verwendet, die vier räumliche Orientierungen (vertikal, horizontal und die zwei Diagonalen) und vier Ortsfrequenzen umfassen. Die resultierenden Kanäle werden durch einen Maskierungsrechner 15 analysiert. Dieser Rechner modifiziert jeden Kanal in Übereinstimmung mit der Maskierungswirkung der anderen Kanäle; die Wichtigkeit für die Wahrnehmung eines Phänomens mit niedriger Ortsfrequenz wird z. B. verringert, falls außerdem ein räumliches Phänomen mit höherer Frequenz vorhanden ist. Die Maskierung tritt außerdem im zeitlichen Sinn auf – bestimmte Merkmale sind für den menschlichen Beobachter weniger bemerkbar, wenn andere Wirkungen in ei nem kurzen zeitlichen Abstand von ihnen auftreten.
  • Die Eichung dieses Modells der Maskierung erfordert Daten, die beschreiben, wie die Orts/Zeit-Frequenz einer gegebenen Orientierung die Sichtbarkeit eines weiteren Anreizes verringert. Diese Informationen können nicht als eine vollständige Beschreibung erhalten werden, da die Anzahl der Kombinationen sehr groß ist. Deshalb wird der getrennte Einfluß jedes Parameters gemessen. Zuerst wird die Maskierungswirkung eines Hintergrundes auf einen Anreiz entsprechend der relativen Orientierung zwischen den zwei gemessen. Dann wird die Wirkung der Orts- und Zeit-Frequenzdifferenz zwischen der Maske und dem Anreiz gemessen. Schließlich werden die zwei Charakteristiken kombiniert, indem zwischen gemeinsamen Meßpunkten interpoliert wird.
  • In einem einfachen Vergleich zwischen ursprünglichen und verschlechterten Teilbildern führen bestimmte Fehlertypen, wie z. B. eine horizontale/vertikale Verschiebung, zu großen Beträgen des Fehlers über das ganze Teilbild, sie würden aber für einen Anwender nicht bemerkbar sein. Dieses Problem kann bearbeitet werden, indem die Neusynchronisation der Teilbilder verwendet wird, wie sie in der ITU-T "Draft new recommendation on multimedia communication delay, synchronisation and frame rate measurement", COM 12-29-E, Dezember 1997, spezifiziert ist. Dieses einfache Verfahren berücksichtigt jedoch nicht vollständig die Subjektivität des Fehlers, weil es keine anderen gemeinsamen Mängel berücksichtigt, wie z. B. die Verschlechterung der Elemente in der komprimierten Folge.
  • Nach der sensorischen Stufe wird das Bild zerlegt, um die Berechnung der Subjektivität des Fehlers durch die Wahrnehmungsstufe (3) entsprechend der Wichtigkeit der Fehler in bezug auf die Strukturen innerhalb des Bildes zu erlauben. Falls der sichtbare Fehler mit einem kritischen Merkmal des Bildes zusammenfällt, wie z. B. einer Kante, dann ist er subjektiver störend. Die Grundbildelemente, die einem menschlichen Beobachter erlauben, den Bildinhalt wahrzunehmen, können als eine Menge abstrahierter Ränder betrachtet werden. Diese Ränder können sowohl durch Farb- und Luminanzdifferenzen, Texturänderungen und Bewegung als auch durch Kanten gebildet sein, wobei sie im zerlegten Bild identifiziert werden. Sogar irgendwelche "Gestalt"-Wirkungen, die verursachen, daß ein Rand wahrzunehmen ist, wo tatsächlich keiner vorhanden ist, können algorithmisch gemessen werden, um eine geeignete Gewichtung zu erlauben.
  • Diese Ränder sind erforderlich, um den Bildinhalt wahrzunehmen, deshalb besitzen sichtbare Fehler, die diese Ränder verschlechtern, z. B. durch Verschmieren oder das Ändern ihrer Form, eine größere subjektive Signifikanz als diejenigen, die das nicht tun. Das Ausgangssignal aus der Wahrnehmungsstufe ist eine Menge kontextempfindlicher Fehlerdeskriptoren, die verschieden gewichtet werden können, um eine Vielzahl von Meinungskriterien abzubilden.
  • In einigen Fällen kann ein Rand völlig fehlen oder es kann ein falscher Rand vorhanden sein, z. B. wenn ein "Geister"-Bild durch Mehrwegereflexion gebildet wird. In diesem Fall ist das Vorhandensein oder die Abwesenheit des Randes selbst der Fehler.
  • 3 ist eine Darstellung der Wahrnehmungsstufe, die die subjektive Signifikanz irgendwelcher Fehler mißt, die in der Bildfolge vorhanden sind. Das ursprüngliche Signal 16 und das verschlechterte Signal 16d, wobei jedes gefiltert und maskiert ist, wie unter Bezugnahme auf 1 beschrieben ist, werden zuerst jedes in einem Komponentenextraktionsprozeß 31 analysiert (entweder parallel oder der Reihe nach), um die Charakteristiken der Kanten oder Ränder der Hauptkomponenten jedes Bildes zu identifizieren. Diese Charakteristiken werden als die Eingangssignale 32, 32d an einen Vergleichsprozeß 33 geliefert, der ein Ausgangssignal 38 erzeugt, das die gesamte Verschlechterung der Wahrnehmung des verschlechterten Bildes in bezug auf das ursprüngliche Bild angibt.
  • Die durch den Extraktionsprozeß 31 identifizierten Komponenten können durch:
    • – die Luminanz (veranschaulicht in 4) und die Farbe,
    • – starke Kanten (veranschaulicht in 5),
    • – die Schließungswirkungen (veranschaulicht in 6),
    • – die Textur (veranschaulicht in 7),
    • – die Bewegung,
    • – binokulare (stereoskopische) Unterschiede

    unterschieden werden.
  • Die letzten zwei Wirkungen stützen sich auf Phänomene, die sich auf die Bewegung und die Stereoskopie beziehen, die auf einer gedruckten Seite nicht leicht veranschaulicht werden. Aus ähnlichen Gründen sind in 4 nur die Luminanzunterschiede und nicht die Farbunterschiede veranschaulicht.
  • Die 4 bis 7 stellen alle einen Kreis und ein Quadrat dar, wobei das Quadrat einen Teil des Kreises verdeckt. In jedem Fall wird der Rand zwischen den zwei Elementen leicht wahrgenommen, obwohl die zwei Elemente in verschiedenen Arten dargestellt sind. In 4 besitzen der Kreis und das Quadrat verschiedene Luminanz – der Kreis ist schwarz, während das Quadrat weiß ist. Ein Rand wird an den Orten wahrgenommen, an denen sich diese Eigenschaft ändert. Es wird angemerkt, daß es in den 5, 6 und 7 außerdem Orte gibt, an denen sich die Luminanz ändert (z. B. die Ränder zwischen jedem einzelnen Streifen in 7), diese werden jedoch nicht als die Hauptränder des Bildes wahrgenommen.
  • 5 veranschaulicht einen Rand, der durch eine Kante definiert ist. Eine "starke Kante" oder ein Umriß ist ein schmales lineares Merkmal mit einer Farbe oder Luminanz, das mit den Gebieten auf beiden Seiten von ihm im Kontrast steht. Der Betrachter nimmt dieses lineare Merkmal nicht primär an als eine selbständige Komponente wahr, sondern als einen Rand, der die Komponenten auf beiden Seiten von ihm trennt. Bei der Analyse des Bildes kann eine derartige Kante als ein lokalisiertes Hochfrequenzelement im gefilterten Signal identifiziert werden. Es sind geeignete Prozesse, die diese Kanten identifizieren, entwickelt worden, z. B. der durch S. M. Smith and J. M. Brady in "SUSAN – A new approach to low-level image processing" (Technical Report TR95SMS1 c, Oxford Centre for Functional magnetic Resonance Imaging of the Brain, 1995), beschriebenen Kantenextraktionsprozeß.
  • Unter vielen Umständen kann ein Betrachter eine Kante wahrnehmen, wo keine kontinuierliche Linie vorhanden ist. Ein Beispiel ist in 6 gezeigt, in der die Linien unstetig sind. Das menschliche Wahrnehmungssystem führt einen Prozeß aus, der als "Schließung" bekannt ist, der dazu neigt, derartige teilweise Kanten zu vervollständigen. (Ein weiteres Beispiel ist durch die Tatsache veranschaulicht, daß keine der 4 bis 7 tatsächlich einen vollständigen Kreis darstellt. Der Betrachter schließt das Vorhandensein eines Kreises aus den vier linsenförmigen Bereichen, die in jeder Figur tatsächlich dargestellt sind.) Es sind verschiedene Prozesse entwickelt worden, um den durch das menschliche Wahrnehmungssystem ausgeführten Schließungsprozeß zu emulieren. Ein derartiger Prozeß ist durch Kass, M., Witkin, A., und Terzopoulos, D., "Snakes: Active Boundary Models", veröffentlicht in den Proceedings of First International Conference on Computer Vision, 1987, S. 259–269, beschrieben.
  • Die "Textur" kann in vielen Gebieten identifiziert werden, in denen die bereits erwähnten Eigenschaften nicht konstant sind. In einem durch parallele Linien mit einer Farbe oder Luminanz, die mit dem Hintergrund im Kontrast stehen, ausgefüllten Gebiet ist z. B. der einzelne Ort jeder Linie nicht von großer Signifikanz für die Wahrnehmung. Falls jedoch die Linien in verschiedenen Teilen des Gebietes verschiedene Orientierungen besitzen, wird ein Beobachter einen Rand wahrnehmen, wo sich die Orientierung ändert. Diese Eigenschaft wird z. B. in der Orientierung der Pinselstriche in Gemälden gefunden. Ein Beispiel ist in 7 gezeigt, in der der Kreis und das Quadrat durch zwei orthogonale Folgen von parallelen Strichen definiert sind. Es wird angemerkt, daß, falls das Bild vergrößert wird, so daß die Winkeltrennung der Streifen näher am in 2 gezeigten Spitzenwert liegt und die Abmessungen des Quadrats und des Kreises entfernter von diesem Spitzenwert sind, die einzelnen Streifen anstatt des Quadrates und des Kreises die dominierenden Merkmale werden würden. Es wird außerdem offensichtlich sein, daß, falls die Orientierungen der Streifen verschieden wären, der Rand zwischen dem Quadrat und dem Kreis weniger deutlich werden kann. Um den Texturinhalt eines Gebietes des Bildes zu identifizieren, wird der Energieinhalt in jedem aus den Gabor-Filtern 13 ausgegebenen Kanal verwendet. Jeder Kanal stellt eine gegebene Ortsfrequenz und eine gegebene Orientierung dar. Durch das Identifizieren der Gebiete, in denen ein gegebener Kanal oder gegebene Kanäle einen hohen Energieinhalt besitzen, können Gebiete mit ähnlicher Textur identifiziert werden.
  • Durch das menschliche Wahrnehmungssystem können die Formen in anderen Arten erkannt werden, die in der beigefügten Zeichnung nicht veranschaulicht sind. Insbesondere können Unterschiede zwischen zusammenhängenden Bildern, wie z. B. die in der Stereoskopie verwendeten Paare der Teilbilder des Bildes oder die aufeinanderfolgenden Teilbilder des Bildes in einem Film, die Bildelemente identifizieren, die bei der Untersuchung eines einzelnen Teilbildes nicht offensichtlich sind. Falls z. B. zwei ansonsten ähnliche Bilder mit keiner erkennbaren Struktur in irgendeinem einzelnen Bild ein Gebiet enthalten, das in einem Bild in bezug zu seiner Position in dem anderen verschoben ist, können die Ränder dieses Gebietes erkannt werden, falls die zwei Bilder gleichzeitig betrachtet werden, eines durch jedes Auge. Falls sich ähnlich ein Gebiet aus offensichtlich zufälligen Bildpunkten kohärent über ein weiteres derartiges Gebiet in einem Film bewegt, wird dieses Gebiet durch einen Beobachter erkennbar sein, selbst wenn in einem einzelnen aus der Folge genommenen Teilbild keine Form erkennbar wäre. Dieses Phänomen ist in der natürlichen Welt beobachtbar – es gibt viele Tiere, wie z. B. der Plattfisch, die eine zu ihrer Umgebung ähnliche Färbung besitzen und die nur erkennbar sind, wenn sie sich bewegen.
  • Der Komponentenextraktionsprozeß identifiziert die Ränder der Hauptelemente sowohl des ursprünglichen als auch des verschlech terten Signals. Die Wichtigkeit für die Wahrnehmung von jedem Rand hängt von einer Anzahl von Faktoren ab, wie z. B. seiner Art (Kante, Farbe, Änderung, Textur usw.), dem Grad des enthaltenen Kontrasts und seinem Kontext. In dieser letzteren Kategorie wird eine Hochfrequenzkomponente im gefilterten und maskierten Signal erkennen lassen, daß es eine große Anzahl einzelner Kanten gibt, die in diesem Gebiet des Bildes vorhanden sind. Dies wird die Signifikanz jeder einzelnen Kante verringern – vergleiche 5, die wenige derartige Kanten besitzt, mit 7, die viel mehr derartige Kanten besitzt.
  • Jeder im Schritt 31 des Aufspaltens der Komponenten ausgeführte einzelne Extraktionsprozeß leistet dies typischerweise allein relativ schlecht, da sie alle dazu neigen, falsche Ränder zu erzeugen, und scheitern, andere zu erfassen. Die Kombination verschiedener Prozesse vergrößert jedoch die Qualität des Ergebnisses, ein sichtbarer Gegenstand ist oft durch viele wahrnehmbare Ränder definiert, wie durch Scassellati, B. M., in "High-level perceptual contours from a variety of low-level physical features", (Diplomarbeit, Massachusetts Institute of Technology, Mai 1995) erörtert ist. Aus diesem Grund vergleicht der Vergleichsprozeß 33 alle Ränder miteinander, ungeachtet, wie sie definiert sind, mit Ausnahme, soweit wie dies ihre Signifikanz für die Wahrnehmung beeinflußt, um ein einzelnes zusammengesetztes Ausgangssignal 38 zu erzeugen.
  • Die Ergebnisse 32, 32d der Komponentenanalyse 31 werden zu einem Vergleichsprozeß 33 geleitet, in dem die in jedem Signal identifizierten Ränder der Komponenten verglichen werden. Durch das Vergleichen der Relevanz für die Wahrnehmung aller Randtypen im Bild kann das Maß der Gesamtsignifikanz für die Wahrnehmung der Verschlechterung eines Signals bestimmt werden und als ein Ausgangssignal 38 bereitgestellt werden. Die Signifikanz für die Wahrnehmung von Fehlern in einem verschlechterten Signal hängt von dem Kontext ab, in dem sie auftreten. Die Dämpfung oder die Verstärkung einer diagonalen Linie (Kante) in 7 würde z. B. wenig Wirkung auf die Wahrnehmung des Bildes durch den Betrachter besitzen, der gleiche Fehler würde aber, falls er auf 5 angewendet wird, eine viel größere Signifikanz besitzen. Ähnlich würden zufällige dunkle Flecken eine viel größere Wirkung auf die Lesbarkeit von 6 besitzen, als sie in 4 besitzen würden.
  • Ausführlich besteht der Vergleichsprozeß 33 aus einer Anzahl einzelner Elemente. Das erste Element identifiziert die genaueste Übereinstimmung zwischen den Anordnungen der Ränder in den zwei Bildern (34), wobei er dieses verwendet, um eine Totalumsetzung des einen Bildes in bezog auf das andere (35) auszuführen, so daß sich diese Ränder entsprechen.
  • Der nächste Prozeß 36 identifiziert die Merkmale, für die das menschliche kognitive System am empfindlichsten ist, wobei für derartige Merkmale Gewichtungsfaktoren W erzeugt werden. Es ist z. B. möglich, die kognitive Relevanz der kritischen Bildelemente zu gewichten, wie z. B. diejenigen, die für visuelle Sprachhinweise verantwortlich sind, da bekannt ist, daß bestimmte Gesichtsmerkmale hauptsächlich für die visuellen Sprachhinweise verantwortlich sind. Siehe z. B. Rosenblum, L. D., u. Saldaña, H. M., (1996), "An audiovisual test of kinematic primitives for visual speech perception", (Journal of Experimental Psychology: Human Perception and Performance, Bd. 22, S. 318–331) und Jordan, T. R., u. Thomas, S. M., (1998), "Anatomically guided construction of point-light facial images", (Technical report, Human Perception and Communication Research Group, University of Nottingham, Nottingham, U.K.).
  • Es kann gefolgert werden, daß ein Gesicht unter Verwendung der Mustererkennung oder kraft der Art des Dienstes, der das Bild liefert, dargestellt wird.
  • Die Signifikanz für die Wahrnehmung jedes Randes in einem Bild wird dann mit dem entsprechenden Rand (falls es einen gibt) in dem anderen (37) verglichen, wobei ein Ausgangssignal 38 entsprechend dem Grad der Differenz in der derartigen Signifikanz für die Wahrnehmung und den vorausgehend bestimmten Gewichten W erzeugt wird. Es sollte angemerkt werden, daß die Differenzen, wie der Rand definiert ist (harte Kante, Farbdifferenz usw.) nicht notwendigerweise die Signifikanz für die Wahrnehmung des Randes beeinflussen, deshalb werden alle Ränder, wie sie auch definiert sind, miteinander verglichen. Weil das Vorhandensein eines falschen Randes für die Wahrnehmung so signifikant wie das Fehlen eines echten Randes sein kann, wird außerdem die absolute Differenz in der Wahrnehmbarkeit bestimmt.
  • Es wird angemerkt, daß die Verschlechterung des Signals verursacht haben kann, daß ein Rand, der z. B. durch eine Kante definiert ist, verschwindet, der Rand kann aber infolge irgendeines anderen Unterschieds, wie z. B. der Farbe, Luminanz oder Textur, immer noch erkennbar sein. Das durch etablierte Modelle (gefiltertes und maskiertes Rauschen) erzeugte Fehlerbild schafft eine Anzeige der sichtbaren Verschlechterung des Bildes. Der Vergleichsprozeß 37 enthält ein Maß des Ausmaßes, in dem wesentlicher Inhalt aufrechterhalten wird, wobei er ein verbessertes Maß der Verständigkeit des Bildes bietet. Beim Vergleichen der Grenzen (Schritt 37) kann die Signifikanz für die Wahrnehmung eines gegebenen Randes von seiner Art abhängen. Ein Rand zwischen verschiedenen Texturen kann weniger gut definiert sein als ein durch eine Kante definierter Rand, wobei eine derartige verringerte Wahrnehmbarkeit des Randes bei der Erzeugung des Ausgangssignals berücksichtigt wird.
  • Dieser Prozeß ist für einen großen Bereich der Anwendungen für die Beurteilung der Videoqualität geeignet, in dem die Identifikation und der Vergleich der wahrnehmbaren Ränder notwendig ist. Ein gutes Beispiel ist durch Systeme mit sehr niedriger Bandbreite gegeben, in denen ein Gesicht algorithmisch rekonstruiert wird. Es wäre für viele der obengenannten bekannten visuellen Modelle unmöglich, dies geeignet zu beurteilen. Der Vergleich der wahrnehmbaren Grenzen ermöglicht außerdem die Beurteilung der synthetischen Darstellungen von Bildern, wie z. B. einem animierten sprechenden Gesicht, in dem die Merkmale des Bildes, die die anschließende kognitive Interpretation als ein Gesicht unterstützen, von wesentlicher Wichtigkeit sind.

Claims (20)

  1. Verfahren zum Messen der Differenzen zwischen einem ersten Videosignal (16) und einem zweiten Videosignal (16d), um ein Ausgangssignal (38) zu erzeugen, das die wahrnehmbare Differenz zwischen den ersten und zweiten Signalen angibt, dadurch gekennzeichnet, daß das Ausgangssignal durch die folgenden Schritte erzeugt wird: Analysieren (31) des Informationsgehaltes jedes Videosignals, um die für die Wahrnehmung relevanten Ränder der darin dargestellten Videobilder zu identifizieren; und Vergleichen (33) der auf diese Weise in dem ersten Signal definierten Ränder mit jenen im zweiten Signal; wobei der Vergleich die Bestimmung des Ausmaßes enthält, in dem die Eigenschaften der im ersten Bild definierten Ränder im zweiten Bild bewahrt sind.
  2. Verfahren nach Anspruch 1, bei dem der Informationsgehalt für mehrere Randidentifizierungscharakteristiken (32, 32d) analysiert wird und die Eigenschaften der Ränder, auf denen der Vergleich (37) basiert, die Charakteristiken umfassen, durch die diese Ränder in jedem der Signale definiert sind.
  3. Verfahren nach Anspruch 2, bei dem die Charakteristiken das Vorhandensein von Kanten umfassen.
  4. Verfahren nach Anspruch 2 oder 3, bei dem die Charakteristiken das Vorhandensein von Unterschieden zwischen Teilbildern desselben Signals umfassen.
  5. Verfahren nach Anspruch 2, 3 oder 4, bei dem die Charakteristi ken Änderungen in wenigstens einer der Eigenschaften Luminanz, Farbe oder Textur enthalten.
  6. Verfahren nach einem der Ansprüche 1 bis 5, bei dem der Vergleich einen Vergleich der Wahrnehmbarkeit entsprechender Ränder, die in den ersten und zweiten Signalen identifiziert werden, enthält.
  7. Verfahren nach einem vorhergehenden Anspruch, bei dem der Vergleich der Bilder die folgenden Schritte umfaßt: Identifizieren (34) der Hauptelemente in jedem Bild und Kompensieren (35) der Differenzen bezüglich der relativen Positionen der Hauptelemente.
  8. Verfahren nach einem vorhergehenden Anspruch, bei dem die Analyse das Identifizieren von für die Wahrnehmung signifikanten Bildmerkmalen enthält und das Ausgangssignal (38), das die wahrnehmbare Differenz zwischen den ersten und zweiten Signalen angibt, in Übereinstimmung mit der kognitiven Relevanz solcher Bildmerkmale gewichtet (36) wird.
  9. Verfahren nach Anspruch 8, bei dem die für die Wahrnehmung signifikanten Bildmerkmale die Charakteristiken des menschlichen Gesichts sind.
  10. Verfahren nach Anspruch 9, bei dem eine Gewichtung auf das Ausgangssignal in Übereinstimmung mit der Signifikanz des auf die Schaffung visueller Hinweise auf die Sprache bezogenen Merkmals angewendet wird.
  11. Verfahren nach Anspruch 8, bei dem die für die Wahrnehmung signifikanten Bildmerkmale diejenigen sind, durch die einzelne Textzeichen unterschieden werden.
  12. Vorrichtung zum Messen der Differenzen zwischen einem ersten Videosignal (16) und einem zweiten Videosignal (16d), die Mittel zum Erzeugen eines Ausgangssignals (38) umfaßt, das die wahrnehmbare Differenz zwischen den ersten und zweiten Signalen (16, 16d) angibt, gekennzeichnet durch: Analysemittel (31) zum Analysieren des Informationsgehaltes jedes Videosignals, um die für die Wahrnehmung relevanten Ränder der darin angezeigten Videobilder zu identifizieren; Vergleichsmittel (33), die die auf diese Weise im ersten Signal (16) definierten Ränder mit jenen im zweiten Signal (16d) vergleichen; wobei der Vergleich die Bestimmung des Ausmaßes umfaßt, in dem die Eigenschaften der im ersten Bild definierten Ränder im zweiten Bild bewahrt sind.
  13. Vorrichtung nach Anspruch 12, bei dem die Analysemittel (31) so beschaffen sind, daß sie den Informationsgehalt in den Signalen (16, 16d) für mehrere Randidentifizierungscharakteristiken (32, 32d) analysieren, wobei die Vergleichsmittel (33) so beschaffen sind, daß sie die Charakteristiken, durch die solche Ränder in jedem der Signale definiert sind, vergleichen.
  14. Vorrichtung nach Anspruch 13, bei der die Analysemittel (31) Mittel zum Identifizieren des Vorhandenseins von Kanten enthalten.
  15. Vorrichtung nach Anspruch 13 oder 14, bei der die Analysemittel (33) Mittel enthalten, die das Vorhandensein von Unterschieden zwischen Teilbildern desselben Signals identifizieren.
  16. Vorrichtung nach Anspruch 13, 14 oder 15, bei der die Analysemittel (33) Mittel enthalten, die Differenzen bezüglich wenigstens einer der Eigenschaften Luminanz, Farbe oder Textur identifizieren.
  17. Vorrichtung nach einem der Ansprüche 12 bis 16, bei der die Vergleichsmittel (33) Mittel enthalten, die die Wahrnehmbarkeit der Ränder, die in den ersten und zweiten Signalen identifiziert werden, bestimmen.
  18. Vorrichtung nach einem der Ansprüche 12 bis 17, bei der die Vergleichsmittel (33) Bildanpassungsmittel (34), die die Hauptelemente in jedem Bild identifizieren, und Translationsmittel (35), die eine Translation eines der Bilder (16d) ausführen, um Differenzen bezüglich der relativen Positionen solcher Elemente in den ersten und zweiten Bildern zu kompensieren, enthalten.
  19. Vorrichtung nach einem der Ansprüche 12 bis 18, bei der die Vergleichsmittel (33) Gewichtungsmittel (36) enthalten, die für die Wahrnehmung signifikante Bildmerkmale in den Komponenten (32, 32d) identifizieren und das Ausgangssignal (38) in Übereinstimmung mit der kognitiven Relevanz solcher Bildmerkmale gewichten.
  20. Vorrichtung nach einem der Ansprüche 12 bis 19, die ferner Mittel (11, 12, 13, 14, 15) einer visuellen Stufe umfassen, die ursprüngliche Eingangssignale (11) verarbeiten, um die Antwort des menschlichen visuellen Systems zu emulieren, um modifizierte Eingangssignale (16, 16d) für die Eingabe in die Analysemittel (31) zu erzeugen.
DE60005798T 1999-02-11 2000-01-24 Analyse der qualität von videosignalen Expired - Lifetime DE60005798T2 (de)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
GB9903107 1999-02-11
GBGB9903107.2A GB9903107D0 (en) 1999-02-11 1999-02-11 Analysis of video signal quality
GB9903293 1999-02-12
GBGB9903293.0A GB9903293D0 (en) 1999-02-12 1999-02-12 Analysis of video signal quality
EP99304824 1999-06-18
EP99304824 1999-06-18
PCT/GB2000/000171 WO2000048407A1 (en) 1999-02-11 2000-01-24 Analysis of video signal quality

Publications (2)

Publication Number Publication Date
DE60005798D1 DE60005798D1 (de) 2003-11-13
DE60005798T2 true DE60005798T2 (de) 2004-08-12

Family

ID=27240190

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60005798T Expired - Lifetime DE60005798T2 (de) 1999-02-11 2000-01-24 Analyse der qualität von videosignalen

Country Status (7)

Country Link
US (1) US7715592B1 (de)
EP (1) EP1151618B1 (de)
JP (1) JP4519323B2 (de)
AT (1) ATE251830T1 (de)
CA (1) CA2371998C (de)
DE (1) DE60005798T2 (de)
WO (1) WO2000048407A1 (de)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1244312A1 (de) 2001-03-23 2002-09-25 BRITISH TELECOMMUNICATIONS public limited company Multimodale Erfassung von Qualität
US6577764B2 (en) * 2001-08-01 2003-06-10 Teranex, Inc. Method for measuring and analyzing digital video quality
US20030035581A1 (en) * 2001-08-13 2003-02-20 Nokia Mobile Phones, Ltd. Method and system for measuring perceptual distortion in images
GB0314161D0 (en) * 2003-06-18 2003-07-23 British Telecomm Edge analysis in video quality assessment
GB0314162D0 (en) * 2003-06-18 2003-07-23 British Telecomm Edge analysis in video quality assessment
EP1700491A4 (de) * 2003-12-16 2009-01-21 Agency Science Tech & Res Messung der bild- und videoqualität
KR101058673B1 (ko) 2004-02-10 2011-08-22 삼성전자주식회사 이동단말기의 텍스트 영상 전송방법
WO2006103323A1 (fr) * 2005-03-29 2006-10-05 France Telecom Procédé et dispositif d'évaluation d'une qualité d'un signal représentatif d'au moins un stimulus, telle que perçue par un destinataire dudit stimulus
EP1860885B1 (de) * 2006-05-23 2011-11-02 Tektronix International Sales GmbH Analyse von Videotransportströmen
WO2010093745A1 (en) 2009-02-12 2010-08-19 Dolby Laboratories Licensing Corporation Quality evaluation of sequences of images
US8284259B2 (en) * 2009-09-23 2012-10-09 Avaya Inc. Policy-based video quality assessment
KR101092650B1 (ko) * 2010-01-12 2011-12-13 서강대학교산학협력단 양자화 코드를 이용한 화질 평가 방법 및 장치
TWI497981B (zh) * 2012-12-03 2015-08-21 Arcadyan Technology Corp 影像訊號測試方法與裝置
US9794554B1 (en) * 2016-03-31 2017-10-17 Centre National de la Recherche Scientifique—CNRS Method for determining a visual quality index of a high dynamic range video sequence
US10085015B1 (en) * 2017-02-14 2018-09-25 Zpeg, Inc. Method and system for measuring visual quality of a video sequence
US11205257B2 (en) * 2018-11-29 2021-12-21 Electronics And Telecommunications Research Institute Method and apparatus for measuring video quality based on detection of change in perceptually sensitive region
CN111199538B (zh) * 2019-12-25 2022-11-25 杭州中威电子股份有限公司 一种针对多层压缩感知图像的隐私保护度评价方法

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5812018B2 (ja) * 1973-09-10 1983-03-05 日本放送協会 フリツカ−トクセイケンサソウチ
JPH02166983A (ja) * 1988-12-21 1990-06-27 Nippon Hoso Kyokai <Nhk> 映像信号の帯域圧縮伝送方式
JPH03210679A (ja) * 1990-01-12 1991-09-13 Hiyuutec:Kk パターンマッチング方法および装置
JP3193458B2 (ja) * 1992-06-19 2001-07-30 日本放送協会 画像符号化方法および装置
US5446492A (en) * 1993-01-19 1995-08-29 Wolf; Stephen Perception-based video quality measurement system
US5589884A (en) 1993-10-01 1996-12-31 Toko Kabushiki Kaisha Adaptive quantization controlled by scene change detection
US5790717A (en) * 1993-10-26 1998-08-04 Bell Communications Research Inc. Apparatus and method for predicting subjective quality of compressed images
JP2795147B2 (ja) * 1993-12-24 1998-09-10 日本電気株式会社 画質評価装置
US5512939A (en) * 1994-04-06 1996-04-30 At&T Corp. Low bit rate audio-visual communication system having integrated perceptual speech and video coding
JP3025415B2 (ja) * 1995-01-20 2000-03-27 ケイディディ株式会社 ディジタル圧縮・再生画像の画質評価装置
JPH08223610A (ja) * 1995-02-17 1996-08-30 Nippon Telegr & Teleph Corp <Ntt> 画像転送評価装置
US5734744A (en) * 1995-06-07 1998-03-31 Pixar Method and apparatus for compression and decompression of color data
DE19521408C1 (de) 1995-06-13 1996-12-12 Inst Rundfunktechnik Gmbh Verfahren zum objektiven Bewerten der Bildqualität zwei- oder dreidimensionaler Bilder
JP3600372B2 (ja) * 1995-06-27 2004-12-15 株式会社リコー 色再現域補正装置および方法
GB9604315D0 (en) 1996-02-29 1996-05-01 British Telecomm Training process
US6119083A (en) 1996-02-29 2000-09-12 British Telecommunications Public Limited Company Training process for the classification of a perceptual signal
US5694491A (en) * 1996-03-29 1997-12-02 David Sarnoff Research Center, Inc. Methods and apparatus for assessing the visibility of differences between two image sequences
US5974159A (en) * 1996-03-29 1999-10-26 Sarnoff Corporation Method and apparatus for assessing the visibility of differences between two image sequences
US6075884A (en) * 1996-03-29 2000-06-13 Sarnoff Corporation Method and apparatus for training a neural network to learn and use fidelity metric as a control mechanism
JPH1063859A (ja) * 1996-08-22 1998-03-06 Fuji Xerox Co Ltd 画質評価方法および装置
JP3116994B2 (ja) * 1996-08-29 2000-12-11 富士ゼロックス株式会社 画質予測装置および方法ならびに画質制御装置および方法
US6057882A (en) * 1996-10-29 2000-05-02 Hewlett-Packard Company Testing architecture for digital video transmission system
FR2755526B1 (fr) * 1996-11-05 1999-01-22 Thomson Csf Systeme de lecture d'empreintes digitales avec resistances de chauffage integrees
JPH10164281A (ja) * 1996-11-26 1998-06-19 Fuji Xerox Co Ltd 画質評価方法および装置
US6137904A (en) 1997-04-04 2000-10-24 Sarnoff Corporation Method and apparatus for assessing the visibility of differences between two signal sequences
US6363116B1 (en) 1997-04-04 2002-03-26 Tektronix, Inc. Picture quality assessment using spatial location with or without subsampling
US6360022B1 (en) 1997-04-04 2002-03-19 Sarnoff Corporation Method and apparatus for assessing the visibility of differences between two signal sequences
US5940124A (en) * 1997-07-18 1999-08-17 Tektronix, Inc. Attentional maps in objective measurement of video quality degradation
US6014183A (en) 1997-08-06 2000-01-11 Imagine Products, Inc. Method and apparatus for detecting scene changes in a digital video stream
US6075561A (en) 1998-02-20 2000-06-13 Tektronix, Inc. Low duty-cycle transport of video reference images
DE69803830T2 (de) 1998-03-02 2002-09-12 Koninklijke Kpn N.V., Groningen Verfahren, Vorrichtung, ASIC und deren Benutzung zur objektiven Videoqualitätbewertung
US6493023B1 (en) 1999-03-12 2002-12-10 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Method and apparatus for evaluating the visual quality of processed digital video sequences
US6690839B1 (en) 2000-01-17 2004-02-10 Tektronix, Inc. Efficient predictor of subjective video quality rating measures
US6633654B2 (en) * 2000-06-19 2003-10-14 Digimarc Corporation Perceptual modeling of media signals based on local contrast and directional edges
US6943827B2 (en) 2001-04-16 2005-09-13 Kddi Corporation Apparatus for monitoring quality of picture in transmission
US7035439B2 (en) 2003-07-30 2006-04-25 Xerox Corporation System and method for measuring and quantizing document quality
EP2106154A1 (de) 2008-03-28 2009-09-30 Deutsche Telekom AG Audiovisuelle Qualitätsbewertung

Also Published As

Publication number Publication date
US7715592B1 (en) 2010-05-11
WO2000048407A1 (en) 2000-08-17
EP1151618A1 (de) 2001-11-07
CA2371998C (en) 2006-01-24
JP2003536281A (ja) 2003-12-02
ATE251830T1 (de) 2003-10-15
JP4519323B2 (ja) 2010-08-04
DE60005798D1 (de) 2003-11-13
EP1151618B1 (de) 2003-10-08
CA2371998A1 (en) 2000-08-17

Similar Documents

Publication Publication Date Title
DE60005798T2 (de) Analyse der qualität von videosignalen
DE69910358T2 (de) Verfahren und vorrichtung zur objektiven bewertung der videoqualität
Liu et al. Visual attention in objective image quality assessment: Based on eye-tracking data
DE69519462T2 (de) Bildübertragungssystem und Verfahren zur Datenreduktion von Farbbildern mittels Farbtabellen und Zusammenfassung von Bildbereichen
DE60207417T2 (de) Verfahren und vorrichtung zur erzeugung formatierter information, die mit den fehlern zumindest eines geräts einer kette verbunden ist, insbesondere der bildschärfeverzerrung
DE69804549T2 (de) Aufmerksamkeitsbilddaten zur objektiven Messung des Videoqualitätsverlust
DE60037485T2 (de) Signalverarbeitungsverfahren und Videosignalprozessor zum Ermitteln und Analysieren eines Bild- und/oder Audiomusters
DE602004009702T2 (de) Verfahren und System zur automatischen Reduzierung von Aliasing-Artefakten
DE69837728T2 (de) Adaptives Filter
DE19743202B4 (de) Verfahren zum Codieren eines Bewegungsvektors
CN108109145A (zh) 图像质量检测方法、装置、存储介质和电子装置
CN101146226A (zh) 一种基于自适应st区的高清视频图像质量评价方法及装置
DE112018004661T5 (de) Schattenerkennungsverfahren für ein Überwachungsvideobild, System davon undSchattenentfernungsverfahren
Geng et al. A stereoscopic image quality assessment model based on independent component analysis and binocular fusion property
Yang et al. New metric for stereo image quality assessment based on HVS
DE19521408C1 (de) Verfahren zum objektiven Bewerten der Bildqualität zwei- oder dreidimensionaler Bilder
de Farias No-reference and reduced reference video quality metrics: new contributions
Voran The development of objective video quality measures that emulate human perception
DE19816898A1 (de) Vorrichtung und Verfahren zum adaptiven Codieren eines Bildsignals
DE60004852T2 (de) Verfahren zur qualitätsbeurteilung von audiovisuellen sequenzen
DE10108068A1 (de) Verfahren zur Kontrolle der Qualität verteilter digitaler Bilder durch Erfassung von Falschkonturen
Kim et al. Quality assessment of perceptual crosstalk on two-view auto-stereoscopic displays
DE102006044929B4 (de) Vorrichtung zum Bestimmen von Informationen zur zeitlichen Ausrichtung zweier Informationssignale
Ponomarenko et al. Statistical evaluation of no-reference image visual quality metrics
DE69801165T2 (de) Signalverarbeitung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition