-
Diese Erfindung bezieht sich auf
die Analyse der Qualität
von Videosignalen. Sie hat zahlreiche Anwendungen bei der Überwachung
der Leistung von Videoübertragungsanlagen
entweder während der
Entwicklung, während
des Baus oder bei der Wartung.
-
Da die Komplexität der Kommunikationssysteme
zugenommen hat, ist es zunehmend schwierig geworden, ihre Leistung
objektiv zu messen. Moderne Kommunikationsverbindungen verwenden
häufig Datenkomprimierungstechniken,
um die für
die Übertragung
erforderliche Bandbreite zu verringern. Wenn die Signale für eine effizientere Übertragung
komprimiert werden, sind herkömmliche
Bemessungsmaßstäbe, z. B.
der Rauschabstand oder die Bitfehlerrate, unzuverlässige Indikatoren
der Leistung, die der Mensch, der schließlich das Signal empfängt, erfährt. Zwei
Systeme mit ähnlichen
Bitfehlerraten können
z. B. abhängig
davon, welche digitalen Bits verloren werden, merklich verschiedene
Wirkungen auf die Qualität
der Daten (Ton oder Bild) besitzen, die dem Endbenutzer angeboten
wird. Andere nichtlineare Prozesse, z. B. die Echokompensation,
werden außerdem
zunehmend üblich.
Die Komplexität
der modernen Kommunikationssysteme macht sie für die Analyse unter Verwendung
herkömmlicher
Signalverarbeitungstechniken ungeeignet. Die Gesamtbeurteilung der
Netzqualität
muß darauf
basieren, was der Kunde gehört
oder gesehen hat oder haben würde.
-
Die Hauptmaßstäbe der Meinung des Betrachters
sind subjektive Tests, die nach den Standards der internationalen
Telekommunikationsunion ausgeführt
werden, P.800, "Methods
for subjective determination of transmission quality", 1996, und P.911, "Subjective audiovisual
quality assessment methods for multimedia applications", 1998. Diese messen
die wahrgenommene Qualität
in gesteuerten subjekti ven Experimenten, in denen einige menschliche
Versuchspersonen jedes geprüfte
Signal hören. Dies
ist für
die kontinuierliche Überwachung
eines Netzes unpraktisch und gefährdet
außerdem
das Privatleben der Teilnehmer an den überwachten Gesprächen. Um
diese Probleme zu überwinden,
sind für
die Messung der Qualität
eines Telephonnetzes Hörwahrnehmungsmodelle
entwickelt worden, wie z. B. diejenigen der internationalen Patentbeschreibungen
WO 94/00922, WO95/01011, WO95/15035, WO97/05730, WO97/32428, WO98/53589
und WO98/53590 des Anmelders der vorliegenden Erfindung. Diese sind
objektive Leistungsmaßstäbe, sie sind
aber so konstruiert, daß sie
sich direkt auf die wahrgenommene Signalqualität beziehen, indem Punktestände für die Qualität erzeugt
werden, die zu denjenigen ähnlich
sind, die durch menschliche Versuchspersonen berichtet worden wären.
-
Die Systeme des Standes der Technik,
auf die oben Bezug genommen wird, messen die Qualität der Tonsignale
(Audiosignale). Die vorliegende Erfindung befaßt sich mit der Anwendung ähnlicher
Prinzipien auf Videosignale. Das Grundprinzip des Emulierens des
menschlichen Wahrnehmungssystems (in diesem Fall statt des Ohr/Gehirn-Systems des Auge/Gehirn-Systems)
wird immer noch verwendet, aber die Videosignale und das menschliche
visuelle Wahrnehmungssystem sind beide sehr viel komplexer, wobei
sich neue Probleme ergeben.
-
Wie beim Höhen besitzt das menschliche
visuelle Wahrnehmungssystem physiologische Eigenschaften, die es
sehr schwer oder unmöglich
machen, einige in visuellen Anreizen vorhandene Merkmale wahrzunehmen.
Die Komprimierungsprozesse, wie z. B. diejenigen durch JPEG (gemeinsame ISO/IEC-Arbeitsgruppe
zur Ausarbeitung eines Datenkompressionsstandards für Standbilder)
und MPEG (gemeinsame ISO/IEC-Arbeitsgruppe zur Ausarbeitung eines
Datenkompressionsstandards für
Bewegtbilder) stützen
sich auf diese Eigenschaften, um die in den Videosignalen (beweglich
oder bewegungslos) zu übertragende
Menge der Informationen zu verringern. Zwei Komprimierungsschemata können zu ähnlichen
Verlusten von Informationen führen,
die wahrgenommene Qualität
einer komprimierten Version eines gegebenen Bildes kann aber entsprechend
des verwendeten Schemas sehr verschieden sein. Die Qualität der resultierenden
Bilder kann deshalb nicht durch einfachen Vergleich des ursprünglichen
Signals mit dem Endsignal bewertet werden. Die Eigenschaften des
menschlichen Sehvermögens
sind in die Beurteilung der wahrgenommenen Qualität einzubeziehen.
-
Es ist problematisch, die Informationen
aus einem Bild durch die mathematische Verarbeitung der Werte der
Bildpunkte zu prüfen
und zu lokalisieren. Das Niveau der Intensität der Bildpunkte wird nur bedeutsam,
wenn es durch die visuelle Kenntnis der Gegenstände und Formen der menschlichen
Versuchsperson verarbeitet wird. In dieser Erfindung werden mathematische
Lösungen
verwendet, um die Informationen zu extrahieren, die den durch das
Auge-Gehirn-System
verwendeten so genau wie möglich ähneln.
-
Es ist eine Anzahl verschiedener
Zugänge der
visuellen Modellierung berichtet worden. Diese sind auf spezielle
Anwendungen oder spezielle Typen der Videoverzerrung spezialisiert.
Das MPEG-Komprimierungssystem versucht z. B., die Unterschiede zwischen
aufeinanderfolgenden Teilbildern zu codieren. In Perioden der Überlastung,
in denen es viele Unterschiede zwischen aufeinanderfolgenden Teilbildern
gibt, verringert dieser Prozeß die Bildpunktauflösung und bewirkt,
daß Blöcke mit
einheitlicher Farbe und Luminanz produziert werden. Karunasekera,
A. S., und Kingsbury, N. G., schlagen in "A distortion measure for blocking artefacts
in images based on human visual sensitivity", IEEE Transactions on Image Processing,
Bd. 4, Nr. 6, S. 713–724,
Juni 1995, ein Modell vor, das besonders konstruiert ist, um die "Blockartigkeit" dieser Art zu erfassen.
Eine solche Blockartigkeit läßt jedoch
nicht immer einen Fehler erkennen, da die Wirkung absichtlich durch
den Produzenten des Bildes entweder für die visuelle Wirkung oder
um eine Einzelheit auszulöschen,
wie z. B. die Gesichtsmerkmale einer Person, deren Identität verborgen
werden soll, eingeführt
worden sein kann.
-
Falls die Anforderungen eines breiten
Bereichs von Anwendungen, vom hochauflösenden Fernsehen über Videokonferenzen
und virtuelle Realität,
zu erfüllen
sind, ist eine komplexere Architektur zu verwenden.
-
Einige bestehende visuelle Modelle
besitzen eine elementare Emulation der Wahrnehmungscharakteristiken,
die hierin als "Wahrnehmungsstufe" bezeichnet wird.
Beispiele sind in dem bereits erörterten Literaturhinweis
auf Karunasekera und in Lukas, X. J., und Budrikis, Z. L., "Picture Quality Prediction Based
on a Visual Model",
IEEE Transactions on Communications, Bd. com-30, Nr. 7, S. 1679–1692, Juli
1982, zu finden, in der eine einfachere Wahrnehmungsstufe um das
Grundprinzip konstruiert ist, daß große Fehler subjektiv dominieren
werden. Andere Zugänge
sind außerdem
betrachtet worden, wie z. B. ein durch Tan, K. T., Ghanbari, M.
und Pearson, D. E., "A
video distortion meter",
Informationstechnische Gesellschaft, Picture Coding Symposium, Berlin, September
1997, beschriebenes Modell der zeitlichen Ansammlung. Keiner dieser
Zugänge
wendet sich jedoch der relativen Wichtigkeit aller in dem Bild vorhandenen
Fehler zu.
-
Für
die Zwecke der vorliegenden Beschreibung ist die "Farbe" eines Bildpunktes
als das Verhältnis
der Primärfarben
(Rot, Grün
und Blau) im Bildpunkt definiert. Die "Luminanz" ist die Gesamtintensität der drei
Primärfarben.
Insbesondere werden die verschiedenen Schattierungen auf einer Grauskala durch
die Variationen der Luminanz bewirkt.
-
Gemäß einem ersten Aspekt schafft
die Erfindung ein Verfahren zum Messen der Differenzen zwischen
einem ersten Videosignal und einem zweiten Videosignal, um ein Ausgangssignal
zu erzeugen, das die wahrnehmbare Differenz zwischen den ersten
und zweiten Signalen angibt, dadurch gekennzeichnet, daß das Ausgangssignal
durch die folgenden Schritte erzeugt wird:
Analysieren des
Informationsgehaltes jedes Videosignals, um die für die Wahrnehmung
relevanten Ränder
der darin dargestellten Videobilder zu identifizieren; und Vergleichen
der auf diese Weise in dem ersten Signal definierten Ränder mit
jenen im zweiten Signal; wobei der Vergleich die Bestimmung des
Ausmaßes
enthält,
in dem die Eigenschaften der im ersten Bild definierten Ränder im
zweiten Bild bewahrt sind.
-
Die Erfindung schafft außerdem eine
Vorrichtung zum Messen der Differenzen zwischen einem ersten Videosignal
und einem zweiten Videosignal, die Mittel zum Erzeugen eines Ausgangssignals
umfaßt,
das die wahrnehmbare Differenz zwischen den ersten und zweiten Signalen
angibt, gekennzeichnet durch:
Analysemittel für den Informationsgehalt
jedes Videosignals, um die für
die Wahrnehmung relevanten Ränder
der darin angezeigten Videobilder zu identifizieren;
und Vergleichsmittel,
die die auf diese Weise im ersten Signal definierten Ränder mit
jenen im zweiten Signal vergleichen; wobei der Vergleich die Bestimmung
des Ausmaßes
umfaßt,
in dem die Eigenschaften der im ersten Bild definierten Ränder im
zweiten Bild bewahrt sind.
-
Die Ränder zwischen den Hauptelementen eines
Bildes können
durch irgendeine meßbare
Eigenschaft identifiziert werden, die vom menschlichen Wahrnehmungssystem
verwendet wird, um zwischen derartigen Elementen zu unterscheiden.
Diese können
die Farbe, die Luminanz, sogenannte "harte" Kanten (eine schmale Linie gegensätzlicher
Farbe oder Luminanz, die einen Umriß oder einen anderen Rand definiert,
wie z. B. eine Linie, die in der Bildanalyse als ein Gebiet mit
hoher Ortsfrequenz identifizierbar ist) und andere, die später erörtert werden, enthalten,
sie sind aber nicht darauf eingeschränkt.
-
Die Eigenschaften der Ränder, auf
denen der Vergleich basiert, enthalten die Charakteristiken, durch
die derartige Ränder
definiert sind. Falls insbesondere ein Rand durch eine gegebene
Charakteristik definiert ist, und diese Charakteristik wird im verschlechterten
Bild verloren, ist der Grad der wahrgenommenen Verschlechterung
des Bildelements davon abhängig,
wie signifikant der ursprüngliche
Rand für
die Wahrnehmung war. Falls das durch den Rand definierte Element
trotzdem im verschlechterten Bild mittels eines durch eine andere
Charakteristik definierten Randes identifiziert werden kann, berücksichtigt
der Vergleich außerdem,
wie signifikant ein derartiger Ersatzrand für die Wahrnehmung ist und wie
genau seine Position mit dem ursprünglichen verlorenen Rand übereinstimmt.
-
Die Grundlage für die Erfindung ist, daß die in
dem Bild vorhandenen Elemente nicht von gleicher Wichtigkeit sind.
Ein Fehler wird wahrnehmbarer sein, falls er die Form von einem
der wesentlichen Merkmale des Bildes unterbricht. Die an einer Kante in
der Mitte eines texturierten Gebietes vorhandene Verzerrung wird
z. B. weniger wahrnehmbar als der gleiche Fehler an einer unabhängigen Kante
sein. Dies ist so, weil eine Kante, die einen Teil einer Textur bildet,
weniger Informationen als eine unabhängige Kante überträgt, wie
durch Ran, X., und Favardin, N., "A Perceptually Motivated Three-Component Image Model – Part II:
Application to Image Compression", IEEE
Transactions on Image Processing, Bd. 4, Nr. 4, S. 713–724, April
1995, beschrieben ist. Falls jedoch ein texturierter Bereich einen
Rand definiert, kann ein Fehler, der die Eigenschaften der Textur
im ganzen texturierten Bereich ändert,
so wichtig wie ein Fehler an einer unabhängigen Kante sein, falls der
Fehler bewirkt, daß die
texturierten Charakteristiken des Bereichs verloren werden. Die
vorliegende Erfindung untersucht die kognitive Relevanz jedes Randes
und das Ausmaß,
in dem diese Relevanz bewahrt wird.
-
Der Prozeß identifiziert die Elemente
mit der größten Relevanz
für die
Wahrnehmung, d. h. die Ränder
zwischen den Hauptelementen des Bildes. Kleine Variationen in einer
Eigenschaft innerhalb der durch die Ränder definierten Gebiete sind
von weniger Relevanz als Fehler, die eine Änderung der Form des Randes
verursachen.
-
Außerdem erlaubt der Prozeß den Vergleich dieser
Informationen unabhängig
davon, wie die Hauptelemente des Bildes identifiziert werden. Das menschliche
Wahrnehmungssystem kann verschiedene Gebiete eines Bildes in vielen
verschiedenen Arten unterscheiden.
-
Das Fehlen einer "harten Kante" wird z. B. eine größere Verschlechterung für die Wahrnehmung erzeugen,
wenn die durch diese Kante getrennten Gebiete eine ähnliche
Farbe besitzen, als erzeugt wird, wenn sie gegensätzliche
Farben besitzen, weil der Farbekontrast trotzdem erlaubt, daß der Rand wahrgenommen
wird. Je abrupter die Änderung,
desto größer ist
die Signifikanz des Randes für
die Wahrnehmung.
-
Durch das Analysieren der in dem
Bild definierten Ränder
wird eine Anzahl weiterer Entwicklungen möglich.
-
Die Ränder können als ein Bezugssystem verwendet
werden, indem die Hauptelemente in jedem Bild und die Differenzen
in ihren relativen Positionen identifiziert werden. Durch die Verwendung
der Differenzen in der relativen Position können im Gegensatz zur absoluten
Position für
die Wahrnehmung unwichtige Differenzen in den Bildern nicht beachtet werden,
da sie die Qualität
des resultierenden Bildes, wie sie durch den Betrachter wahrgenommen
wird, nicht beeinflussen. Falls insbesondere ein Bild bezüglich eines
anderen versetzt ist, gibt es viele Differenzen zwischen den einzelnen
Bildpunkten eines Bildes und den entsprechenden Bildpunkten des
anderen, diese Differenzen sind jedoch für die Wahrnehmung nicht relevant,
vorausgesetzt, daß sich
die Ränder
in den gleichen relativen Positionen befinden. Durch Bezugnahme
auf die Hauptränder
in dem Bild anstatt auf ein absolutes Bezugssystem (der Bildpunktkoordinaten)
kann jeder derartige Versatz kompensiert werden.
-
Die Analyse kann außerdem die
Identifizierung der für
die Wahrnehmung signifikanten Bildmerkmale enthalten, die abermals
durch die Formen der Ränder
identifiziert werden, anstatt dadurch, wie diese Ränder definiert
sind. Das Ausgangssignal, das die Differenz der Wahrnehmung zwischen
den ersten und zweiten Signalen angibt, kann entsprechend der Signifikanz
für die
Wahrnehmung derartiger Bildmerkmale gewichtet werden. Signifikante Merkmale
würden
die verschiedenen Charakteristiken enthalten, die ein menschliches
Gesicht bilden, insbesondere diejenigen, die bei der Bereitstellung visueller
Sprachhinweise signifikant sind. Derartige Merkmale sind für das menschliche
kognitive System von besonderer Signifikanz, wobei deshalb Fehler, wie
z. B. die Verzerrung, das Fehlen, das Vorhandensein falscher Elemente
oder Änderungen
in der relativen Position in diesen Merkmalen von größerer Relevanz
für die
Wahrnehmung sind als in anderen.
-
In einem Bild, das Text enthält, sind
diejenigen Merkmale für
die Wahrnehmung signifikant, die ein Zeichen aus einer Schriftart
von einem anderen unterscheiden (z. B. die Serife am Buchstaben "G", die ihn von einem "C" unterscheidet).
-
Nun wird eine Ausführungsform
der Erfindung lediglich beispielhaft unter Bezugnahme auf die Figuren
beschrieben, worin:
-
1 eine
erste Stufe für
die sensorische Emulation des Systems schematisch veranschaulicht,
-
2 die
in der sensorischen Emulationsstufe verwendeten Filterparameter
veranschaulicht,
-
3 eine
zweite Wahrnehmungsstufe des Systems schematisch veranschaulicht,
-
4, 5, 6 und 7 vier
Arten veranschaulichen, in denen die Ränder wahrgenommen werden können.
-
In dieser Ausführungsform umfaßt der Meßprozeß zwei Stufen,
die in den 1 bzw. 3 veranschaulicht sind. Der
erste Stufe – die
sensorische Emulationsstufe – berücksichtigt
die physikalische Empfindlichkeit des menschlichen visuellen Systems auf
gegebene Anreize. Die zweite Stufe – die Wahrnehmungsstufe – schätzt die
durch die verbleibenden sichtbaren Fehler verursachte subjektive
Störung. Die
verschiedenen in den 1 und 3 gezeigten Funktionselemente
können
als Software verkörpert sein,
die auf einem Universalrechner läuft.
-
Die sensorische Stufe (1) reproduziert die gesamte
Psychophysik der sensorischen Mechanismen:
- (i)
die raum-zeitliche Empfindlichkeit, die als das menschliche visuelle
Filter bekannt ist, und
- (ii) die auf die Ortsfrequenz, die Orientierung und die Zeitfrequenz
zurückzuführende Maskierung.
-
1 gibt
eine Darstellung der sensorischen Stufe, die die physikalischen
Eigenschaften des menschlichen visuellen Systems emuliert. Dieselben Prozesse
werden sowohl auf das ursprüngliche
Signal als auch auf das verschlechterte Signal angewendet: diese
können
gleichzeitig in parallelen Verarbeitungseinheiten ausgeführt werden
oder sie können der
Reihe nach für
jedes Signal unter Verwendung derselben Verarbeitungseinheiten ausgeführt werden.
-
Die sensorische Stufe identifiziert,
ob die Einzelheiten physikalisch wahrnehmbar sind, wobei sie den
Grad identifiziert, in dem das visuelle System für sie empfindlich ist. Um dies
auszuführen,
emuliert sie die zwei Hauptcharakteristiken des visuellen Systems,
die einen Einfluß auf
die physikalische Wahrnehmbarkeit eines visuellen Anreizes besitzen:
- – die
Empfindlichkeit des Auge/Gehirn-Systems,
- – die
Maskierungswirkungen – d.
h. die Variationen der Wichtigkeit für die Wahrnehmung eines Anreizes
entsprechend dem Vorhandensein anderer Anreize.
-
Jede dieser Charakteristiken besitzt
sowohl eine zeitliche als auch eine räumliche Dimension, wie nun
erörtert
wird.
-
Jedes Signal wird zuerst durch ein
Filter 12 in der Zeit- und Ortsfrequenz gefiltert, um eine
gefilterte Folge zu erzeugen. Die in dem Filter 12 verwendeten Werte
werden gewählt,
um das menschliche visuelle Verhalten zu emulieren, wie es bereits
in bezug auf 2 erörtert ist.
Dieses Filter erlaubt, daß Einzelheiten,
die für
das menschliche visuelle System (Auge/Gehirn-System) nicht sichtbar
sind, entfernt werden, und deshalb nicht als Fehler gezählt werden, während die
Wahrnehmbarkeit der Einzelheiten mit anderen Orts- und Zeitfrequenzen
durch die größerer Empfindlichkeit
des menschlichen sensorischen Systems für diese Frequenzen vergrößert ist.
Dies besitzt die Wirkung der Gewichtung der Informationen, die in
den Signalen enthalten sind, entsprechend der visuellen Schärfe.
-
Das menschliche visuelle System ist
für einige
Orts- und Zeitfrequenzen empfindlicher als für andere. Die alltägliche Erfahrung
lehrt, daß Einzelheiten,
die kleiner als eine bestimmte Größe sind, nicht zu sehen sind.
Auf die räumliche
Auflösung
wird in Form der Ortsfrequenz Bezug genommen, die durch das Zählen der
Anzahl der Zyklen eines sinusförmigen
Musters definiert ist, das pro Grad vorhanden ist, das dem Auge
gegenüber
liegt. Eng beabstandete Linien (feine Einzelheiten) entsprechen
hohen Ortsfrequenzen, während
große
Muster niedrigen Ortsfrequenzen entsprechen. Sobald dieses Konzept
eingeführt
ist, kann das menschliche Sehvermögen mit einem Filter mit der
Spitzenempfindlichkeit (im Mittenbereich) für Ortsfrequenzen von etwa 8
Zyklen/Grad und der Unempfindlichkeit für hohe Frequenzen (größer als
60 Zyklen/Grad) verglichen werden. Eine ähnliche Filtercharakteristik
kann im Zeitbereich angewendet werden, wo das Auge scheitert, ein
Flackern wahrzunehmen, das schneller als etwa 50 Hz ist. Die Gesamtfiltercharakteristik
sowohl für
die Orts- als auch Zeitfrequenz kann durch eine Oberfläche dargestellt
werden, wie in 2 gezeigt
ist, in der die Achsen die Orts- und Zeitfrequenz sind (gemessen
in Zyklen/Grad bzw. Hertz). Die vertikale Achse ist die Empfindlichkeit,
wobei die Einheiten so normiert sind, daß die maximale Empfindlichkeit
gleich 1 ist.
-
Der zweite Aspekt des Sehvermögens, der durch
die sensorische Stufe zu modellieren ist, ist als "Maskierung" bekannt, die verringerte
Wahrnehmbarkeit von Fehlern in Bereichen eines Bildes, wo eine größere räumliche
Aktivität
vorhanden ist, wobei das zeitliche Gegenstück zu dieser Wirkung die Sichtbarkeit
der Einzelheiten verringert, wenn die Geschwindigkeit der Bewegung
zunimmt. Die Maskierung kann verstanden werden, indem die Organisation
der primären
Rinde betrachtet wird, der ersten Stufe des Gehirns, die für die visuelle
Verarbeitung verantwortlich ist. Jeder Teil der Rinde ist für einen bestimmten
Bereich der Netzhaut empfindlich. Der ankommende Bildstrom wird
in Gruppierungen der Ortsfrequenz, der Zeitfrequenz und der Orientierung (die
als Kanäle
bekannt sind) unterteilt. Die "nächste Stufe" des Gehirns verarbeitet
den Bildstrom als eine Menge von Kanälen, wobei jeder eine Kombination von
Orts/Zeit-Frequenz und Orientierung in dem entsprechenden Bereich
der Netzhaut berücksichtigt. Sobald
ein gegebener Kanal angeregt ist, neigt er dazu, seine Nachbarn
zu hemmen, wodurch es schwieriger gemacht wird, anderer Einzelheiten
zu erfassen, die sich in der Orts- oder Zeitfrequenz oder der Orientierung
in nächster
Nähe befinden.
-
Die Maskierung ist ein Maß der Menge
der Hemmung, die ein Kanal für
seine Nachbarn verursacht. Diese Informationen werden erhalten,
indem die durch repräsentative
Abtastwerte der Kanäle
erzeugte Maskierung hinsichtlich der Orts/Zeit-Frequenz- und Orientierungscharakteristiken
untersucht wird. Damit die sensorische Stufe die Maskierung der Aktivität simuliert,
ist es notwendig, die Menge der in jeder Kombination aus Ortsfrequenz
und Orientierung innerhalb eines Bildes vorhandenen Aktivität zu kennen.
Diese Berechnung kann unter Verwendung einer Garbor-Funktion, einer
flexiblen Form des Bandpaßfilters,
ausgeführt
werden, um die entsprechenden Ausgangssignale 14 zu erzeugen,
in denen der Inhalt jedes Signals durch die Ortsfrequenz und die
Orientierung aufgespalten ist. Für
jedes Ausgangssignal werden typischerweise sechzehn Ausgangskanäle verwendet,
die vier räumliche
Orientierungen (vertikal, horizontal und die zwei Diagonalen) und
vier Ortsfrequenzen umfassen. Die resultierenden Kanäle werden
durch einen Maskierungsrechner 15 analysiert. Dieser Rechner
modifiziert jeden Kanal in Übereinstimmung
mit der Maskierungswirkung der anderen Kanäle; die Wichtigkeit für die Wahrnehmung
eines Phänomens
mit niedriger Ortsfrequenz wird z. B. verringert, falls außerdem ein
räumliches Phänomen mit
höherer
Frequenz vorhanden ist. Die Maskierung tritt außerdem im zeitlichen Sinn auf – bestimmte
Merkmale sind für
den menschlichen Beobachter weniger bemerkbar, wenn andere Wirkungen
in ei nem kurzen zeitlichen Abstand von ihnen auftreten.
-
Die Eichung dieses Modells der Maskierung erfordert
Daten, die beschreiben, wie die Orts/Zeit-Frequenz einer gegebenen
Orientierung die Sichtbarkeit eines weiteren Anreizes verringert. Diese
Informationen können
nicht als eine vollständige
Beschreibung erhalten werden, da die Anzahl der Kombinationen sehr
groß ist.
Deshalb wird der getrennte Einfluß jedes Parameters gemessen.
Zuerst wird die Maskierungswirkung eines Hintergrundes auf einen
Anreiz entsprechend der relativen Orientierung zwischen den zwei
gemessen. Dann wird die Wirkung der Orts- und Zeit-Frequenzdifferenz
zwischen der Maske und dem Anreiz gemessen. Schließlich werden
die zwei Charakteristiken kombiniert, indem zwischen gemeinsamen
Meßpunkten
interpoliert wird.
-
In einem einfachen Vergleich zwischen
ursprünglichen
und verschlechterten Teilbildern führen bestimmte Fehlertypen,
wie z. B. eine horizontale/vertikale Verschiebung, zu großen Beträgen des Fehlers über das
ganze Teilbild, sie würden
aber für einen
Anwender nicht bemerkbar sein. Dieses Problem kann bearbeitet werden,
indem die Neusynchronisation der Teilbilder verwendet wird, wie
sie in der ITU-T "Draft
new recommendation on multimedia communication delay, synchronisation
and frame rate measurement",
COM 12-29-E, Dezember 1997, spezifiziert ist. Dieses einfache Verfahren
berücksichtigt jedoch
nicht vollständig
die Subjektivität
des Fehlers, weil es keine anderen gemeinsamen Mängel berücksichtigt, wie z. B. die Verschlechterung
der Elemente in der komprimierten Folge.
-
Nach der sensorischen Stufe wird
das Bild zerlegt, um die Berechnung der Subjektivität des Fehlers
durch die Wahrnehmungsstufe (3)
entsprechend der Wichtigkeit der Fehler in bezug auf die Strukturen
innerhalb des Bildes zu erlauben. Falls der sichtbare Fehler mit
einem kritischen Merkmal des Bildes zusammenfällt, wie z. B. einer Kante, dann
ist er subjektiver störend.
Die Grundbildelemente, die einem menschlichen Beobachter erlauben, den
Bildinhalt wahrzunehmen, können
als eine Menge abstrahierter Ränder
betrachtet werden. Diese Ränder
können
sowohl durch Farb- und Luminanzdifferenzen, Texturänderungen
und Bewegung als auch durch Kanten gebildet sein, wobei sie im zerlegten Bild
identifiziert werden. Sogar irgendwelche "Gestalt"-Wirkungen, die verursachen, daß ein Rand wahrzunehmen
ist, wo tatsächlich
keiner vorhanden ist, können
algorithmisch gemessen werden, um eine geeignete Gewichtung zu erlauben.
-
Diese Ränder sind erforderlich, um
den Bildinhalt wahrzunehmen, deshalb besitzen sichtbare Fehler,
die diese Ränder
verschlechtern, z. B. durch Verschmieren oder das Ändern ihrer
Form, eine größere subjektive
Signifikanz als diejenigen, die das nicht tun. Das Ausgangssignal
aus der Wahrnehmungsstufe ist eine Menge kontextempfindlicher Fehlerdeskriptoren,
die verschieden gewichtet werden können, um eine Vielzahl von
Meinungskriterien abzubilden.
-
In einigen Fällen kann ein Rand völlig fehlen oder
es kann ein falscher Rand vorhanden sein, z. B. wenn ein "Geister"-Bild durch Mehrwegereflexion
gebildet wird. In diesem Fall ist das Vorhandensein oder die Abwesenheit
des Randes selbst der Fehler.
-
3 ist
eine Darstellung der Wahrnehmungsstufe, die die subjektive Signifikanz
irgendwelcher Fehler mißt,
die in der Bildfolge vorhanden sind. Das ursprüngliche Signal 16 und
das verschlechterte Signal 16d, wobei jedes gefiltert und
maskiert ist, wie unter Bezugnahme auf 1 beschrieben ist, werden zuerst jedes
in einem Komponentenextraktionsprozeß 31 analysiert (entweder
parallel oder der Reihe nach), um die Charakteristiken der Kanten
oder Ränder
der Hauptkomponenten jedes Bildes zu identifizieren. Diese Charakteristiken
werden als die Eingangssignale 32, 32d an einen
Vergleichsprozeß 33 geliefert,
der ein Ausgangssignal 38 erzeugt, das die gesamte Verschlechterung
der Wahrnehmung des verschlechterten Bildes in bezug auf das ursprüngliche
Bild angibt.
-
Die durch den Extraktionsprozeß 31 identifizierten
Komponenten können
durch:
- – die
Luminanz (veranschaulicht in 4)
und die Farbe,
- – starke
Kanten (veranschaulicht in 5),
- – die
Schließungswirkungen
(veranschaulicht in 6),
- – die
Textur (veranschaulicht in 7),
- – die
Bewegung,
- – binokulare
(stereoskopische) Unterschiede
unterschieden werden.
-
Die letzten zwei Wirkungen stützen sich
auf Phänomene,
die sich auf die Bewegung und die Stereoskopie beziehen, die auf
einer gedruckten Seite nicht leicht veranschaulicht werden. Aus ähnlichen Gründen sind
in 4 nur die Luminanzunterschiede und
nicht die Farbunterschiede veranschaulicht.
-
Die 4 bis 7 stellen alle einen Kreis
und ein Quadrat dar, wobei das Quadrat einen Teil des Kreises verdeckt.
In jedem Fall wird der Rand zwischen den zwei Elementen leicht wahrgenommen, obwohl
die zwei Elemente in verschiedenen Arten dargestellt sind. In 4 besitzen der Kreis und
das Quadrat verschiedene Luminanz – der Kreis ist schwarz, während das
Quadrat weiß ist.
Ein Rand wird an den Orten wahrgenommen, an denen sich diese Eigenschaft ändert. Es
wird angemerkt, daß es in
den 5, 6 und 7 außerdem Orte
gibt, an denen sich die Luminanz ändert (z. B. die Ränder zwischen jedem
einzelnen Streifen in 7),
diese werden jedoch nicht als die Hauptränder des Bildes wahrgenommen.
-
5 veranschaulicht
einen Rand, der durch eine Kante definiert ist. Eine "starke Kante" oder ein Umriß ist ein
schmales lineares Merkmal mit einer Farbe oder Luminanz, das mit
den Gebieten auf beiden Seiten von ihm im Kontrast steht. Der Betrachter
nimmt dieses lineare Merkmal nicht primär an als eine selbständige Komponente
wahr, sondern als einen Rand, der die Komponenten auf beiden Seiten
von ihm trennt. Bei der Analyse des Bildes kann eine derartige Kante
als ein lokalisiertes Hochfrequenzelement im gefilterten Signal
identifiziert werden. Es sind geeignete Prozesse, die diese Kanten identifizieren,
entwickelt worden, z. B. der durch S. M. Smith and J. M. Brady in "SUSAN – A new
approach to low-level image processing" (Technical Report TR95SMS1 c, Oxford
Centre for Functional magnetic Resonance Imaging of the Brain, 1995),
beschriebenen Kantenextraktionsprozeß.
-
Unter vielen Umständen kann ein Betrachter eine
Kante wahrnehmen, wo keine kontinuierliche Linie vorhanden ist.
Ein Beispiel ist in 6 gezeigt,
in der die Linien unstetig sind. Das menschliche Wahrnehmungssystem
führt einen
Prozeß aus,
der als "Schließung" bekannt ist, der
dazu neigt, derartige teilweise Kanten zu vervollständigen.
(Ein weiteres Beispiel ist durch die Tatsache veranschaulicht, daß keine
der 4 bis 7 tatsächlich einen vollständigen Kreis darstellt.
Der Betrachter schließt
das Vorhandensein eines Kreises aus den vier linsenförmigen Bereichen,
die in jeder Figur tatsächlich
dargestellt sind.) Es sind verschiedene Prozesse entwickelt worden,
um den durch das menschliche Wahrnehmungssystem ausgeführten Schließungsprozeß zu emulieren.
Ein derartiger Prozeß ist
durch Kass, M., Witkin, A., und Terzopoulos, D., "Snakes: Active Boundary
Models", veröffentlicht
in den Proceedings of First International Conference on Computer
Vision, 1987, S. 259–269,
beschrieben.
-
Die "Textur" kann in vielen Gebieten identifiziert
werden, in denen die bereits erwähnten
Eigenschaften nicht konstant sind. In einem durch parallele Linien
mit einer Farbe oder Luminanz, die mit dem Hintergrund im Kontrast
stehen, ausgefüllten
Gebiet ist z. B. der einzelne Ort jeder Linie nicht von großer Signifikanz
für die
Wahrnehmung. Falls jedoch die Linien in verschiedenen Teilen des
Gebietes verschiedene Orientierungen besitzen, wird ein Beobachter einen
Rand wahrnehmen, wo sich die Orientierung ändert. Diese Eigenschaft wird
z. B. in der Orientierung der Pinselstriche in Gemälden gefunden.
Ein Beispiel ist in 7 gezeigt,
in der der Kreis und das Quadrat durch zwei orthogonale Folgen von
parallelen Strichen definiert sind. Es wird angemerkt, daß, falls
das Bild vergrößert wird,
so daß die
Winkeltrennung der Streifen näher
am in 2 gezeigten Spitzenwert
liegt und die Abmessungen des Quadrats und des Kreises entfernter
von diesem Spitzenwert sind, die einzelnen Streifen anstatt des
Quadrates und des Kreises die dominierenden Merkmale werden würden. Es
wird außerdem
offensichtlich sein, daß,
falls die Orientierungen der Streifen verschieden wären, der
Rand zwischen dem Quadrat und dem Kreis weniger deutlich werden
kann. Um den Texturinhalt eines Gebietes des Bildes zu identifizieren,
wird der Energieinhalt in jedem aus den Gabor-Filtern 13 ausgegebenen
Kanal verwendet. Jeder Kanal stellt eine gegebene Ortsfrequenz und
eine gegebene Orientierung dar. Durch das Identifizieren der Gebiete,
in denen ein gegebener Kanal oder gegebene Kanäle einen hohen Energieinhalt
besitzen, können
Gebiete mit ähnlicher
Textur identifiziert werden.
-
Durch das menschliche Wahrnehmungssystem
können
die Formen in anderen Arten erkannt werden, die in der beigefügten Zeichnung
nicht veranschaulicht sind. Insbesondere können Unterschiede zwischen
zusammenhängenden
Bildern, wie z. B. die in der Stereoskopie verwendeten Paare der
Teilbilder des Bildes oder die aufeinanderfolgenden Teilbilder des
Bildes in einem Film, die Bildelemente identifizieren, die bei der
Untersuchung eines einzelnen Teilbildes nicht offensichtlich sind.
Falls z. B. zwei ansonsten ähnliche
Bilder mit keiner erkennbaren Struktur in irgendeinem einzelnen
Bild ein Gebiet enthalten, das in einem Bild in bezug zu seiner
Position in dem anderen verschoben ist, können die Ränder dieses Gebietes erkannt
werden, falls die zwei Bilder gleichzeitig betrachtet werden, eines
durch jedes Auge. Falls sich ähnlich
ein Gebiet aus offensichtlich zufälligen Bildpunkten kohärent über ein weiteres
derartiges Gebiet in einem Film bewegt, wird dieses Gebiet durch
einen Beobachter erkennbar sein, selbst wenn in einem einzelnen
aus der Folge genommenen Teilbild keine Form erkennbar wäre. Dieses
Phänomen
ist in der natürlichen
Welt beobachtbar – es
gibt viele Tiere, wie z. B. der Plattfisch, die eine zu ihrer Umgebung ähnliche
Färbung
besitzen und die nur erkennbar sind, wenn sie sich bewegen.
-
Der Komponentenextraktionsprozeß identifiziert
die Ränder
der Hauptelemente sowohl des ursprünglichen als auch des verschlech terten
Signals. Die Wichtigkeit für
die Wahrnehmung von jedem Rand hängt
von einer Anzahl von Faktoren ab, wie z. B. seiner Art (Kante, Farbe, Änderung,
Textur usw.), dem Grad des enthaltenen Kontrasts und seinem Kontext.
In dieser letzteren Kategorie wird eine Hochfrequenzkomponente im
gefilterten und maskierten Signal erkennen lassen, daß es eine
große
Anzahl einzelner Kanten gibt, die in diesem Gebiet des Bildes vorhanden
sind. Dies wird die Signifikanz jeder einzelnen Kante verringern – vergleiche 5, die wenige derartige
Kanten besitzt, mit 7,
die viel mehr derartige Kanten besitzt.
-
Jeder im Schritt 31 des
Aufspaltens der Komponenten ausgeführte einzelne Extraktionsprozeß leistet
dies typischerweise allein relativ schlecht, da sie alle dazu neigen,
falsche Ränder
zu erzeugen, und scheitern, andere zu erfassen. Die Kombination verschiedener
Prozesse vergrößert jedoch
die Qualität
des Ergebnisses, ein sichtbarer Gegenstand ist oft durch viele wahrnehmbare
Ränder
definiert, wie durch Scassellati, B. M., in "High-level perceptual contours from
a variety of low-level physical features", (Diplomarbeit, Massachusetts Institute
of Technology, Mai 1995) erörtert
ist. Aus diesem Grund vergleicht der Vergleichsprozeß 33 alle
Ränder
miteinander, ungeachtet, wie sie definiert sind, mit Ausnahme, soweit
wie dies ihre Signifikanz für
die Wahrnehmung beeinflußt,
um ein einzelnes zusammengesetztes Ausgangssignal 38 zu
erzeugen.
-
Die Ergebnisse 32, 32d der
Komponentenanalyse 31 werden zu einem Vergleichsprozeß 33 geleitet,
in dem die in jedem Signal identifizierten Ränder der Komponenten verglichen
werden. Durch das Vergleichen der Relevanz für die Wahrnehmung aller Randtypen
im Bild kann das Maß der
Gesamtsignifikanz für
die Wahrnehmung der Verschlechterung eines Signals bestimmt werden
und als ein Ausgangssignal 38 bereitgestellt werden. Die
Signifikanz für
die Wahrnehmung von Fehlern in einem verschlechterten Signal hängt von
dem Kontext ab, in dem sie auftreten. Die Dämpfung oder die Verstärkung einer
diagonalen Linie (Kante) in 7 würde z. B.
wenig Wirkung auf die Wahrnehmung des Bildes durch den Betrachter
besitzen, der gleiche Fehler würde
aber, falls er auf 5 angewendet
wird, eine viel größere Signifikanz
besitzen. Ähnlich
würden
zufällige
dunkle Flecken eine viel größere Wirkung
auf die Lesbarkeit von 6 besitzen,
als sie in 4 besitzen
würden.
-
Ausführlich besteht der Vergleichsprozeß 33 aus
einer Anzahl einzelner Elemente. Das erste Element identifiziert
die genaueste Übereinstimmung zwischen
den Anordnungen der Ränder
in den zwei Bildern (34), wobei er dieses verwendet, um
eine Totalumsetzung des einen Bildes in bezog auf das andere (35)
auszuführen,
so daß sich
diese Ränder
entsprechen.
-
Der nächste Prozeß 36 identifiziert
die Merkmale, für
die das menschliche kognitive System am empfindlichsten ist, wobei
für derartige
Merkmale Gewichtungsfaktoren W erzeugt werden. Es ist z. B. möglich, die
kognitive Relevanz der kritischen Bildelemente zu gewichten, wie
z. B. diejenigen, die für
visuelle Sprachhinweise verantwortlich sind, da bekannt ist, daß bestimmte
Gesichtsmerkmale hauptsächlich
für die
visuellen Sprachhinweise verantwortlich sind. Siehe z. B. Rosenblum,
L. D., u. Saldaña,
H. M., (1996), "An
audiovisual test of kinematic primitives for visual speech perception", (Journal of Experimental
Psychology: Human Perception and Performance, Bd. 22, S. 318–331) und
Jordan, T. R., u. Thomas, S. M., (1998), "Anatomically guided construction of
point-light facial images",
(Technical report, Human Perception and Communication Research Group,
University of Nottingham, Nottingham, U.K.).
-
Es kann gefolgert werden, daß ein Gesicht unter
Verwendung der Mustererkennung oder kraft der Art des Dienstes,
der das Bild liefert, dargestellt wird.
-
Die Signifikanz für die Wahrnehmung jedes Randes
in einem Bild wird dann mit dem entsprechenden Rand (falls es einen
gibt) in dem anderen (37) verglichen, wobei ein Ausgangssignal 38 entsprechend
dem Grad der Differenz in der derartigen Signifikanz für die Wahrnehmung
und den vorausgehend bestimmten Gewichten W erzeugt wird. Es sollte
angemerkt werden, daß die
Differenzen, wie der Rand definiert ist (harte Kante, Farbdifferenz
usw.) nicht notwendigerweise die Signifikanz für die Wahrnehmung des Randes
beeinflussen, deshalb werden alle Ränder, wie sie auch definiert
sind, miteinander verglichen. Weil das Vorhandensein eines falschen Randes
für die
Wahrnehmung so signifikant wie das Fehlen eines echten Randes sein
kann, wird außerdem
die absolute Differenz in der Wahrnehmbarkeit bestimmt.
-
Es wird angemerkt, daß die Verschlechterung
des Signals verursacht haben kann, daß ein Rand, der z. B. durch
eine Kante definiert ist, verschwindet, der Rand kann aber infolge
irgendeines anderen Unterschieds, wie z. B. der Farbe, Luminanz oder
Textur, immer noch erkennbar sein. Das durch etablierte Modelle
(gefiltertes und maskiertes Rauschen) erzeugte Fehlerbild schafft
eine Anzeige der sichtbaren Verschlechterung des Bildes. Der Vergleichsprozeß 37 enthält ein Maß des Ausmaßes, in dem
wesentlicher Inhalt aufrechterhalten wird, wobei er ein verbessertes
Maß der
Verständigkeit
des Bildes bietet. Beim Vergleichen der Grenzen (Schritt 37) kann
die Signifikanz für
die Wahrnehmung eines gegebenen Randes von seiner Art abhängen. Ein
Rand zwischen verschiedenen Texturen kann weniger gut definiert
sein als ein durch eine Kante definierter Rand, wobei eine derartige
verringerte Wahrnehmbarkeit des Randes bei der Erzeugung des Ausgangssignals
berücksichtigt
wird.
-
Dieser Prozeß ist für einen großen Bereich der Anwendungen
für die
Beurteilung der Videoqualität
geeignet, in dem die Identifikation und der Vergleich der wahrnehmbaren
Ränder
notwendig ist. Ein gutes Beispiel ist durch Systeme mit sehr niedriger Bandbreite
gegeben, in denen ein Gesicht algorithmisch rekonstruiert wird.
Es wäre
für viele
der obengenannten bekannten visuellen Modelle unmöglich, dies
geeignet zu beurteilen. Der Vergleich der wahrnehmbaren Grenzen
ermöglicht
außerdem
die Beurteilung der synthetischen Darstellungen von Bildern, wie
z. B. einem animierten sprechenden Gesicht, in dem die Merkmale
des Bildes, die die anschließende kognitive
Interpretation als ein Gesicht unterstützen, von wesentlicher Wichtigkeit
sind.