DE69801165T2 - Signalverarbeitung - Google Patents
SignalverarbeitungInfo
- Publication number
- DE69801165T2 DE69801165T2 DE69801165T DE69801165T DE69801165T2 DE 69801165 T2 DE69801165 T2 DE 69801165T2 DE 69801165 T DE69801165 T DE 69801165T DE 69801165 T DE69801165 T DE 69801165T DE 69801165 T2 DE69801165 T2 DE 69801165T2
- Authority
- DE
- Germany
- Prior art keywords
- user data
- level user
- image
- stimulus
- high level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000012545 processing Methods 0.000 title claims description 11
- 238000000034 method Methods 0.000 claims description 23
- 238000012360 testing method Methods 0.000 claims description 14
- 238000004891 communication Methods 0.000 claims description 13
- 230000000694 effects Effects 0.000 claims description 12
- 230000005540 biological transmission Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 3
- 230000008447 perception Effects 0.000 description 20
- 230000006870 function Effects 0.000 description 18
- 230000000007 visual effect Effects 0.000 description 16
- GHIVDTCFLFLOBV-UHFFFAOYSA-N 2-(diethylamino)ethyl 2-acetyloxybenzoate Chemical compound CCN(CC)CCOC(=O)C1=CC=CC=C1OC(C)=O GHIVDTCFLFLOBV-UHFFFAOYSA-N 0.000 description 7
- 230000001953 sensory effect Effects 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000001149 cognitive effect Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- 230000016776 visual perception Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000004438 eyesight Effects 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000010998 test method Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 210000001508 eye Anatomy 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
- 230000021317 sensory perception Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Description
- Die Erfindung betrifft die Signalverarbeitung. Sie wird beim Testen von Kommunikationssystemen und Kommunikationsinstallationen und für andere Anwendungen verwendet, wie im folgenden beschrieben ist. Der Begriff "Kommunikationssystem" umfaßt Telephon- oder Fernsehnetze sowie Ausrüstung, Rundrufanlagen, Computerschnittstellen und dergleichen.
- Es ist wünschenswert, zielgerichtete, wiederholbare Leistungsmaße zu verwenden, um die Akzeptanz der Leistung der Design-, Inbetriebnahme- und Überwachungsstufen beim Vorsehen von Kommunikationsdiensten einzuschätzen. Die subjektive Audio- und Videoqualität nimmt jedoch für die Feststellung der Zufriedenheit des Kunden mit Produkten und Service eine zentrale Stellung ein, weshalb daher die Messung dieses Aspektes der Leistung des Systems eine wichtige Rolle spielt. Die Komplexität moderner Kommunikations- und Rundfunksysteme, die auch Datenverdichtung beinhalten können, führt dazu, daß die herkömmlichen Konstruktionsmaßstäbe für die zuverlässige Vorhersage einer wahrgenommenen Leistung inadequat sind. Es kann eine subjektive Prüfung angewendet werden, die aber kosten- und zeitaufwendig ist und die oft für eine Anwendung am Einsatzort unpraktisch ist. Eine objektive Einschätzung der erhaltenen (subjektiven) Leistung komplexer Systeme ist durch die Entwicklung einer neuen Generation von Meßtechniken ermöglicht worden, die die Eigenschaften der menschlichen Sinne berücksichtigen. So kann zum Beispiel eine schwache Signal-/Rauschleistung von einer hörbaren Verzerrung oder von einer nichthörbaren Verzerrung stammen. Ein Modell der beim Hören auftretenden Maskierung ist befähigt, zwischen diesen beiden Fällen zu unterscheiden.
- Die Verwendung von Modellen der menschlichen Sinnesorgane, um die subjektive Leistung besser zu verstehen, ist als "perceptual modelling" (Wahrnehmungsmodellieren) bekannt.
- Die vorliegende Anmeldung greift auf eine Reihe früherer Anwendungen des gleichen Anmelders zurück, die sich auf Wahrnehmungsmodelle und auf für nicht-lineare Sprachsysteme geeignete Testsignale beziehen:
- - WO 94/00922 Speech-like test-stimulus and perception-based analysis to predict subjective performance,
- - WO 95/01011 Improved artificial-speech test-stimulus,
- - WO 95/15035 Improved perception-based analysis with algorithmic interpretation of audible error subjectivity.
- Um die subjektive Relevanz von Fehlern in Tonsystemen, und insbesondere in Sprachsystemen, zu bestimmen, wurden Beurteilungsalgorithmen entwickelt, die auf Modellen des menschlichen Gehörs beruhen. Die Vorhersage hörbarer Unterschiede zwischen einem schlechten Signal und einem Bezugssignal kann man sich als sensorische Schicht einer Wahrnehmungsanalyse denken, wohingegen man sich die nachfolgende Kategorisierung hörbarer Fehler als Wahrnehmungsschicht denken kann. Modelle für die Beurteilung einer Tonfrequenz hoher Qualität, wie beispielsweise von Paillard, B., Mabilleau, P., Morissette, S. und Soumagne, J. in "PERCEVAL: Perceptual Evaluation of the Quality of Audio Systems", J. Audio Eng. Soc., Bd. 40, N. 1/2, Jan./Febr. 1992, beschrieben, haben nur auf die Vorhersage der Wahrscheinlichkeit der Erfassung hörbarer Fehler abgezielt, da jeder hörbare Fehler als nicht akzeptabel angesehen wird, während frühe Sprachmodelle, beispielsweise die folgenden, darauf abzielten, das Vorhandensein hörbarer Fehler vorherzusagen, um dann einfache Abstands- Maßnahmen zu verwenden, um die subjektive Bedeutung der Fehler zu kategorisieren:
- Hollier, M. P., Hawksford, M. O., Guard, D. R., "Characterisation of Communications Systems Using a Speech-Like Test Stimulus", J. Audio Eng. Soc., Bd. 41, Nr. 12, Dezember 1993,
- Beerends, J., Stemerdink, J., "A Perceptual Audo Quality Measure Based on a Psychoacoustic Sound Representation", J. Audio Eng. Soc., Bd. 40, Nr. 12, Dezember 1992,
- Wang, S., Sekey A., Gersho, A., "An Objective Measure for Predicting Subjective Quality of Speech Coders", IEEE J. on Selected Areas in Communications, Bd. 10, Nr. 5, Juni 1992.
- In Hollier, M. P., Hawksford, M. O., Guard, D. R., "Error-activity and error entropy as a measure of psychoacoustic significance in the perceptual domain", IEEE Proc.-Vis. Image Signal Process., Bd. 141, Nr. 3, Juni 1994, ist gezeigt worden, daß eine feinere Beschreibung des hörbaren Fehlers eine bessere Korrelation mit der subjektiven Leistung angibt. Insbesondere wurde gezeigt, daß die Fehlergröße, die Fehlerverteilung und die Korrelation des Fehlers mit dem ursprünglichen Signal eine bessere Vorhersage der Fehlersubjektivität bieten.
- Fig. 1 zeigt ein hypothetisches Fragment einer Fehleroberfläche. Die zur Vorhersage der Subjektivität dieses Fehlers verwendeten Fehlerdeskriptoren sind notwendigerweise mehrdimensional: mit einer einfachen einzigen Dimension läßt sich keine bildliche Vorstellung zwischen Fehleroberfläche und entsprechender subjektiver Meinung erzielen. Die Fehlerdeskriptoren, Ed, haben die folgende Form:
- Ed1 = fn&sub1;{e(i,j)},
- wobei bedeutet:
- fn&sub1; eine Funktion der Fehleroberflächen-Elementwerte für den Deskriptor 1. So ist z. B. der Fehlerdeskriptor für die Verteilung des Fehlers, die Fehlerentropy (Ee), von Hollier et al. in dem Artikel aus dem Jahre 1994 vorgeschlagen, durch
- Ee = a(i,j)lna(i,j)
- angegeben worden, wobei bedeutet:
- a(i,j) = e(i,j) /Ea und
- Ee = die Summe von e(i,j) , bezogen auf Zeit und Pitch.
- Meinungsvorhersage = fn&sub2;{Ed1, Ed2, ..., Edn},
- wobei bedeutet:
- fn&sub2; die Abbildungsfunktion zwischen dem Fehler n des Deskriptors und der Meinungsskala, die von Interesse ist.
- Es wurde gezeigt, daß eine vernünftige Auswahl von Fehlerdeskriptoren einer Reihe verschiedener subjektiver Meinungsskalen gegenübergestellt werden kann (Hollier, M. P., Sheppard, P. J., "Objective speech quality assessment: towards an engineering metric", vorgelegt bei der 100th AES Convention in Copenhagen, Preprint Nr. 4242, Mai 1996). Das ist ein wichtiges Ergebnis, da die Fehlerdeskriptoren auf verschiedene Meinungsskalen bezogen abgebildet werden können, die von unterschiedlichen Aspekten von Fehlersubjektivität beherrscht werden. Zusammen mit unter Laborbedingungen gewonnenen Erfahrungen dient dieses Ergebnis als Anzeichen, daß es möglich ist, einen Satz von Fehlerdeskriptoren so zu gewichten, daß er einen Bereich von Fehlersubjektivität beschreibt, da für Meinungsskalen über Qualität und Einsatz verschiedene Fehlermerkmale dominant sind. Der generelle Schritt einer Aufteilung der Modellarchitektur in sensorische und Wahrnehmungsschichten und der Erzeugung von Fehlerdeskriptoren, die gegenüber verschiedenen Aspekten von Fehlersubjektivität empfindlich sind, wird durch diese Ergebnisse bestätigt.
- Ebenfalls wird gerade eine Reihe von visuellen Wahrnehmungsmodellen entwickelt, einige von ihnen sind in der Literatur beschrieben. So schlagen z. B. Watson, A. B. und Solomon, J. A. "Contrast gain control models fits masking data", ARVO., 1995 vor, die Gabor-Funktionen zu verwenden, um die Inhibitions- und Anregungseinflüsse der Orientierung zwischen Maskierung und Maskiertem zu erklären. Ran, X. und Farvadin, N., "A perceptually motivated three-component imgage model, Part I: Description of the model", IEEE transactions on image processing, Bd. 4, Nr. 4, April 1995, verwenden eine einfache Bildzerlegung in Kanten, Oberflächenbeschaffenheit und Hintergrund. Den meisten der publizierten Algorithmen gelingt es jedoch nur, einzelne Aspekte des Modellverhaltens zu optimieren; Watson & Solomon geben ein gutes Maskierungsmodell an, und Ran & Farvadin eine erste Näherung an eine Beschreibung der subjektiven Bedeutung von Fehlern.
- Ein Schritt, ähnlich dem des oben beschriebenen hörbaren Wahrnehmungsmodells, wurde vom Anmelder der vorliegenden Erfindung für ein visuelles Wahrnehmungsmodell angewendet. Eine sensorische Schicht reproduziert die grundlegenden sensorischen Mechanismen:
- i) die Raum-Zeit-Empfindlichkeit, bekannt als "Sichtfilter des Menschen" und
- ii) das Maskieren infolge der Raumfrequenz, der Orientierung und der Zeitfrequenz.
- Nach der sensorischen Schicht wird das Bild zerlegt, um durch die Wahrnehmungsschicht eine Berechnung der Fehlersubjektivität in Übereinstimmung mit der Bedeutung der Fehler relativ zu den Strukturen innerhalb des Bildes zu ermöglichen, wie im folgenden unter Bezug auf Fig. 2 beschrieben ist. Der obere Teil von Fig. 2 zeigt ein Bild, das zu zerlegen ist, und der untere Teil zeigt das zerlegte Bild für eine Vorhersage der Fehlersubjektivität. Wenn der sichtbare Fehler mit einem kritischen Merkmal des Bildes, z. B. mit einer Kante, zusammenfällt, ist dieses eher subjektiv störend. Die grundlegenden Bildelemente, die es einem menschlichen Beobachter ermöglichen, den Bildinhalt wahrzunehmen, kann man sich als einen Satz abstrakter Grenzen denken. Diese Grenzen können aus Farbunterschieden, Änderungen der Oberflächenbeschaffenheit, einer Bewegung und aus Kanten bestehen, und sie sind im zerlegten Bild gekennzeichnet. Sogar einige Gestalt-Effekte, die eine Grenze wahrnehmbar machen, können algorithmisch vorhergesagt werden, um eine geeignete Gewichtung zu ermöglichen. Solche Gestalt-Effekte sind in Gordon I. E., "Theories of Visual Perception, John Wiley and Sons, 1989, beschrieben. Diese Grenzen sind erforderlich, um den Bildinhalt wahrzunehmen, und deshalb sind sichtbare Fehler, die diese Grenzen verwischen, von größerer subjektiver Bedeutung als solche, die bei denen das nicht der Fall ist. Hier ist es wichtig, anzumerken, daß eine Verwischung dieser Grenzen im Hinblick auf die Wahrnehmung bedeutend ist, ohne daß angegeben wird, welcher der hohe kognitive Inhalt des Bildes sein könnte. So wird beispielsweise die Verwischung einer Grenze subjektiv von Bedeutung sein, unabhängig davon, was das Bild darstellt. Das Ausgangssignal der Wahrnehmungsschicht ist ein Satz kontextempfindlicher Fehlerdeskriptoren, die unterschiedlich gewichtet werden können und verschiedene Meinungskriterien abbilden.
- Um ein Multimedia-System zu beurteilen, ist es erforderlich, die Ausgangssignale jedes sensorischen Modells zu kombinieren und die Interaktionen zwischen den Sinnen zu erläutern. Es ist möglich, bekannte Beispiele einer intersensorischen Abhängigkeit anzugeben. Diese sind als Ausgangspunkt einer Diskussion geeignet, trotz der komplizierten Beispiele, die dann bald auftauchen werden. Es sind bereits strenge Regeln für die Multisensorik bekannt und von den Lieferanten für Inhalte, insbesondere von Filmemachern, angewendet worden. Konsistente Audio-/Videotrajektorien zwischen Sceneschnitten und der konstruktive Nutzen kombinierter Audio-/Video-Hinweise sind Beispiele dafür. Der Einsatz dieses Typs multi-modaler Verbindung für die Konstruktion einer Schnittstelle Mensch- Computer ist in May, J. und Barnard, P., "Cinematography and interface design", K. Norbdy et al., Human Computer Interaction, Interact'95 (26-31), 1995, beschrieben. Weniger bekannte Beispiele sind eine fehlerhafte Sprachwahrnehmung, wenn Audio-/Video-Hinweise fehlangepaßt sind, wie in McGurk, H. und MacDonald, J., "Hearing lips and seeing voices", Nature, 264 (510-518), 1976, beschrieben, sowie die Modifizierung von Fehlersubjektivität mit den Folgeeffekten in der anderen Ausführungsart, beispielsweise in O'Leary, A. und Rhodes, G., "Cross-modal effects on visual and auditory perception", Perception and psychophysics, 35 (565-569), 1984.
- Die Interaktion zwischen den Sinnen kann sehr komplex sein und die Bedeutung von Übertragungsfehlern sowie die Wahl der Bandbreitennutzung für Multimedia-Dienste und für eine "Telepräsenz" sind daher nicht leicht zu bestimmen. Diese Schwierigkeit beleuchtet die Notwendigkeit für ein objektives Messen der wahrgenommenen Leistung von Multimedia-Systemen. Glücklicherweise ist es nicht erforderlich, für eine Produktion nützlicher Entwicklungswerkzeuge ein Modell der gesamten menschlichen Wahrnehmung und des Denkens zu schaffen, sondern lediglich, die groben fundamentalen intersensorischen Abhängigkeiten (auf einem niedrigen Niveau) festzulegen und zu modellieren.
- Fig. 3 ist eine schematische Darstellung eines sensorischen Wahrnehmungsmodells nach dem Stand der Technik, das die groben modalen Abhängigkeiten und den Einfluß durch die Aufgabe zeigt. Die Hauptkomponenten, die im folgenden im Einzelnen unter Bezug auf Fig. 4 beschrieben sind, sind die folgenden:
- - sensorische Modelle des Hörens und Sehens 10, 20,
- - Kreuzmodulations-Modell 30,
- - scene-spezifisches Aufgabenmodell 40.
- Gegenwärtig sind Wahrnehmungsmodelle nur bezogen auf die Eigenschaften ihrer Audio- und/oder Videoeingangssignale betrieben worden, die durch Signal- Analysetechniken, wie beispielsweise
- - Spektralanalyse,
- - Energie-/Zeit-Messungen und
- - eine mathematische Transformation über lineare und nicht-lineare Funktionen
- bestimmt werden können.
- Solche Modelle können "Implikations"-Modelle genannt werden, da sie nur mit Informationen operieren, die vom Signal abgeleitet werden können und die nicht die Befähigung zur Bestimmung oder zur Prüfung von Aussagen in der Art und Weise besitzen, über die ein Mensch verfügt, der die Leistung von Systemen bei der Behandlung dieser Signale sowie die Art der Signale selbst beurteilt.
- Ein Problem mit im Stand der Technik beschriebenen Wahrnehmungsmodellen besteht darin, daß sie "Implikations"-Modelle sind, d. h. sie beziehen sich auf Merkmale, die von den Audio- und Videosignalen selbst abgeleitet werden können. Typischerweise sind sie für eine bestimmte Anwendung spezifisch, wie z. B. für die Beurteilung der Qualität von Telephon-Bandbreiten-Sprache. Ist die Anwendung nicht bekannt, dann können Wahrnehmungsgewichtungen nicht vom Signal abgeleitet werden, ohne daß vorher eine Annahme über die geplante Anwendung gemacht wird. So könnte z. B. ein solches Herangehen zu auf Bereiche eines Bildes angewandten Wahrnehmungsgewichtungen führen, die wegen des Bildinhalts oder wegen Überlegungen zu seiner Aussage subjektiv nicht von Bedeutung sind. Auf die gleiche Weise können bei einem Audiosignal phonetische Fehler eher tolerierbar sein, wenn es sich bei der Übertragung um Gesang handelt, als wenn es sich hier um Sprache handeln würde, Pitchfehler hingegen können weniger tolerierbar sein.
- Vorschläge für den zukünftigen MPEG7 video signalling standard (Video- Zeichengabe-Norm) umfassen die Verwendung von Hochpegel-Anwenderdaten in Form von Deskriptoren des Inhalts, die die Videodaten begleiten, sie sind geplant, um ein intelligentes Suchen und die Indexierung zu erleichtern. Solche Inhaltsdeskriptoren können verwendet werden, um sowohl die geplante Verwendung des Signals (z. B. eine Videokonferenz oder ein Spielfilm), als auch die Natur des Bildes oder des Schalls zu identifizieren, welche durch das Signal porträtiert werden (z. B. die Gesichter von Menschen oder graphische Angaben, beispielsweise Texte).
- Gemäß der vorliegenden Erfindung ist ein Verfahren zum Testen von Kommunikationsausrüstung angegeben, wie in Anspruch 1 ausgeführt ist.
- Gemäß einem weiteren Aspekt der vorliegenden Erfindung ist eine Vorrichtung zum Testen von Kommunikationsausrüstung angegeben, wie in Anspruch 11 ausgeführt ist.
- Das Verfahren der vorliegenden Erfindung, das (kognitives) Wissen über einen Inhalt auf einem hohen Niveau anwendet, wird in der folgenden Beschreibung als "Aussage"-Modell bezeichnet. Bei der verwendeten Hochpegel- Anwenderinformation kann es sich um Inhaltsdeskriptoren, wie oben beschrieben, oder um lokal gespeicherte Information handeln.
- Bei einer Anwendung der Erfindung kann die Information in einem Verfahren zum Testen von Kommunikationsausrüstung verwendet werden, wobei sich die Hochpegel-Anwenderdaten auf die Natur des erhaltenen Signals beziehen, und das Verfahren umfaßt:
- die Erfassung von Verzerrungen in einem von der sich im Test befindlichen Kommunikationsausrüstung erhaltenen Eingangstimulus,
- die Bestimmung des Ausmaßes, bis zu dem die Verzerrung für einen menschlichen Beobachter wahrnehmbar wäre, und
- die Erzeugung eines Ausgangssignals, das gemäß den Verzerrungen die subjektive Wirkung der Verzerrungen anzeigt und gemäß den Hochpegel-Anwenderdaten gewichtet. Der verzerrte Eingangsstimulus kann nach dem Gehalt an aktueller Information analysiert werden, es erfolgt ein Vergleich zwischen dem aktuellen und dem geplanten Informationsgehalt und das erzeugte Ausgangssignal zeigt das Ausmaß an Übereinstimmung zwischen dem geplanten und dem aktuellen Informationsgehalt an.
- Es ist bekannt, daß die bei Sprache auftretende Fehlersubjektivität von der bei Musik auftretenden verschieden ist. Daraus folgt, daß wenn ein Hochpegel- (Aussage) Eingangssignal anzeigt, ob es sich bei dem angetroffenen Audiosignal um Sprache oder Musik handelt, das Verhalten des Wahrnehmungsmodells entsprechend angepaßt werden könnte. Diese Unterscheidung könnte noch weiter in verschiedene Typen von Musiksignalen und Niveaus der Servicequalität aufgeteilt werden. So ist eine Synchronisation zwischen Bild und Ton, beispielsweise für eine Videoübertragung eines Konzertes, wichtiger, die die Ausführenden zeigt, als es für eine Übertragung ist, bei der die Musik lediglich als Hintergrund für die Handlung auf einem Videobild dient.
- Auf ähnliche Weise benötigt in einem Videobild die graphische Information, beispielsweise ein Text, akkurat reproduzierte kleine Merkmale, so daß die einzelnen Buchstaben des Textes erkannt werden können, das aber erfordert wenig Mitlaufbewegung, da das Textbild wahrscheinlich stationär ist oder sich nur relativ langsam bewegt. Für ein sich schnell bewegendes Bild ist die relative Bedeutung dieser Charakteristika eine andere.
- Die Systeme vom Stand der Technik, die für einen speziellen Eingangssignaltyp, beispielsweise für Sprache, optimiert wurden, sind für andere Typen, beispielsweise für Musik, nicht optimal und es ist ihnen nicht möglich, ihre Wahrnehmungsantwort gemäß der Art des zu analysierenden Eingangssignals zu variieren. Die Erfindung hingegen ermöglicht es, verschiedene Gewichtungen gemäß der Art des empfangenen Signals auszuwählen.
- Die Hochpegel-Information kann auch für andere Zwecke als nur für das Messen der wahrgenommenen Signalqualität verwendet werden. So existieren beispielsweise Codierer/Decodierer (Codecs), die auf die Verarbeitung unterschiedlicher Typen von Daten spezialisiert sind. Ein Codierer/Decodierer, der für das Bewegen von Bildern geeignet ist, kann seine Bildqualität für eine Ansprechzeit zu opfern gezwungen sein, und in der Tat ist eine perfekte Definition in einem Übergangsbild nicht vonnöten, wohingegen für ein präzise definiertes Graphiksystem eine sehr hohe Genauigkeit erforderlich ist, obwohl zur Erzeugung des Bildes ein vergleichsweise langer Zeitraum benötigt wird. Wenn die Hochpegel- Information für die Art der zu übertragenden Daten verwendet wird, kann für diese Daten an jedem Interimspunkt der Übertragung ein geeigneter Codierer/Decodierer ausgewählt werden, so z. B. dort, wo eine Übertragung einer großen Bandbreite über eine Schmalbandverbindung einzuspeisen ist.
- Die Erfindung hat mehrere potentielle Anwendungen. So kann zum Beispiel der Betrieb eines Codierers/Decodierers auf die Art der Signale angepaßt werden, die verarbeitet werden müssen. Beispielsweise wird zwischen der Geschwindigkeit und der Genauigkeit in jedem Codierungprogramm abgewägt, und Echtzeitsignale (z. B. Sprache) oder Videosignale, die eine Bewegung erfordern, können aus der Verwendung eines bestimmten Codierers/Decodierers gewinnen, während ein anderer Codierer/Decodierer geeignet sein kann, wenn bekannt ist, daß es sich bei dem Signal um Text handelt, wo es mehr auf Genauigkeit als auf Geschwindigkeit ankommt.
- Die Erfindung kann auch zur Verbesserung der Fehlererfassung verwendet werden, indem das Verfahren Ergebnisse produzieren kann, die näher an der subjektiven menschlichen Wahrnehmung der Qualität eines Signals sind. Diese Wahrnehmungen sind in gewissem Maße von der Art der Information im Signal selbst abhängig. Das Aussage-Modell kann mit Hochpegel-Information ausgestattet werden, die anzeigt, daß ein geplanter (unverzerrter) Eingangsstimulus verschiedene Eigenschaften aufweist. So können sich die Hochpegel-Anwenderdaten zum Beispiel auf den geplanten Informationsgehalt des Eingangsstimulus beziehen, und der verzerrte Eingangsstimulus kann auf den aktuellen Informationsgehalt analysiert werden, und es erfolgt ein Vergleich zwischen dem aktuellen und dem geplanten Informationsgehalt, und das erzeugte Ausgangssignal zeigt das Ausmaß der Übereinstimmung zwischen dem aktuellen und dem geplanten Informationsgehalt an.
- Die Hochpegel-Anwenderdaten, die sich auf den Informationsgehalt des Stimulus beziehen, können für eine Verarbeitung durch das Empfangsende mit dem Eingangsstimulus übertragen werden. Der Empfänger kann stattdessen die Hochpegel-Anwenderdaten von einem Datenspeicher am Testpunkt zurückgewinnen. Beide Verfahren können zusammen angewendet werden, um beispielsweise eine codierte Nachricht zu übertragen, wobei der Eingangsstimulus anzeigt, welche der Hochpegel-Anwenderdaten aus einem Satz von gespeicherten Daten zu gewinnen sind. So können zum Beispiel die übertragenen Hochpegel- Anwenderdaten Informationen enthalten, die sich im Vergleich mit gespeicherten Daten auf ein darzustellendes Bild beziehen, die Merkmalscharakteristika derartiger Bilder definieren. Unter bestimmten Umständen kann das System so konfiguriert sein, daß es nur einen vorgegebenen Satz von Bildern darstellt, z. B. den Satz einer virtuellen Welt. In diesem Fall kann das verzerrte Bild, das im erhaltenen Signal dargestellt ist, durch das Bild vom vorgegebenen Satz ersetzt werden, das ihm fast gleich ist.
- Die Eingangsstimuli können Audio-, Video, Text-, Graphik- oder andere Informationen enthalten, und die Hochpegel-Anwenderdaten können verwendet werden, um die Verarbeitung beliebiger Stimuli oder einer beliebigen Kombination derselben zu beeinflussen.
- In der einfachsten Form kann die Hochpegel-Information nur die Art der zu erfolgenden Übertragung spezifizieren, ob z. B. ein Audiosignal Sprache oder Musik enthält. Sprache und Musik machen unterschiedliche wahrnehmungsmäßige Qualitätsmaße erforderlich. Verzerrung in einem Sprachsignal kann durch ein Vorhandensein von Tönen erfaßt werden, die unmöglich von einer menschlichen Stimme stammen können, derartige Töne können aber in der Musik vorhanden sein, weshalb unterschiedliche Qualitätsmaße erforderlich sind. Darüber hinaus ist die Tonfrequenzbandbreite, die für ein getreue Wiedergabe von Musik erforderlich ist, wesentlich größer als die für Sprache, daher ist eine Verzerrung außerhalb des Sprachbandes von wesentlich größerer Bedeutung bei Musikübertragungen als es bei Sprache der Fall ist.
- Auch die Subjektivität von Fehlern ist für Sprache und Musik verschieden, das gilt auch für die unterschiedlichen Sprachfunktionstypen oder Musiktypen. Die relative Bedeutung von Ton und Bild kann für die wahrgenommene Gesamtqualität wichtig sein. Die Videoübertragung eines Konzerts erfordert eine bessere Schallqualität als beispielsweise eine Übertragung, in der Musik lediglich als Hintergrundklang verwendet wird, und deshalb könnte eine Hochpegel- Information, die sich auf die Art der Übertragung bezieht, verwendet werden, um der Tonkomponente des Gesamtqualitätsmaßes mehr oder weniger Gewicht zu geben. Die Synchronisation von Ton und Bild kann bei einigen Übertragungen eine größere Bedeutung als bei anderen haben. Unter gewissen Umständen, z. B. unter Wasser, kann die relative Bedeutung vom Raumeffekten (d. h. die wahrgenommene Richtung der Schallquelle), größer sein als die Wiedergabetreue des Schalls selbst, als das unter anderen Umständen der Fall ist, wie wenn beispielsweise nur der Ton verwendet wird.
- Bei einer Telekonferenz, bei der jeder der Teilnehmer die Videobilder der anderen Teilnehmer sieht, kann der Ton im allgemeinen von größerer Wichtigkeit als das Bild sein, das kann sich aber im Verlauf der Konferenz ändern, wenn beispielsweise ein Dokument oder ein anderes Videobild (z. B. eine graphische Darstellung auf weißem Papier) von den Teilnehmern gelesen werden soll. Der Wechsel von einem Bildtyp zu einem anderen könnte durch die Übertragung von Hochpegel-Anwenderdaten signalisiert werden, die sich auf den Bildtypus beziehen, der gegenwärtig erzeugt wird.
- Die Hochpegel-Information kann detaillierter sein. Die Wahrnehmungsmodelle können befähigt sein, die Erstellung und Prüfung von Vorhaben bzw. Aussagen zu nutzen, indem die Inhaltsdeskriptoren verwendet werden, die für den zukünftigen MPEG7-Standard vorgeschlagen wurden. Sie kann z. B. anzeigen, daß ein Eingangsbild ein menschliches Gesicht ist, was implizit erfordert, daß in Bezug auf die erwarteten Elemente eines solchen Objektes generalisierende Daten aus einem lokalen Speichermedium gewonnen wurden, z. B. die Anzahl, die relativen Stellungen und die relativen Größen von Gesichtsmerkmalen, eine geeignete Farbgebung etc.. Daher, wenn Informationen über das Vorhaben angegeben wurden, daß das Eingangsbild ein Gesicht ist, würde ein vorwiegend grünes Bild als Fehler angesehen werden, auch wenn das Bild scharf und stabil ist, so daß die Systeme vom Stand der Technik (die keine Informationen über die Art des Bildes haben und die auch nicht über Mittel zur Verarbeitung einer solchen Information verfügen) keine Fehler entdecken würden.
- Darüber hinaus würde die Information anzeigen, welche Bereiche des Bildes (z. B. die Augen und der Mund) wahrscheinlich von größter Bedeutung für die Fehlerwahrnehmung sind. Ferner kann die Fehlersubjektivität so berechnet werden, daß sie die Tatsache berücksichtigt, daß gewisse Muster, wie z. B. die Anordnung der Merkmale, die ein Gesicht ausmachen, für einen menschlichen Beobachter leicht zu erkennen sind, und daß der Wahrnehmungsprozeß bei einem Menschen in einer besonderen Weise auf der Grundlage solcher Muster operiert.
- Die Aussage-(Hochpegel)Information kann auf jede beliebige Weise spezifiziert werden, vorausgesetzt ist, daß das Verarbeitungselement die Daten verarbeiten kann. So können beispielsweise die Daten selbst die wesentlichen Elemente angeben, z. B. eine Tabelle, die eine spezifizierte Anzahl von Spalten aufweist, so daß, wenn der Eingangsstimulus aktuell ein Bild mit Spalten darstellt, die von der angegebenen Anzahl verschieden sind, ein Fehler erfaßt würde. Hier ist wiederum anzumerken, daß dann, wenn das Bild scharf wäre und keine Farbabweichungen etc. aufwiese, das System vom Stand der Technik keine subjektiv bedeutsamen Fehler erfassen würde. Das erfindungsgemäße System kann besonders von Nutzen sein, wenn die empfangenen Signale sich auf eine "virtuelle Umgebung" beziehen, innerhalb derer ein bekannter begrenzter Bereich von Objekten und Eigenschaften existieren kann. In solchen Fällen können die Daten, die sich auf die dargestellten Objekte beziehen, sehr spezifisch sein. Es kann in solchen Fällen ebenfalls möglich sein, die Bilder zu reparieren, indem ein Eingangsbildobjekt (das bei der Übertragung verdorben wurde), bei dem es sich nicht um ein Objekt aus dem Bereich der erlaubten Objekte handelt, durch das erlaubte Objekt ersetzt wird, das dem Eingangsbildobjekt am ähnlichsten ist.
- Die Vorhaben bzw. Aussagen, die in virtuellen Umgebungen getestet wurden, können von denen für eine natürliche Umgebung zweckmäßigen verschieden sein. In einer natürlichen physischen Umgebung würde eine normale zu prüfende Aussage sein, daß ein sich frei im Raum befindendes Objekt fallen wird. In einer virtuellen Umwelt ist das nicht immer wahr, denn es ist möglich, und potentiell vorteilhaft, einige Objekte so zu definieren, daß sie dort bleiben wo man sie im Raum hinstellt und nicht der Schwerkraft unterworfen sind. Daher kann ein Aussage-Modell vorteilhafterweise Vorhaben bzw. Aussagen erstellen und prüfen, die sich nicht auf natürliche physische Systeme oder auf ein herkömmliches erwartetes Verhalten beziehen. Gleichermaßen kann ein Aussage-Modell vorteilhafterweise Aussage-Kenntnisse über ein Signal auf modifizierte Weise in Abhängigkeit von der zu unternehmenden Aufgabe interpretieren, oder es kann die Aussage-Information ignorieren und auf eine implizierte Operation zurückgreifen, wenn das als vorteilhaft angesehen wird.
- Eine Ausführungsform der vorliegenden Erfindung ist im folgenden im einzelnen unter Bezug auf die Figuren beschrieben, in denen zeigen:
- Fig. 1 ein Fragment einer Hörfehler-Oberfläche,
- Fig. 2 eine Bildzerlegung für eine Vorhersage der Fehlersubjektivität,
- Fig. 3 eine schematische Darstellung eines eines multisensorischen Wahrnehmungsmodells nach dem Stand der Technik, das die groben modalen Abhängigkeiten und den Einfluß durch die Aufgabe zeigt,
- Fig. 4 eine schematische Darstellung eines ähnlichen multisensorischen Wahrnehmungsmodells, das gemäß der vorliegenden Erfindung modifiziert ist.
- Die Fig. 1, 2 und 3 sind bereits kurz erwähnt worden. Ein praktisches Modell, das eine erfindungsgemäße Aussage-Eingangsinformation nutzen kann, ist im folgenden unter Bezug auf Fig. 4 beschrieben, in der die konzeptuellen Elemente der Ausführungsform illustriert sind, die in geeigneter Weise als Software dargestellt ist, die auf einem Universalcomputer läuft. Das allgemeine Layout ist ähnlich dem der Anordnung vom Stand der Technik in Fig. 3, jedoch mit weiteren Eingängen 51, 61, die mit den Stimuli des Hörens und Sehens 11 bzw. 21 verbunden sind. Diese Information kann entweder durch zusätzliche Datenkomponenten geliefert werden, die die Eingangsstimuli begleiten, z. B. gemäß den bereits erwähnten MPEG7-Vorschlägen, oder durch eine dem Kontext entsprechende Information über die Eigenschaften, die innerhalb einer virtuellen Umgebung existieren können, z. B. einer lokalen Kopie der virtuellen Welt, die in der Wahrnehmungsschicht 40 gespeichert ist. Im letzteren Fall könnte das Modell der lokalen virtuellen Welt verwendet werden, um die Plausiblität von Signal- Interaktionen innerhalb bekannter Grenzen und die Existenz von Bildstrukturen in einer Bücherei von verfügbaren Objekten zu testen.
- Die meisten der in Fig. 4 gezeigten Komponenten sind mit denen des in Fig. 3 gezeigten Systems gemeinsam, und diese werden zuerst beschrieben.
- Ein Hör-Sensorschichtmodellkomponente 10 umfaßt einen Eingang 11 für den Audiostimulus, der an ein Hör-Sensorschichtmodell 12 gegeben wird, das die Wahrnehmungsbedeutung der verschiedenen Hörbänder und Zeitelemente des Stimulus mißt und ein Ausgabesignal 16 erzeugt, das für den hörbaren Fehler als einer Funktion des Hörbandes und der Zeit repräsentativ ist. Dieser hörbare Fehler kann durch einen Vergleich des wahrnehmungsmäßig modifizierten Audiostimulus 13 mit einem Referenzsignal 14 gewonnen werden, wobei die Differenz durch eine Subtraktionseinheit 15 bestimmt wird, die ein Ausgangssignal 16 in Form einer Matrix des subjektiven Fehlers als Funktion von Hörband und Zeit liefert, die durch eine Reihe von Koeffizienten Eda1, Eda2, ..., Edan definiert sind. Alternativ dazu kann das Modell das Ausgangssignal 16 ohne Verwendung eines Referenzsignals erzeugen, z. B. gemäß dem Verfahren, das in der internationalen Patentschrift WO96/06496 beschrieben ist. Die Hörfehlermatrix kann als hörbare "Fehler" oberfläche dargestellt werden, wie in Fig. 1 gezeigt ist, in der die Koeffizienten Eda1, Eda2, ..., Edan in Bezug auf Zeit und Hörbänder angezeichnet sind.
- Ein ähnlicher Prozeß findet in Bezug auf die visuelle Sensorschichtmodellkomponente 20 statt. In diesem Zusammenhang ist jedoch ein weiterer Schritt erforderlich. Das vom visuellen Sensorschichtmodell 22 n erzeugte Bild wird in einer Bildzerlegungseinheit 27 analysiert, um Elemente zu identifizieren, in denen Fehler besonders signifikant sind, und diese werden entsprechend gewichtet, wie in der internationalen Patentschrift WO97/32428 beschrieben ist und wie bereits in der vorliegenden Beschreibung unter Bezug auf Fig. 2 diskutiert wurde. Dadurch wird eine Gewichtsfunktion für solche Elemente des Bildes angegeben, die wahrnehmungsmäßig die bedeutendsten sind. Insbesondere sind die Grenzen im Hinblick auf die Wahrnehmung wichtiger als die Fehler innerhalb des Gebildes eines Bildelements. Die im Gewichtsgenerator 28 erzeugten Gewichtsfunktionen werden dann an den Ausgang 26 in einer Berechnungseinheit 29 sichtbarer Fehler gegeben und es wird analog zu der oben beschriebenen Matrix hörbarer Fehler eine "Matrix sichtbarer Fehler" erzeugt. Die Matrix kann durch eine Reihe von Koeffizienten Edv1, Edv2, ..., Edvn definiert werden. Die Bilder selbst sind zweidimensional, so daß für ein bewegtes Bild die Matrix sichtbarer Fehler mindestens drei Dimensionen aufweist.
- Es ist anzumerken, daß die individuellen Koeffizienten in den Matrizen hörbarer Fehler und sichtbarer Fehler Vektoreigenschaften sein können.
- Im dargestellten System gibt es sowohl Audio- als auch visuelle Stimuli 11, 21 und daher gibt es auch eine Reihe von Kreuzmodulationseffekten, die die Wahrnehmungsqualität des Signals beeinträchtigen können. Die wesentlichen Effekte, die durch das Kreuzmodulations-Modell 30 zu modellieren sind, sind die Qualitätsbalance zwischen den Ausführungsarten (Sehen und Hören) und den Effekten der zeitlichen Abstimmung zwischen denselben. Solche Effekte der zeitlichen Abstimmung können die Sequentialisierung (Ereignisabfolgen in einer Ausführungsart, die die Benutzerempfindlichkeit in bezug auf Ereignisse in einer anderen Ausführungsart umfassen) und die Synchronisation sein (Korrelation zwischen Ereignissen in verschiedenen Ausführungsarten).
- Die Fehlersubjektivität hängt auch von der einbezogenen Aufgabe ab. Hohe kognitive Vorurteile in Verbindung mit der Aufgabe, die Aufmerksamkeitsteilung zwischen den Ausführungsarten, der Grad von mit der Aufgabe zusammenhängendem Stress und das Maß an Erfahrung, die der Benutzer hat, das alles hat Auswirkungen auf die subjektive Wahrnehmung der Qualität.
- Eine mathematische Struktur für das Modell kann wie folgt zusammengefaßt werden:
- Ea1, Eda2, ..., Edan sind die Hörfehler-Deskriptoren und
- Edv1, Edv2, ..., Edvn sind die Sehfehler-Deskriptoren.
- Dann ist, für eine gegebene Aufgabe
- fnaws die Gewichtsfunktion zur Berechnung der Hörfehler-Subjektivität,
- fnaws die Gewichtsfunktion zur Berechnung der Sehfehler-Subjektivität
- und fnpm die Kreuzmodulations-Kombinationsfunktion.
- Das aufgabenspezifische Leistungsmaß PM, das Ausgangssignal vom Modell 40 ist sodann:
- PM = fnpm[fnaws{Eda1, Eda2, ..., Edan}, fnvws{Edv1, Edv2, ..., Edvn}].
- Das Wahrnehmungsschichtmodell 40 kann für eine spezifische Aufgabe konfiguriert sein, oder es kann durch zusätzliche variable Eingangssignale Twa, Twv in das Modell konfigurierbar sein (Eingänge 41, 42), die die Art der zu erfüllenden Aufgabe anzeigen, wodurch die Gewichtungen in der Funktion fnpm in Übereinstimmung mit der Aufgabe variiert werden. Zum Beispiel ist für die Aufgabe einer Videokonferenz die Qualität des Audiosignals im allgemeinen wichtiger als das visuelle Signal. Wenn jedoch die Videokonferenz von einer Ansicht der einzelnen Personen, die an der Konferenz teilnehmen, zu einem Dokument schaltet, das gelesen werden soll, wird die Bedeutung der Ansicht des Bildes wichtiger, und beeinflußt das Gewicht, welches den Seh- und Hörelementen beizumessen ist.
- Alternativ dazu können die Funktionen Fnaws, fnvws selbst zu Funktionen für die Bewertung der Aufgabe werden, indem sie erlauben, daß die relative Bedeutung der individuellen Koeffizienten Eda1, Edv1 etc. gemäß der gegebenen Aufgabe variiert wird und das Leistungsmaß, PM', vorherzusagen, nämlich:
- PM' = fn'pm[fn'aws{Eda1, Eda2, ..., Edan, Twa}, fn'vws{Edv1, Edv2, ..., Edvn, Twv}].
- In Fig. 4 wird ein zusätzliches Signal, prop(A), für den (Audio- als auch visuelle Stimuli 11, 21) Audio-Stimulus 11 und/oder ein zusätzliches Signal prop(V), für den visuellen Stimulus 21 direkt an das Wahrnehmungsschichtmodell als zusätzliche Variable 51 bzw. 61 in den Leistungsmaß-Funktionen angelegt. Dieser Stimulus zeigt die Art des Schalls oder des Bildes an, auf die sich der Stimulus bezieht und kann über einen beliebigen Dateneingang, z. B. als Teil des vorgeschlagenen MPEG7-Bitstroms oder in Form einer lokalen Kopie der virtuellen Welt, die durch den Seh-Stimulus 21 dargestellt wird, codiert werden. Die modifizierte Wahrnehmungsschicht 40 der Fig. 4 vergleicht das wahrgenommene Bild mit dem, was laut der codierten Eingänge 51, 61 im erhaltenen Bild vorhanden sein sollte und erzeugt einen zusätzlichen Gewichtsfaktor, wie nahe der aktuelle Stimulus 11, 21 an den an die Wahrnehmungsschicht gelieferten Daten liegt, die als Wahrnehmungsdaten 51, 61 bestimmt sind. Die Eingänge 51, 61 werden mit der Wahrnehmungsschicht 40 verglichen, wobei die in den entsprechenden Datenbanken 52, 62 gespeichert Daten die erforderlichen Gewichtungen kennzeichnen sollen, die für die einzelne Aussage-Situation erforderlich sind.
- Wenn die Aussage-Information sich auf die Gegenstände bezieht, die genauer als verschieden in Bezug auf die Art des Stimulus (Musik, Sprache etc.,) dargestellt sind, liefern die gespeicherten Daten 52, 62 Daten über die Art der zu erwartenden Bilder, die mit den aktuellen Bildern/dem Ton im Eingangsstimulus 11, 21 verglichen werden, um eine Gewichtung zu erzeugen.
- Die Dateneingänge 52, 62 können auch Daten liefern, die für den Kontext relevant sind, in dem die Daten erhalten wurden, entweder vorprogrammiert oder vom Benutzer eingegeben. So sind z. B. bei einer Telekonferenz-Anwendung die Audioeingaben im allgemeinen von größerer Bedeutung als die visuellen Eingaben, die nur ein Bild der anderen Teilnehmer produzieren. Wenn jedoch der empfangende Benutzer einen Hörfehler hat, ist das Videobild von größerer Bedeutung. Insbesondere Echtzeit-Videoverarbeitung und Synchronisation von Ton und Bild sind von wesentlich größerer Bedeutung, wenn der Benutzer auf Lippenlesen angewiesen ist, um seiner Hörschwierigkeit entgegenzuwirken.
- Eine mathematische Struktur für das Modell kann als Verlängerung des oben beschriebenen Multimoden-Modells zusammengefaßt werden. Für den Fall eines Aussagen-Eingangs ist eine Funktion fnppm als aussagemäßig angepaßte Kreuzmodulations-Kombinationsfunktion definiert.
- Das aufgabenspezifische Leistungsmaß PMprop, das von der Wahrnehmungsschicht 40 ermittelt wird, enthält daher eine Aussage-Gewichtung und ist durch
- PMprop = fnppm{fnaws{Eda1, Eda2, ..., Edan}, fnvws{Edv1, Edv2, ..., Edvn}}
- gegeben.
- Alternativ dazu könnten auch die Ausdrücke Tpw, Tpwv, die ähnlich den oben beschrieben Ausdrücken Twa, Twv, sind, an die einzelnen Gewichtsfunktionen fnaws, fnvws angelegt werden, und sie ergeben ein Leistungsmaß PM'prop wie folgt:
- PM'prop = fn'ppm{fn'aws{Eda1, Eda2, ..., Edan, Tpwa}, fn'vws{Edv1, Edv2, ..., Edvn, Tpwv}},
- worin bedeutet:
- Tpwa die aussagemäßig gewichtete Aufgabengewichtung für Audio
- Tpwv die aussagemäßig gewichtete Aufgabengewichtung für Video.
Claims (18)
1. Verfahren zum Testen von Kommunikationsausrüstung, das umfaßt:
- die Erfassung von Verzerrungen in einem Eingangsstimulus, der von der sich im
Test befindlichen Kommunikationsausrüstung mehrere Komponenten erhalten
hat,
- die Bestimmung des Ausmaßes, bis zu dem die Verzerrung für einen
menschlichen Beobachter wahrnehmbar ist, und
- Erzeugung eines Ausgangssignals, das in Übereinstimmung mit den
Verzerrungen die subjektive Wirkung der Verzerrungen anzeigt,
wobei das Verfahren den Schritt der Verwendung von mit dem Stimulus
verbundenen Hochpegel-Anwenderdaten umfaßt, die die Natur der erfolgten
Übertragung anzeigen, wobei die Hochpegel-Anwenderdaten in Form von Deskriptoren
des Inhalts oder der geplanten Verwendung der übertragenen Daten vorliegen,
und die Hochpegel-Anwenderdaten verwendet werden, um die subjektive
Bedeutung der Komponenten des Stimulus zu gewichten.
2. Verfahren nach Anspruch 1, in dem die Hochpegel-Anwenderdaten sich
auf den geplanten Informationsgehalt des Eingangsstimulus beziehen, der
verzerrte Eingangsstimulus auf den aktuellen Informationsgehalt analysiert wird, ein
Vergleich zwischen dem aktuellen und dem geplanten Informationsgehalt
durchgeführt wird, und das erzeugte Ausgangssignal das Ausmaß der
Übereinstimmung zwischen dem geplanten und dem aktuellen Informationsgehalt anzeigt.
3. Verfahren nach Anspruch 1, in dem die Verarbeitung ein
Codierungsprozeß ist, dessen Betrieb auf die Hochpegel-Anwenderdaten angepaßt ist.
4. Verfahren nach Anspruch 1, 2 oder 3, in dem die Hochpegel-
Anwenderdaten mit dem Eingangsstimulus von einer entfernten Quelle erhalten
werden.
5. Verfahren nach Anspruch 1, 2 oder 3, das den Schritt der Gewinnung der
Hochpegel-Anwenderdaten von einem lokalen Datenspeicher umfaßt.
6. Verfahren nach Anspruch 1, 2, 3, 4 oder 5, in dem sich mindestens ein
Teil der Hochpegel-Anwenderdaten auf Toninformationen beziehen.
7. Verfahren nach Anspruch 1, 2, 3, 4, 5 oder 6, in dem sich mindestens ein
Teil der Hochpegel-Anwenderdaten auf Videoinformationen beziehen.
8. Verfahren nach Anspruch 7, in dem die Hochpegel-Anwenderdaten
Informationen umfassen, die sich auf Bilder beziehen, die von den
Videoinformationen wiedergegeben werden, und die mit gespeicherten Daten verglichen werden,
die charakteristische Merkmale der Bilder definieren.
9. Verfahren nach Anspruch 8, in dem das wiederzugebende Bild ein Bild
aus einem vorgegebenen Satz von Bildern ist.
10. Verfahren nach Anspruch 9, in dem das Bild, das im empfangenen Signal
wiedergegeben wird, durch das Bild aus dem vorgegebenen Satz von Bildern
ersetzt wird, das ihm am ähnlichsten ist.
11. Vorrichtung zum Testen von Kommunikationsausrüstung, die umfaßt:
- eine Einrichtung zum Empfang eines Eingangsstimulus, der von der sich im
Test befindlichen Kommunikationsausrüstung mehrere Komponenten erhalten
hat;
- eine Verarbeitungseinrichtung zur Erfassung von Verzerrungen in den mehreren
Komponenten,
- eine Wahrnehmbarkeitsanzeigeeinrichtung zur Erzeugung einer Anzeige des
Ausmaßes, bis zu dem die Verzerrung jeder Komponente für einen menschlichen
Beobachter wahrnehmbar ist,
- eine Gewichtungseinrichtung zur Verarbeitung der mit dem Stimulus
verbundenen Hochpegel-Anwenderdaten, die die Natur der erfolgten Übertragung
anzeigen, wobei die Hochpegel-Anwenderdaten in Form von Deskriptoren des Inhalts
der Daten oder der geplanten Verwendung der übertragenen Daten vorliegen, und
wobei die Gewichtungseinrichtung so ausgelegt ist, daß sie die subjektive
Bedeutung
der Komponenten des Stimulus bezüglich der Hochpegel-
Anwenderdaten wichtet, und
- eine Ausgangssignalerzeugungseinrichtung zur Erzeugung eines
Ausgangssignals in Übereinstimmung mit dem Ausgangssignal der
Wahrnehmbarkeitsanzeigeeinrichtung, das gemäß den von der Gewichtungseinrichtung erzeugten
Wichtungen gewichtet wird.
12. Vorrichtung nach Anspruch 11, in der die Verarbeitungseinrichtung eine
Einrichtung zur Gewichtung der Wahrnehmbarkeitsanzeigen bezüglich der
Wahrnehmungsrelevanz verschiedener Verzerrungstypen der Hochpegel-
Anwenderdaten aufweist, und ein Ausgangssignal erzeugt, das die subjektive
Gesamtwirkung der Verzerrungen im Eingangstimulus anzeigt.
13. Vorrichtung nach Anspruch 11 oder 12, die eine Einrichtung zum
Empfang der sich auf den Informationsgehalt des Stimulus beziehenden Hochpegel-
Anwenderdaten mit dem Eingangsstimulus umfaßt.
14. Vorrichtung nach Anspruch 11, 12 oder 13, die eine Einrichtung zur
Analyse des verzerrten Eingangsstimulus auf den aktuellen Informationsgehalt, eine
Vergleichseinrichtung zum Vergleich des aktuellen und des geplanten
Informationsgehalts umfaßt und ein Ausgangssignal erzeugt, das das Ausmaß der
Übereinstimmung zwischen dem geplanten und dem aktuellen Informationsgehalt
anzeigt.
15. Vorrichtung nach Anspruch 11, 12, 13 oder 14, die eine
Vergleichseinrichtung zum Vergleich der Hochpegel-Anwenderdaten, die sich auf das
wiedergegebene Bild beziehen, mit gespeicherten Daten umfaßt, die die
charakteristischen Merkmale des Bildes definieren.
16. Vorrichtung nach Anspruch 11, die eine Codiereinrichtung und eine
Einrichtung zur Anpassung des Betriebs der Codiereinrichtung auf die Hochpegel-
Anwenderdaten umfaßt.
17. Vorrichtung nach Anspruch 11, 12, 13, 14, 15 oder 16, die einen
Datenspeicher für die Hochpegel-Anwenderdaten und eine Einrichtung zur Gewinnung
der Hochpegel-Anwenderdaten aus dem Datenspeicher umfaßt.
18. Vorrichtung nach Anspruch 17, die ferner eine Einrichtung zur Anpassung
des erhaltenen Signals durch Ersetzen eines in dem erhaltenen Signal
wiedergegebenen Bildes durch das Bild aus dem vorgegebenen Satz von Bildern, das ihm
ähnlichsten ist, umfaßt.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP97308429 | 1997-10-22 | ||
PCT/GB1998/003049 WO1999021173A1 (en) | 1997-10-22 | 1998-10-09 | Signal processing |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69801165D1 DE69801165D1 (de) | 2001-08-23 |
DE69801165T2 true DE69801165T2 (de) | 2002-03-28 |
Family
ID=8229562
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69801165T Expired - Lifetime DE69801165T2 (de) | 1997-10-22 | 1998-10-09 | Signalverarbeitung |
Country Status (5)
Country | Link |
---|---|
US (1) | US6512538B1 (de) |
EP (1) | EP1046155B1 (de) |
CA (1) | CA2304749C (de) |
DE (1) | DE69801165T2 (de) |
WO (1) | WO1999021173A1 (de) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3622840B2 (ja) * | 2000-08-25 | 2005-02-23 | Kddi株式会社 | 伝送画質評価装置および伝送画質遠隔監視装置 |
US7102667B2 (en) * | 2002-03-18 | 2006-09-05 | Tektronix, Inc. | Picture quality diagnostics for revealing cause of perceptible impairments |
CN1695164A (zh) * | 2002-11-06 | 2005-11-09 | 新加坡科技研究局 | 生成用于评估图像或视频质量的质量导向重要性图的方法 |
US7557775B2 (en) * | 2004-09-30 | 2009-07-07 | The Boeing Company | Method and apparatus for evoking perceptions of affordances in virtual environments |
CA2617893C (en) | 2005-09-06 | 2011-05-03 | Nippon Telegraph And Telephone Corporation | Video communication quality estimation device, method, and program |
EP2106154A1 (de) * | 2008-03-28 | 2009-09-30 | Deutsche Telekom AG | Audiovisuelle Qualitätsbewertung |
US8749641B1 (en) * | 2013-05-01 | 2014-06-10 | Google Inc. | Detecting media source quality to determine introduced phenomenon |
US10650813B2 (en) * | 2017-05-25 | 2020-05-12 | International Business Machines Corporation | Analysis of content written on a board |
CN111025280B (zh) * | 2019-12-30 | 2021-10-01 | 浙江大学 | 一种基于分布式最小总体误差熵的运动目标测速方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4860360A (en) * | 1987-04-06 | 1989-08-22 | Gte Laboratories Incorporated | Method of evaluating speech |
US5630019A (en) * | 1992-05-23 | 1997-05-13 | Kabushiki Kaisha Topcon | Waveform evaluating apparatus using neural network |
US5301019A (en) * | 1992-09-17 | 1994-04-05 | Zenith Electronics Corp. | Data compression system having perceptually weighted motion vectors |
US5446492A (en) * | 1993-01-19 | 1995-08-29 | Wolf; Stephen | Perception-based video quality measurement system |
US5794188A (en) * | 1993-11-25 | 1998-08-11 | British Telecommunications Public Limited Company | Speech signal distortion measurement which varies as a function of the distribution of measured distortion over time and frequency |
JP4008497B2 (ja) * | 1996-02-29 | 2007-11-14 | ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー | トレーニングプロセス |
-
1998
- 1998-10-09 US US09/180,298 patent/US6512538B1/en not_active Expired - Lifetime
- 1998-10-09 DE DE69801165T patent/DE69801165T2/de not_active Expired - Lifetime
- 1998-10-09 CA CA002304749A patent/CA2304749C/en not_active Expired - Lifetime
- 1998-10-09 WO PCT/GB1998/003049 patent/WO1999021173A1/en active IP Right Grant
- 1998-10-09 EP EP98946611A patent/EP1046155B1/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
CA2304749A1 (en) | 1999-04-29 |
WO1999021173A1 (en) | 1999-04-29 |
DE69801165D1 (de) | 2001-08-23 |
EP1046155A1 (de) | 2000-10-25 |
CA2304749C (en) | 2006-10-03 |
US6512538B1 (en) | 2003-01-28 |
EP1046155B1 (de) | 2001-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69520067T2 (de) | Verfahren und Einrichtung zur Kennzeichnung eines Eingangssignales | |
DE60037485T2 (de) | Signalverarbeitungsverfahren und Videosignalprozessor zum Ermitteln und Analysieren eines Bild- und/oder Audiomusters | |
DE69626115T2 (de) | Signalqualitätsbewertung | |
DE10297035B4 (de) | Rekonstruktion von Nachrichten anhand von Teildetektion | |
DE69804549T2 (de) | Aufmerksamkeitsbilddaten zur objektiven Messung des Videoqualitätsverlust | |
DE69523503T2 (de) | Audiovisuelles Kommunikations-Verfahren und -Vorrichtung mit integrierter, wahrnehmungsabhängiger Sprach- und Videokodierung | |
DE69433254T2 (de) | Verfahren und Vorrichtung zur Sprachdetektion | |
DE60014063T2 (de) | Vorrichtung und verfahren zur erkennung von gefühlen in der menschlichen stimme | |
DE69321590T2 (de) | Verfahren und einrichtung für objektive sprachqualitätsmessungen in telekommunikationseinrichtungen | |
DE112021004261T5 (de) | Dualmodale beziehungsnetzwerke zur audiovisuellen ereignislokalisierung | |
DE69910358T2 (de) | Verfahren und vorrichtung zur objektiven bewertung der videoqualität | |
EP3317878A1 (de) | Verfahren und vorrichtung zum erzeugen einer datenbank | |
DE60122751T2 (de) | Verfahren und vorrichtung für die objektive bewertung der sprachqualität ohne referenzsignal | |
DE69901894T2 (de) | Verfahren und vorrichtung zur objektiven qualitätsmessung von audiosignalen | |
DE10297017T5 (de) | Überwachung der Nutzung von Mediendaten mit Beseitigung von Nicht-Programmdaten | |
EP0938831B1 (de) | Gehörangepasste qualitätsbeurteilung von audiosignalen | |
DE60205232T2 (de) | Verfahren und vorrichtung zur bestimmung der qualität eines sprachsignals | |
DE69527523T2 (de) | Verfahren und apparat zum auffinden und identifizieren eines gesuchten objekts in einem komplexen bild | |
DE60005798T2 (de) | Analyse der qualität von videosignalen | |
DE69801165T2 (de) | Signalverarbeitung | |
DE69706650T2 (de) | System und verfahren zur fehlerkorrektur in einer auf korrelation basierenden grundfrequenzschätzvorrichtung | |
DE60307965T2 (de) | Vorrichtung und Verfahren zum Ändern der Wiedergabegeschwindigkeit von gespeicherten Sprachsignalen | |
DE60004852T2 (de) | Verfahren zur qualitätsbeurteilung von audiovisuellen sequenzen | |
DE19521408C1 (de) | Verfahren zum objektiven Bewerten der Bildqualität zwei- oder dreidimensionaler Bilder | |
EP2064898B1 (de) | Vorrichtung zum bestimmen von informationen zur zeitlichen ausrichtung zweier informationssignale |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition |