DE69801165T2 - Signalverarbeitung - Google Patents

Signalverarbeitung

Info

Publication number
DE69801165T2
DE69801165T2 DE69801165T DE69801165T DE69801165T2 DE 69801165 T2 DE69801165 T2 DE 69801165T2 DE 69801165 T DE69801165 T DE 69801165T DE 69801165 T DE69801165 T DE 69801165T DE 69801165 T2 DE69801165 T2 DE 69801165T2
Authority
DE
Germany
Prior art keywords
user data
level user
image
stimulus
high level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69801165T
Other languages
English (en)
Other versions
DE69801165D1 (de
Inventor
Peter Hollier
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Application granted granted Critical
Publication of DE69801165D1 publication Critical patent/DE69801165D1/de
Publication of DE69801165T2 publication Critical patent/DE69801165T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

  • Die Erfindung betrifft die Signalverarbeitung. Sie wird beim Testen von Kommunikationssystemen und Kommunikationsinstallationen und für andere Anwendungen verwendet, wie im folgenden beschrieben ist. Der Begriff "Kommunikationssystem" umfaßt Telephon- oder Fernsehnetze sowie Ausrüstung, Rundrufanlagen, Computerschnittstellen und dergleichen.
  • Es ist wünschenswert, zielgerichtete, wiederholbare Leistungsmaße zu verwenden, um die Akzeptanz der Leistung der Design-, Inbetriebnahme- und Überwachungsstufen beim Vorsehen von Kommunikationsdiensten einzuschätzen. Die subjektive Audio- und Videoqualität nimmt jedoch für die Feststellung der Zufriedenheit des Kunden mit Produkten und Service eine zentrale Stellung ein, weshalb daher die Messung dieses Aspektes der Leistung des Systems eine wichtige Rolle spielt. Die Komplexität moderner Kommunikations- und Rundfunksysteme, die auch Datenverdichtung beinhalten können, führt dazu, daß die herkömmlichen Konstruktionsmaßstäbe für die zuverlässige Vorhersage einer wahrgenommenen Leistung inadequat sind. Es kann eine subjektive Prüfung angewendet werden, die aber kosten- und zeitaufwendig ist und die oft für eine Anwendung am Einsatzort unpraktisch ist. Eine objektive Einschätzung der erhaltenen (subjektiven) Leistung komplexer Systeme ist durch die Entwicklung einer neuen Generation von Meßtechniken ermöglicht worden, die die Eigenschaften der menschlichen Sinne berücksichtigen. So kann zum Beispiel eine schwache Signal-/Rauschleistung von einer hörbaren Verzerrung oder von einer nichthörbaren Verzerrung stammen. Ein Modell der beim Hören auftretenden Maskierung ist befähigt, zwischen diesen beiden Fällen zu unterscheiden.
  • Die Verwendung von Modellen der menschlichen Sinnesorgane, um die subjektive Leistung besser zu verstehen, ist als "perceptual modelling" (Wahrnehmungsmodellieren) bekannt.
  • Die vorliegende Anmeldung greift auf eine Reihe früherer Anwendungen des gleichen Anmelders zurück, die sich auf Wahrnehmungsmodelle und auf für nicht-lineare Sprachsysteme geeignete Testsignale beziehen:
  • - WO 94/00922 Speech-like test-stimulus and perception-based analysis to predict subjective performance,
  • - WO 95/01011 Improved artificial-speech test-stimulus,
  • - WO 95/15035 Improved perception-based analysis with algorithmic interpretation of audible error subjectivity.
  • Um die subjektive Relevanz von Fehlern in Tonsystemen, und insbesondere in Sprachsystemen, zu bestimmen, wurden Beurteilungsalgorithmen entwickelt, die auf Modellen des menschlichen Gehörs beruhen. Die Vorhersage hörbarer Unterschiede zwischen einem schlechten Signal und einem Bezugssignal kann man sich als sensorische Schicht einer Wahrnehmungsanalyse denken, wohingegen man sich die nachfolgende Kategorisierung hörbarer Fehler als Wahrnehmungsschicht denken kann. Modelle für die Beurteilung einer Tonfrequenz hoher Qualität, wie beispielsweise von Paillard, B., Mabilleau, P., Morissette, S. und Soumagne, J. in "PERCEVAL: Perceptual Evaluation of the Quality of Audio Systems", J. Audio Eng. Soc., Bd. 40, N. 1/2, Jan./Febr. 1992, beschrieben, haben nur auf die Vorhersage der Wahrscheinlichkeit der Erfassung hörbarer Fehler abgezielt, da jeder hörbare Fehler als nicht akzeptabel angesehen wird, während frühe Sprachmodelle, beispielsweise die folgenden, darauf abzielten, das Vorhandensein hörbarer Fehler vorherzusagen, um dann einfache Abstands- Maßnahmen zu verwenden, um die subjektive Bedeutung der Fehler zu kategorisieren:
  • Hollier, M. P., Hawksford, M. O., Guard, D. R., "Characterisation of Communications Systems Using a Speech-Like Test Stimulus", J. Audio Eng. Soc., Bd. 41, Nr. 12, Dezember 1993,
  • Beerends, J., Stemerdink, J., "A Perceptual Audo Quality Measure Based on a Psychoacoustic Sound Representation", J. Audio Eng. Soc., Bd. 40, Nr. 12, Dezember 1992,
  • Wang, S., Sekey A., Gersho, A., "An Objective Measure for Predicting Subjective Quality of Speech Coders", IEEE J. on Selected Areas in Communications, Bd. 10, Nr. 5, Juni 1992.
  • In Hollier, M. P., Hawksford, M. O., Guard, D. R., "Error-activity and error entropy as a measure of psychoacoustic significance in the perceptual domain", IEEE Proc.-Vis. Image Signal Process., Bd. 141, Nr. 3, Juni 1994, ist gezeigt worden, daß eine feinere Beschreibung des hörbaren Fehlers eine bessere Korrelation mit der subjektiven Leistung angibt. Insbesondere wurde gezeigt, daß die Fehlergröße, die Fehlerverteilung und die Korrelation des Fehlers mit dem ursprünglichen Signal eine bessere Vorhersage der Fehlersubjektivität bieten.
  • Fig. 1 zeigt ein hypothetisches Fragment einer Fehleroberfläche. Die zur Vorhersage der Subjektivität dieses Fehlers verwendeten Fehlerdeskriptoren sind notwendigerweise mehrdimensional: mit einer einfachen einzigen Dimension läßt sich keine bildliche Vorstellung zwischen Fehleroberfläche und entsprechender subjektiver Meinung erzielen. Die Fehlerdeskriptoren, Ed, haben die folgende Form:
  • Ed1 = fn&sub1;{e(i,j)},
  • wobei bedeutet:
  • fn&sub1; eine Funktion der Fehleroberflächen-Elementwerte für den Deskriptor 1. So ist z. B. der Fehlerdeskriptor für die Verteilung des Fehlers, die Fehlerentropy (Ee), von Hollier et al. in dem Artikel aus dem Jahre 1994 vorgeschlagen, durch
  • Ee = a(i,j)lna(i,j)
  • angegeben worden, wobei bedeutet:
  • a(i,j) = e(i,j) /Ea und
  • Ee = die Summe von e(i,j) , bezogen auf Zeit und Pitch.
  • Meinungsvorhersage = fn&sub2;{Ed1, Ed2, ..., Edn},
  • wobei bedeutet:
  • fn&sub2; die Abbildungsfunktion zwischen dem Fehler n des Deskriptors und der Meinungsskala, die von Interesse ist.
  • Es wurde gezeigt, daß eine vernünftige Auswahl von Fehlerdeskriptoren einer Reihe verschiedener subjektiver Meinungsskalen gegenübergestellt werden kann (Hollier, M. P., Sheppard, P. J., "Objective speech quality assessment: towards an engineering metric", vorgelegt bei der 100th AES Convention in Copenhagen, Preprint Nr. 4242, Mai 1996). Das ist ein wichtiges Ergebnis, da die Fehlerdeskriptoren auf verschiedene Meinungsskalen bezogen abgebildet werden können, die von unterschiedlichen Aspekten von Fehlersubjektivität beherrscht werden. Zusammen mit unter Laborbedingungen gewonnenen Erfahrungen dient dieses Ergebnis als Anzeichen, daß es möglich ist, einen Satz von Fehlerdeskriptoren so zu gewichten, daß er einen Bereich von Fehlersubjektivität beschreibt, da für Meinungsskalen über Qualität und Einsatz verschiedene Fehlermerkmale dominant sind. Der generelle Schritt einer Aufteilung der Modellarchitektur in sensorische und Wahrnehmungsschichten und der Erzeugung von Fehlerdeskriptoren, die gegenüber verschiedenen Aspekten von Fehlersubjektivität empfindlich sind, wird durch diese Ergebnisse bestätigt.
  • Ebenfalls wird gerade eine Reihe von visuellen Wahrnehmungsmodellen entwickelt, einige von ihnen sind in der Literatur beschrieben. So schlagen z. B. Watson, A. B. und Solomon, J. A. "Contrast gain control models fits masking data", ARVO., 1995 vor, die Gabor-Funktionen zu verwenden, um die Inhibitions- und Anregungseinflüsse der Orientierung zwischen Maskierung und Maskiertem zu erklären. Ran, X. und Farvadin, N., "A perceptually motivated three-component imgage model, Part I: Description of the model", IEEE transactions on image processing, Bd. 4, Nr. 4, April 1995, verwenden eine einfache Bildzerlegung in Kanten, Oberflächenbeschaffenheit und Hintergrund. Den meisten der publizierten Algorithmen gelingt es jedoch nur, einzelne Aspekte des Modellverhaltens zu optimieren; Watson & Solomon geben ein gutes Maskierungsmodell an, und Ran & Farvadin eine erste Näherung an eine Beschreibung der subjektiven Bedeutung von Fehlern.
  • Ein Schritt, ähnlich dem des oben beschriebenen hörbaren Wahrnehmungsmodells, wurde vom Anmelder der vorliegenden Erfindung für ein visuelles Wahrnehmungsmodell angewendet. Eine sensorische Schicht reproduziert die grundlegenden sensorischen Mechanismen:
  • i) die Raum-Zeit-Empfindlichkeit, bekannt als "Sichtfilter des Menschen" und
  • ii) das Maskieren infolge der Raumfrequenz, der Orientierung und der Zeitfrequenz.
  • Nach der sensorischen Schicht wird das Bild zerlegt, um durch die Wahrnehmungsschicht eine Berechnung der Fehlersubjektivität in Übereinstimmung mit der Bedeutung der Fehler relativ zu den Strukturen innerhalb des Bildes zu ermöglichen, wie im folgenden unter Bezug auf Fig. 2 beschrieben ist. Der obere Teil von Fig. 2 zeigt ein Bild, das zu zerlegen ist, und der untere Teil zeigt das zerlegte Bild für eine Vorhersage der Fehlersubjektivität. Wenn der sichtbare Fehler mit einem kritischen Merkmal des Bildes, z. B. mit einer Kante, zusammenfällt, ist dieses eher subjektiv störend. Die grundlegenden Bildelemente, die es einem menschlichen Beobachter ermöglichen, den Bildinhalt wahrzunehmen, kann man sich als einen Satz abstrakter Grenzen denken. Diese Grenzen können aus Farbunterschieden, Änderungen der Oberflächenbeschaffenheit, einer Bewegung und aus Kanten bestehen, und sie sind im zerlegten Bild gekennzeichnet. Sogar einige Gestalt-Effekte, die eine Grenze wahrnehmbar machen, können algorithmisch vorhergesagt werden, um eine geeignete Gewichtung zu ermöglichen. Solche Gestalt-Effekte sind in Gordon I. E., "Theories of Visual Perception, John Wiley and Sons, 1989, beschrieben. Diese Grenzen sind erforderlich, um den Bildinhalt wahrzunehmen, und deshalb sind sichtbare Fehler, die diese Grenzen verwischen, von größerer subjektiver Bedeutung als solche, die bei denen das nicht der Fall ist. Hier ist es wichtig, anzumerken, daß eine Verwischung dieser Grenzen im Hinblick auf die Wahrnehmung bedeutend ist, ohne daß angegeben wird, welcher der hohe kognitive Inhalt des Bildes sein könnte. So wird beispielsweise die Verwischung einer Grenze subjektiv von Bedeutung sein, unabhängig davon, was das Bild darstellt. Das Ausgangssignal der Wahrnehmungsschicht ist ein Satz kontextempfindlicher Fehlerdeskriptoren, die unterschiedlich gewichtet werden können und verschiedene Meinungskriterien abbilden.
  • Um ein Multimedia-System zu beurteilen, ist es erforderlich, die Ausgangssignale jedes sensorischen Modells zu kombinieren und die Interaktionen zwischen den Sinnen zu erläutern. Es ist möglich, bekannte Beispiele einer intersensorischen Abhängigkeit anzugeben. Diese sind als Ausgangspunkt einer Diskussion geeignet, trotz der komplizierten Beispiele, die dann bald auftauchen werden. Es sind bereits strenge Regeln für die Multisensorik bekannt und von den Lieferanten für Inhalte, insbesondere von Filmemachern, angewendet worden. Konsistente Audio-/Videotrajektorien zwischen Sceneschnitten und der konstruktive Nutzen kombinierter Audio-/Video-Hinweise sind Beispiele dafür. Der Einsatz dieses Typs multi-modaler Verbindung für die Konstruktion einer Schnittstelle Mensch- Computer ist in May, J. und Barnard, P., "Cinematography and interface design", K. Norbdy et al., Human Computer Interaction, Interact'95 (26-31), 1995, beschrieben. Weniger bekannte Beispiele sind eine fehlerhafte Sprachwahrnehmung, wenn Audio-/Video-Hinweise fehlangepaßt sind, wie in McGurk, H. und MacDonald, J., "Hearing lips and seeing voices", Nature, 264 (510-518), 1976, beschrieben, sowie die Modifizierung von Fehlersubjektivität mit den Folgeeffekten in der anderen Ausführungsart, beispielsweise in O'Leary, A. und Rhodes, G., "Cross-modal effects on visual and auditory perception", Perception and psychophysics, 35 (565-569), 1984.
  • Die Interaktion zwischen den Sinnen kann sehr komplex sein und die Bedeutung von Übertragungsfehlern sowie die Wahl der Bandbreitennutzung für Multimedia-Dienste und für eine "Telepräsenz" sind daher nicht leicht zu bestimmen. Diese Schwierigkeit beleuchtet die Notwendigkeit für ein objektives Messen der wahrgenommenen Leistung von Multimedia-Systemen. Glücklicherweise ist es nicht erforderlich, für eine Produktion nützlicher Entwicklungswerkzeuge ein Modell der gesamten menschlichen Wahrnehmung und des Denkens zu schaffen, sondern lediglich, die groben fundamentalen intersensorischen Abhängigkeiten (auf einem niedrigen Niveau) festzulegen und zu modellieren.
  • Fig. 3 ist eine schematische Darstellung eines sensorischen Wahrnehmungsmodells nach dem Stand der Technik, das die groben modalen Abhängigkeiten und den Einfluß durch die Aufgabe zeigt. Die Hauptkomponenten, die im folgenden im Einzelnen unter Bezug auf Fig. 4 beschrieben sind, sind die folgenden:
  • - sensorische Modelle des Hörens und Sehens 10, 20,
  • - Kreuzmodulations-Modell 30,
  • - scene-spezifisches Aufgabenmodell 40.
  • Gegenwärtig sind Wahrnehmungsmodelle nur bezogen auf die Eigenschaften ihrer Audio- und/oder Videoeingangssignale betrieben worden, die durch Signal- Analysetechniken, wie beispielsweise
  • - Spektralanalyse,
  • - Energie-/Zeit-Messungen und
  • - eine mathematische Transformation über lineare und nicht-lineare Funktionen
  • bestimmt werden können.
  • Solche Modelle können "Implikations"-Modelle genannt werden, da sie nur mit Informationen operieren, die vom Signal abgeleitet werden können und die nicht die Befähigung zur Bestimmung oder zur Prüfung von Aussagen in der Art und Weise besitzen, über die ein Mensch verfügt, der die Leistung von Systemen bei der Behandlung dieser Signale sowie die Art der Signale selbst beurteilt.
  • Ein Problem mit im Stand der Technik beschriebenen Wahrnehmungsmodellen besteht darin, daß sie "Implikations"-Modelle sind, d. h. sie beziehen sich auf Merkmale, die von den Audio- und Videosignalen selbst abgeleitet werden können. Typischerweise sind sie für eine bestimmte Anwendung spezifisch, wie z. B. für die Beurteilung der Qualität von Telephon-Bandbreiten-Sprache. Ist die Anwendung nicht bekannt, dann können Wahrnehmungsgewichtungen nicht vom Signal abgeleitet werden, ohne daß vorher eine Annahme über die geplante Anwendung gemacht wird. So könnte z. B. ein solches Herangehen zu auf Bereiche eines Bildes angewandten Wahrnehmungsgewichtungen führen, die wegen des Bildinhalts oder wegen Überlegungen zu seiner Aussage subjektiv nicht von Bedeutung sind. Auf die gleiche Weise können bei einem Audiosignal phonetische Fehler eher tolerierbar sein, wenn es sich bei der Übertragung um Gesang handelt, als wenn es sich hier um Sprache handeln würde, Pitchfehler hingegen können weniger tolerierbar sein.
  • Vorschläge für den zukünftigen MPEG7 video signalling standard (Video- Zeichengabe-Norm) umfassen die Verwendung von Hochpegel-Anwenderdaten in Form von Deskriptoren des Inhalts, die die Videodaten begleiten, sie sind geplant, um ein intelligentes Suchen und die Indexierung zu erleichtern. Solche Inhaltsdeskriptoren können verwendet werden, um sowohl die geplante Verwendung des Signals (z. B. eine Videokonferenz oder ein Spielfilm), als auch die Natur des Bildes oder des Schalls zu identifizieren, welche durch das Signal porträtiert werden (z. B. die Gesichter von Menschen oder graphische Angaben, beispielsweise Texte).
  • Gemäß der vorliegenden Erfindung ist ein Verfahren zum Testen von Kommunikationsausrüstung angegeben, wie in Anspruch 1 ausgeführt ist.
  • Gemäß einem weiteren Aspekt der vorliegenden Erfindung ist eine Vorrichtung zum Testen von Kommunikationsausrüstung angegeben, wie in Anspruch 11 ausgeführt ist.
  • Das Verfahren der vorliegenden Erfindung, das (kognitives) Wissen über einen Inhalt auf einem hohen Niveau anwendet, wird in der folgenden Beschreibung als "Aussage"-Modell bezeichnet. Bei der verwendeten Hochpegel- Anwenderinformation kann es sich um Inhaltsdeskriptoren, wie oben beschrieben, oder um lokal gespeicherte Information handeln.
  • Bei einer Anwendung der Erfindung kann die Information in einem Verfahren zum Testen von Kommunikationsausrüstung verwendet werden, wobei sich die Hochpegel-Anwenderdaten auf die Natur des erhaltenen Signals beziehen, und das Verfahren umfaßt:
  • die Erfassung von Verzerrungen in einem von der sich im Test befindlichen Kommunikationsausrüstung erhaltenen Eingangstimulus,
  • die Bestimmung des Ausmaßes, bis zu dem die Verzerrung für einen menschlichen Beobachter wahrnehmbar wäre, und
  • die Erzeugung eines Ausgangssignals, das gemäß den Verzerrungen die subjektive Wirkung der Verzerrungen anzeigt und gemäß den Hochpegel-Anwenderdaten gewichtet. Der verzerrte Eingangsstimulus kann nach dem Gehalt an aktueller Information analysiert werden, es erfolgt ein Vergleich zwischen dem aktuellen und dem geplanten Informationsgehalt und das erzeugte Ausgangssignal zeigt das Ausmaß an Übereinstimmung zwischen dem geplanten und dem aktuellen Informationsgehalt an.
  • Es ist bekannt, daß die bei Sprache auftretende Fehlersubjektivität von der bei Musik auftretenden verschieden ist. Daraus folgt, daß wenn ein Hochpegel- (Aussage) Eingangssignal anzeigt, ob es sich bei dem angetroffenen Audiosignal um Sprache oder Musik handelt, das Verhalten des Wahrnehmungsmodells entsprechend angepaßt werden könnte. Diese Unterscheidung könnte noch weiter in verschiedene Typen von Musiksignalen und Niveaus der Servicequalität aufgeteilt werden. So ist eine Synchronisation zwischen Bild und Ton, beispielsweise für eine Videoübertragung eines Konzertes, wichtiger, die die Ausführenden zeigt, als es für eine Übertragung ist, bei der die Musik lediglich als Hintergrund für die Handlung auf einem Videobild dient.
  • Auf ähnliche Weise benötigt in einem Videobild die graphische Information, beispielsweise ein Text, akkurat reproduzierte kleine Merkmale, so daß die einzelnen Buchstaben des Textes erkannt werden können, das aber erfordert wenig Mitlaufbewegung, da das Textbild wahrscheinlich stationär ist oder sich nur relativ langsam bewegt. Für ein sich schnell bewegendes Bild ist die relative Bedeutung dieser Charakteristika eine andere.
  • Die Systeme vom Stand der Technik, die für einen speziellen Eingangssignaltyp, beispielsweise für Sprache, optimiert wurden, sind für andere Typen, beispielsweise für Musik, nicht optimal und es ist ihnen nicht möglich, ihre Wahrnehmungsantwort gemäß der Art des zu analysierenden Eingangssignals zu variieren. Die Erfindung hingegen ermöglicht es, verschiedene Gewichtungen gemäß der Art des empfangenen Signals auszuwählen.
  • Die Hochpegel-Information kann auch für andere Zwecke als nur für das Messen der wahrgenommenen Signalqualität verwendet werden. So existieren beispielsweise Codierer/Decodierer (Codecs), die auf die Verarbeitung unterschiedlicher Typen von Daten spezialisiert sind. Ein Codierer/Decodierer, der für das Bewegen von Bildern geeignet ist, kann seine Bildqualität für eine Ansprechzeit zu opfern gezwungen sein, und in der Tat ist eine perfekte Definition in einem Übergangsbild nicht vonnöten, wohingegen für ein präzise definiertes Graphiksystem eine sehr hohe Genauigkeit erforderlich ist, obwohl zur Erzeugung des Bildes ein vergleichsweise langer Zeitraum benötigt wird. Wenn die Hochpegel- Information für die Art der zu übertragenden Daten verwendet wird, kann für diese Daten an jedem Interimspunkt der Übertragung ein geeigneter Codierer/Decodierer ausgewählt werden, so z. B. dort, wo eine Übertragung einer großen Bandbreite über eine Schmalbandverbindung einzuspeisen ist.
  • Die Erfindung hat mehrere potentielle Anwendungen. So kann zum Beispiel der Betrieb eines Codierers/Decodierers auf die Art der Signale angepaßt werden, die verarbeitet werden müssen. Beispielsweise wird zwischen der Geschwindigkeit und der Genauigkeit in jedem Codierungprogramm abgewägt, und Echtzeitsignale (z. B. Sprache) oder Videosignale, die eine Bewegung erfordern, können aus der Verwendung eines bestimmten Codierers/Decodierers gewinnen, während ein anderer Codierer/Decodierer geeignet sein kann, wenn bekannt ist, daß es sich bei dem Signal um Text handelt, wo es mehr auf Genauigkeit als auf Geschwindigkeit ankommt.
  • Die Erfindung kann auch zur Verbesserung der Fehlererfassung verwendet werden, indem das Verfahren Ergebnisse produzieren kann, die näher an der subjektiven menschlichen Wahrnehmung der Qualität eines Signals sind. Diese Wahrnehmungen sind in gewissem Maße von der Art der Information im Signal selbst abhängig. Das Aussage-Modell kann mit Hochpegel-Information ausgestattet werden, die anzeigt, daß ein geplanter (unverzerrter) Eingangsstimulus verschiedene Eigenschaften aufweist. So können sich die Hochpegel-Anwenderdaten zum Beispiel auf den geplanten Informationsgehalt des Eingangsstimulus beziehen, und der verzerrte Eingangsstimulus kann auf den aktuellen Informationsgehalt analysiert werden, und es erfolgt ein Vergleich zwischen dem aktuellen und dem geplanten Informationsgehalt, und das erzeugte Ausgangssignal zeigt das Ausmaß der Übereinstimmung zwischen dem aktuellen und dem geplanten Informationsgehalt an.
  • Die Hochpegel-Anwenderdaten, die sich auf den Informationsgehalt des Stimulus beziehen, können für eine Verarbeitung durch das Empfangsende mit dem Eingangsstimulus übertragen werden. Der Empfänger kann stattdessen die Hochpegel-Anwenderdaten von einem Datenspeicher am Testpunkt zurückgewinnen. Beide Verfahren können zusammen angewendet werden, um beispielsweise eine codierte Nachricht zu übertragen, wobei der Eingangsstimulus anzeigt, welche der Hochpegel-Anwenderdaten aus einem Satz von gespeicherten Daten zu gewinnen sind. So können zum Beispiel die übertragenen Hochpegel- Anwenderdaten Informationen enthalten, die sich im Vergleich mit gespeicherten Daten auf ein darzustellendes Bild beziehen, die Merkmalscharakteristika derartiger Bilder definieren. Unter bestimmten Umständen kann das System so konfiguriert sein, daß es nur einen vorgegebenen Satz von Bildern darstellt, z. B. den Satz einer virtuellen Welt. In diesem Fall kann das verzerrte Bild, das im erhaltenen Signal dargestellt ist, durch das Bild vom vorgegebenen Satz ersetzt werden, das ihm fast gleich ist.
  • Die Eingangsstimuli können Audio-, Video, Text-, Graphik- oder andere Informationen enthalten, und die Hochpegel-Anwenderdaten können verwendet werden, um die Verarbeitung beliebiger Stimuli oder einer beliebigen Kombination derselben zu beeinflussen.
  • In der einfachsten Form kann die Hochpegel-Information nur die Art der zu erfolgenden Übertragung spezifizieren, ob z. B. ein Audiosignal Sprache oder Musik enthält. Sprache und Musik machen unterschiedliche wahrnehmungsmäßige Qualitätsmaße erforderlich. Verzerrung in einem Sprachsignal kann durch ein Vorhandensein von Tönen erfaßt werden, die unmöglich von einer menschlichen Stimme stammen können, derartige Töne können aber in der Musik vorhanden sein, weshalb unterschiedliche Qualitätsmaße erforderlich sind. Darüber hinaus ist die Tonfrequenzbandbreite, die für ein getreue Wiedergabe von Musik erforderlich ist, wesentlich größer als die für Sprache, daher ist eine Verzerrung außerhalb des Sprachbandes von wesentlich größerer Bedeutung bei Musikübertragungen als es bei Sprache der Fall ist.
  • Auch die Subjektivität von Fehlern ist für Sprache und Musik verschieden, das gilt auch für die unterschiedlichen Sprachfunktionstypen oder Musiktypen. Die relative Bedeutung von Ton und Bild kann für die wahrgenommene Gesamtqualität wichtig sein. Die Videoübertragung eines Konzerts erfordert eine bessere Schallqualität als beispielsweise eine Übertragung, in der Musik lediglich als Hintergrundklang verwendet wird, und deshalb könnte eine Hochpegel- Information, die sich auf die Art der Übertragung bezieht, verwendet werden, um der Tonkomponente des Gesamtqualitätsmaßes mehr oder weniger Gewicht zu geben. Die Synchronisation von Ton und Bild kann bei einigen Übertragungen eine größere Bedeutung als bei anderen haben. Unter gewissen Umständen, z. B. unter Wasser, kann die relative Bedeutung vom Raumeffekten (d. h. die wahrgenommene Richtung der Schallquelle), größer sein als die Wiedergabetreue des Schalls selbst, als das unter anderen Umständen der Fall ist, wie wenn beispielsweise nur der Ton verwendet wird.
  • Bei einer Telekonferenz, bei der jeder der Teilnehmer die Videobilder der anderen Teilnehmer sieht, kann der Ton im allgemeinen von größerer Wichtigkeit als das Bild sein, das kann sich aber im Verlauf der Konferenz ändern, wenn beispielsweise ein Dokument oder ein anderes Videobild (z. B. eine graphische Darstellung auf weißem Papier) von den Teilnehmern gelesen werden soll. Der Wechsel von einem Bildtyp zu einem anderen könnte durch die Übertragung von Hochpegel-Anwenderdaten signalisiert werden, die sich auf den Bildtypus beziehen, der gegenwärtig erzeugt wird.
  • Die Hochpegel-Information kann detaillierter sein. Die Wahrnehmungsmodelle können befähigt sein, die Erstellung und Prüfung von Vorhaben bzw. Aussagen zu nutzen, indem die Inhaltsdeskriptoren verwendet werden, die für den zukünftigen MPEG7-Standard vorgeschlagen wurden. Sie kann z. B. anzeigen, daß ein Eingangsbild ein menschliches Gesicht ist, was implizit erfordert, daß in Bezug auf die erwarteten Elemente eines solchen Objektes generalisierende Daten aus einem lokalen Speichermedium gewonnen wurden, z. B. die Anzahl, die relativen Stellungen und die relativen Größen von Gesichtsmerkmalen, eine geeignete Farbgebung etc.. Daher, wenn Informationen über das Vorhaben angegeben wurden, daß das Eingangsbild ein Gesicht ist, würde ein vorwiegend grünes Bild als Fehler angesehen werden, auch wenn das Bild scharf und stabil ist, so daß die Systeme vom Stand der Technik (die keine Informationen über die Art des Bildes haben und die auch nicht über Mittel zur Verarbeitung einer solchen Information verfügen) keine Fehler entdecken würden.
  • Darüber hinaus würde die Information anzeigen, welche Bereiche des Bildes (z. B. die Augen und der Mund) wahrscheinlich von größter Bedeutung für die Fehlerwahrnehmung sind. Ferner kann die Fehlersubjektivität so berechnet werden, daß sie die Tatsache berücksichtigt, daß gewisse Muster, wie z. B. die Anordnung der Merkmale, die ein Gesicht ausmachen, für einen menschlichen Beobachter leicht zu erkennen sind, und daß der Wahrnehmungsprozeß bei einem Menschen in einer besonderen Weise auf der Grundlage solcher Muster operiert.
  • Die Aussage-(Hochpegel)Information kann auf jede beliebige Weise spezifiziert werden, vorausgesetzt ist, daß das Verarbeitungselement die Daten verarbeiten kann. So können beispielsweise die Daten selbst die wesentlichen Elemente angeben, z. B. eine Tabelle, die eine spezifizierte Anzahl von Spalten aufweist, so daß, wenn der Eingangsstimulus aktuell ein Bild mit Spalten darstellt, die von der angegebenen Anzahl verschieden sind, ein Fehler erfaßt würde. Hier ist wiederum anzumerken, daß dann, wenn das Bild scharf wäre und keine Farbabweichungen etc. aufwiese, das System vom Stand der Technik keine subjektiv bedeutsamen Fehler erfassen würde. Das erfindungsgemäße System kann besonders von Nutzen sein, wenn die empfangenen Signale sich auf eine "virtuelle Umgebung" beziehen, innerhalb derer ein bekannter begrenzter Bereich von Objekten und Eigenschaften existieren kann. In solchen Fällen können die Daten, die sich auf die dargestellten Objekte beziehen, sehr spezifisch sein. Es kann in solchen Fällen ebenfalls möglich sein, die Bilder zu reparieren, indem ein Eingangsbildobjekt (das bei der Übertragung verdorben wurde), bei dem es sich nicht um ein Objekt aus dem Bereich der erlaubten Objekte handelt, durch das erlaubte Objekt ersetzt wird, das dem Eingangsbildobjekt am ähnlichsten ist.
  • Die Vorhaben bzw. Aussagen, die in virtuellen Umgebungen getestet wurden, können von denen für eine natürliche Umgebung zweckmäßigen verschieden sein. In einer natürlichen physischen Umgebung würde eine normale zu prüfende Aussage sein, daß ein sich frei im Raum befindendes Objekt fallen wird. In einer virtuellen Umwelt ist das nicht immer wahr, denn es ist möglich, und potentiell vorteilhaft, einige Objekte so zu definieren, daß sie dort bleiben wo man sie im Raum hinstellt und nicht der Schwerkraft unterworfen sind. Daher kann ein Aussage-Modell vorteilhafterweise Vorhaben bzw. Aussagen erstellen und prüfen, die sich nicht auf natürliche physische Systeme oder auf ein herkömmliches erwartetes Verhalten beziehen. Gleichermaßen kann ein Aussage-Modell vorteilhafterweise Aussage-Kenntnisse über ein Signal auf modifizierte Weise in Abhängigkeit von der zu unternehmenden Aufgabe interpretieren, oder es kann die Aussage-Information ignorieren und auf eine implizierte Operation zurückgreifen, wenn das als vorteilhaft angesehen wird.
  • Eine Ausführungsform der vorliegenden Erfindung ist im folgenden im einzelnen unter Bezug auf die Figuren beschrieben, in denen zeigen:
  • Fig. 1 ein Fragment einer Hörfehler-Oberfläche,
  • Fig. 2 eine Bildzerlegung für eine Vorhersage der Fehlersubjektivität,
  • Fig. 3 eine schematische Darstellung eines eines multisensorischen Wahrnehmungsmodells nach dem Stand der Technik, das die groben modalen Abhängigkeiten und den Einfluß durch die Aufgabe zeigt,
  • Fig. 4 eine schematische Darstellung eines ähnlichen multisensorischen Wahrnehmungsmodells, das gemäß der vorliegenden Erfindung modifiziert ist.
  • Die Fig. 1, 2 und 3 sind bereits kurz erwähnt worden. Ein praktisches Modell, das eine erfindungsgemäße Aussage-Eingangsinformation nutzen kann, ist im folgenden unter Bezug auf Fig. 4 beschrieben, in der die konzeptuellen Elemente der Ausführungsform illustriert sind, die in geeigneter Weise als Software dargestellt ist, die auf einem Universalcomputer läuft. Das allgemeine Layout ist ähnlich dem der Anordnung vom Stand der Technik in Fig. 3, jedoch mit weiteren Eingängen 51, 61, die mit den Stimuli des Hörens und Sehens 11 bzw. 21 verbunden sind. Diese Information kann entweder durch zusätzliche Datenkomponenten geliefert werden, die die Eingangsstimuli begleiten, z. B. gemäß den bereits erwähnten MPEG7-Vorschlägen, oder durch eine dem Kontext entsprechende Information über die Eigenschaften, die innerhalb einer virtuellen Umgebung existieren können, z. B. einer lokalen Kopie der virtuellen Welt, die in der Wahrnehmungsschicht 40 gespeichert ist. Im letzteren Fall könnte das Modell der lokalen virtuellen Welt verwendet werden, um die Plausiblität von Signal- Interaktionen innerhalb bekannter Grenzen und die Existenz von Bildstrukturen in einer Bücherei von verfügbaren Objekten zu testen.
  • Die meisten der in Fig. 4 gezeigten Komponenten sind mit denen des in Fig. 3 gezeigten Systems gemeinsam, und diese werden zuerst beschrieben.
  • Ein Hör-Sensorschichtmodellkomponente 10 umfaßt einen Eingang 11 für den Audiostimulus, der an ein Hör-Sensorschichtmodell 12 gegeben wird, das die Wahrnehmungsbedeutung der verschiedenen Hörbänder und Zeitelemente des Stimulus mißt und ein Ausgabesignal 16 erzeugt, das für den hörbaren Fehler als einer Funktion des Hörbandes und der Zeit repräsentativ ist. Dieser hörbare Fehler kann durch einen Vergleich des wahrnehmungsmäßig modifizierten Audiostimulus 13 mit einem Referenzsignal 14 gewonnen werden, wobei die Differenz durch eine Subtraktionseinheit 15 bestimmt wird, die ein Ausgangssignal 16 in Form einer Matrix des subjektiven Fehlers als Funktion von Hörband und Zeit liefert, die durch eine Reihe von Koeffizienten Eda1, Eda2, ..., Edan definiert sind. Alternativ dazu kann das Modell das Ausgangssignal 16 ohne Verwendung eines Referenzsignals erzeugen, z. B. gemäß dem Verfahren, das in der internationalen Patentschrift WO96/06496 beschrieben ist. Die Hörfehlermatrix kann als hörbare "Fehler" oberfläche dargestellt werden, wie in Fig. 1 gezeigt ist, in der die Koeffizienten Eda1, Eda2, ..., Edan in Bezug auf Zeit und Hörbänder angezeichnet sind.
  • Ein ähnlicher Prozeß findet in Bezug auf die visuelle Sensorschichtmodellkomponente 20 statt. In diesem Zusammenhang ist jedoch ein weiterer Schritt erforderlich. Das vom visuellen Sensorschichtmodell 22 n erzeugte Bild wird in einer Bildzerlegungseinheit 27 analysiert, um Elemente zu identifizieren, in denen Fehler besonders signifikant sind, und diese werden entsprechend gewichtet, wie in der internationalen Patentschrift WO97/32428 beschrieben ist und wie bereits in der vorliegenden Beschreibung unter Bezug auf Fig. 2 diskutiert wurde. Dadurch wird eine Gewichtsfunktion für solche Elemente des Bildes angegeben, die wahrnehmungsmäßig die bedeutendsten sind. Insbesondere sind die Grenzen im Hinblick auf die Wahrnehmung wichtiger als die Fehler innerhalb des Gebildes eines Bildelements. Die im Gewichtsgenerator 28 erzeugten Gewichtsfunktionen werden dann an den Ausgang 26 in einer Berechnungseinheit 29 sichtbarer Fehler gegeben und es wird analog zu der oben beschriebenen Matrix hörbarer Fehler eine "Matrix sichtbarer Fehler" erzeugt. Die Matrix kann durch eine Reihe von Koeffizienten Edv1, Edv2, ..., Edvn definiert werden. Die Bilder selbst sind zweidimensional, so daß für ein bewegtes Bild die Matrix sichtbarer Fehler mindestens drei Dimensionen aufweist.
  • Es ist anzumerken, daß die individuellen Koeffizienten in den Matrizen hörbarer Fehler und sichtbarer Fehler Vektoreigenschaften sein können.
  • Im dargestellten System gibt es sowohl Audio- als auch visuelle Stimuli 11, 21 und daher gibt es auch eine Reihe von Kreuzmodulationseffekten, die die Wahrnehmungsqualität des Signals beeinträchtigen können. Die wesentlichen Effekte, die durch das Kreuzmodulations-Modell 30 zu modellieren sind, sind die Qualitätsbalance zwischen den Ausführungsarten (Sehen und Hören) und den Effekten der zeitlichen Abstimmung zwischen denselben. Solche Effekte der zeitlichen Abstimmung können die Sequentialisierung (Ereignisabfolgen in einer Ausführungsart, die die Benutzerempfindlichkeit in bezug auf Ereignisse in einer anderen Ausführungsart umfassen) und die Synchronisation sein (Korrelation zwischen Ereignissen in verschiedenen Ausführungsarten).
  • Die Fehlersubjektivität hängt auch von der einbezogenen Aufgabe ab. Hohe kognitive Vorurteile in Verbindung mit der Aufgabe, die Aufmerksamkeitsteilung zwischen den Ausführungsarten, der Grad von mit der Aufgabe zusammenhängendem Stress und das Maß an Erfahrung, die der Benutzer hat, das alles hat Auswirkungen auf die subjektive Wahrnehmung der Qualität.
  • Eine mathematische Struktur für das Modell kann wie folgt zusammengefaßt werden:
  • Ea1, Eda2, ..., Edan sind die Hörfehler-Deskriptoren und
  • Edv1, Edv2, ..., Edvn sind die Sehfehler-Deskriptoren.
  • Dann ist, für eine gegebene Aufgabe
  • fnaws die Gewichtsfunktion zur Berechnung der Hörfehler-Subjektivität,
  • fnaws die Gewichtsfunktion zur Berechnung der Sehfehler-Subjektivität
  • und fnpm die Kreuzmodulations-Kombinationsfunktion.
  • Das aufgabenspezifische Leistungsmaß PM, das Ausgangssignal vom Modell 40 ist sodann:
  • PM = fnpm[fnaws{Eda1, Eda2, ..., Edan}, fnvws{Edv1, Edv2, ..., Edvn}].
  • Das Wahrnehmungsschichtmodell 40 kann für eine spezifische Aufgabe konfiguriert sein, oder es kann durch zusätzliche variable Eingangssignale Twa, Twv in das Modell konfigurierbar sein (Eingänge 41, 42), die die Art der zu erfüllenden Aufgabe anzeigen, wodurch die Gewichtungen in der Funktion fnpm in Übereinstimmung mit der Aufgabe variiert werden. Zum Beispiel ist für die Aufgabe einer Videokonferenz die Qualität des Audiosignals im allgemeinen wichtiger als das visuelle Signal. Wenn jedoch die Videokonferenz von einer Ansicht der einzelnen Personen, die an der Konferenz teilnehmen, zu einem Dokument schaltet, das gelesen werden soll, wird die Bedeutung der Ansicht des Bildes wichtiger, und beeinflußt das Gewicht, welches den Seh- und Hörelementen beizumessen ist.
  • Alternativ dazu können die Funktionen Fnaws, fnvws selbst zu Funktionen für die Bewertung der Aufgabe werden, indem sie erlauben, daß die relative Bedeutung der individuellen Koeffizienten Eda1, Edv1 etc. gemäß der gegebenen Aufgabe variiert wird und das Leistungsmaß, PM', vorherzusagen, nämlich:
  • PM' = fn'pm[fn'aws{Eda1, Eda2, ..., Edan, Twa}, fn'vws{Edv1, Edv2, ..., Edvn, Twv}].
  • In Fig. 4 wird ein zusätzliches Signal, prop(A), für den (Audio- als auch visuelle Stimuli 11, 21) Audio-Stimulus 11 und/oder ein zusätzliches Signal prop(V), für den visuellen Stimulus 21 direkt an das Wahrnehmungsschichtmodell als zusätzliche Variable 51 bzw. 61 in den Leistungsmaß-Funktionen angelegt. Dieser Stimulus zeigt die Art des Schalls oder des Bildes an, auf die sich der Stimulus bezieht und kann über einen beliebigen Dateneingang, z. B. als Teil des vorgeschlagenen MPEG7-Bitstroms oder in Form einer lokalen Kopie der virtuellen Welt, die durch den Seh-Stimulus 21 dargestellt wird, codiert werden. Die modifizierte Wahrnehmungsschicht 40 der Fig. 4 vergleicht das wahrgenommene Bild mit dem, was laut der codierten Eingänge 51, 61 im erhaltenen Bild vorhanden sein sollte und erzeugt einen zusätzlichen Gewichtsfaktor, wie nahe der aktuelle Stimulus 11, 21 an den an die Wahrnehmungsschicht gelieferten Daten liegt, die als Wahrnehmungsdaten 51, 61 bestimmt sind. Die Eingänge 51, 61 werden mit der Wahrnehmungsschicht 40 verglichen, wobei die in den entsprechenden Datenbanken 52, 62 gespeichert Daten die erforderlichen Gewichtungen kennzeichnen sollen, die für die einzelne Aussage-Situation erforderlich sind.
  • Wenn die Aussage-Information sich auf die Gegenstände bezieht, die genauer als verschieden in Bezug auf die Art des Stimulus (Musik, Sprache etc.,) dargestellt sind, liefern die gespeicherten Daten 52, 62 Daten über die Art der zu erwartenden Bilder, die mit den aktuellen Bildern/dem Ton im Eingangsstimulus 11, 21 verglichen werden, um eine Gewichtung zu erzeugen.
  • Die Dateneingänge 52, 62 können auch Daten liefern, die für den Kontext relevant sind, in dem die Daten erhalten wurden, entweder vorprogrammiert oder vom Benutzer eingegeben. So sind z. B. bei einer Telekonferenz-Anwendung die Audioeingaben im allgemeinen von größerer Bedeutung als die visuellen Eingaben, die nur ein Bild der anderen Teilnehmer produzieren. Wenn jedoch der empfangende Benutzer einen Hörfehler hat, ist das Videobild von größerer Bedeutung. Insbesondere Echtzeit-Videoverarbeitung und Synchronisation von Ton und Bild sind von wesentlich größerer Bedeutung, wenn der Benutzer auf Lippenlesen angewiesen ist, um seiner Hörschwierigkeit entgegenzuwirken.
  • Eine mathematische Struktur für das Modell kann als Verlängerung des oben beschriebenen Multimoden-Modells zusammengefaßt werden. Für den Fall eines Aussagen-Eingangs ist eine Funktion fnppm als aussagemäßig angepaßte Kreuzmodulations-Kombinationsfunktion definiert.
  • Das aufgabenspezifische Leistungsmaß PMprop, das von der Wahrnehmungsschicht 40 ermittelt wird, enthält daher eine Aussage-Gewichtung und ist durch
  • PMprop = fnppm{fnaws{Eda1, Eda2, ..., Edan}, fnvws{Edv1, Edv2, ..., Edvn}}
  • gegeben.
  • Alternativ dazu könnten auch die Ausdrücke Tpw, Tpwv, die ähnlich den oben beschrieben Ausdrücken Twa, Twv, sind, an die einzelnen Gewichtsfunktionen fnaws, fnvws angelegt werden, und sie ergeben ein Leistungsmaß PM'prop wie folgt:
  • PM'prop = fn'ppm{fn'aws{Eda1, Eda2, ..., Edan, Tpwa}, fn'vws{Edv1, Edv2, ..., Edvn, Tpwv}},
  • worin bedeutet:
  • Tpwa die aussagemäßig gewichtete Aufgabengewichtung für Audio
  • Tpwv die aussagemäßig gewichtete Aufgabengewichtung für Video.

Claims (18)

1. Verfahren zum Testen von Kommunikationsausrüstung, das umfaßt:
- die Erfassung von Verzerrungen in einem Eingangsstimulus, der von der sich im Test befindlichen Kommunikationsausrüstung mehrere Komponenten erhalten hat,
- die Bestimmung des Ausmaßes, bis zu dem die Verzerrung für einen menschlichen Beobachter wahrnehmbar ist, und
- Erzeugung eines Ausgangssignals, das in Übereinstimmung mit den Verzerrungen die subjektive Wirkung der Verzerrungen anzeigt,
wobei das Verfahren den Schritt der Verwendung von mit dem Stimulus verbundenen Hochpegel-Anwenderdaten umfaßt, die die Natur der erfolgten Übertragung anzeigen, wobei die Hochpegel-Anwenderdaten in Form von Deskriptoren des Inhalts oder der geplanten Verwendung der übertragenen Daten vorliegen, und die Hochpegel-Anwenderdaten verwendet werden, um die subjektive Bedeutung der Komponenten des Stimulus zu gewichten.
2. Verfahren nach Anspruch 1, in dem die Hochpegel-Anwenderdaten sich auf den geplanten Informationsgehalt des Eingangsstimulus beziehen, der verzerrte Eingangsstimulus auf den aktuellen Informationsgehalt analysiert wird, ein Vergleich zwischen dem aktuellen und dem geplanten Informationsgehalt durchgeführt wird, und das erzeugte Ausgangssignal das Ausmaß der Übereinstimmung zwischen dem geplanten und dem aktuellen Informationsgehalt anzeigt.
3. Verfahren nach Anspruch 1, in dem die Verarbeitung ein Codierungsprozeß ist, dessen Betrieb auf die Hochpegel-Anwenderdaten angepaßt ist.
4. Verfahren nach Anspruch 1, 2 oder 3, in dem die Hochpegel- Anwenderdaten mit dem Eingangsstimulus von einer entfernten Quelle erhalten werden.
5. Verfahren nach Anspruch 1, 2 oder 3, das den Schritt der Gewinnung der Hochpegel-Anwenderdaten von einem lokalen Datenspeicher umfaßt.
6. Verfahren nach Anspruch 1, 2, 3, 4 oder 5, in dem sich mindestens ein Teil der Hochpegel-Anwenderdaten auf Toninformationen beziehen.
7. Verfahren nach Anspruch 1, 2, 3, 4, 5 oder 6, in dem sich mindestens ein Teil der Hochpegel-Anwenderdaten auf Videoinformationen beziehen.
8. Verfahren nach Anspruch 7, in dem die Hochpegel-Anwenderdaten Informationen umfassen, die sich auf Bilder beziehen, die von den Videoinformationen wiedergegeben werden, und die mit gespeicherten Daten verglichen werden, die charakteristische Merkmale der Bilder definieren.
9. Verfahren nach Anspruch 8, in dem das wiederzugebende Bild ein Bild aus einem vorgegebenen Satz von Bildern ist.
10. Verfahren nach Anspruch 9, in dem das Bild, das im empfangenen Signal wiedergegeben wird, durch das Bild aus dem vorgegebenen Satz von Bildern ersetzt wird, das ihm am ähnlichsten ist.
11. Vorrichtung zum Testen von Kommunikationsausrüstung, die umfaßt:
- eine Einrichtung zum Empfang eines Eingangsstimulus, der von der sich im Test befindlichen Kommunikationsausrüstung mehrere Komponenten erhalten hat;
- eine Verarbeitungseinrichtung zur Erfassung von Verzerrungen in den mehreren Komponenten,
- eine Wahrnehmbarkeitsanzeigeeinrichtung zur Erzeugung einer Anzeige des Ausmaßes, bis zu dem die Verzerrung jeder Komponente für einen menschlichen Beobachter wahrnehmbar ist,
- eine Gewichtungseinrichtung zur Verarbeitung der mit dem Stimulus verbundenen Hochpegel-Anwenderdaten, die die Natur der erfolgten Übertragung anzeigen, wobei die Hochpegel-Anwenderdaten in Form von Deskriptoren des Inhalts der Daten oder der geplanten Verwendung der übertragenen Daten vorliegen, und wobei die Gewichtungseinrichtung so ausgelegt ist, daß sie die subjektive Bedeutung der Komponenten des Stimulus bezüglich der Hochpegel- Anwenderdaten wichtet, und
- eine Ausgangssignalerzeugungseinrichtung zur Erzeugung eines Ausgangssignals in Übereinstimmung mit dem Ausgangssignal der Wahrnehmbarkeitsanzeigeeinrichtung, das gemäß den von der Gewichtungseinrichtung erzeugten Wichtungen gewichtet wird.
12. Vorrichtung nach Anspruch 11, in der die Verarbeitungseinrichtung eine Einrichtung zur Gewichtung der Wahrnehmbarkeitsanzeigen bezüglich der Wahrnehmungsrelevanz verschiedener Verzerrungstypen der Hochpegel- Anwenderdaten aufweist, und ein Ausgangssignal erzeugt, das die subjektive Gesamtwirkung der Verzerrungen im Eingangstimulus anzeigt.
13. Vorrichtung nach Anspruch 11 oder 12, die eine Einrichtung zum Empfang der sich auf den Informationsgehalt des Stimulus beziehenden Hochpegel- Anwenderdaten mit dem Eingangsstimulus umfaßt.
14. Vorrichtung nach Anspruch 11, 12 oder 13, die eine Einrichtung zur Analyse des verzerrten Eingangsstimulus auf den aktuellen Informationsgehalt, eine Vergleichseinrichtung zum Vergleich des aktuellen und des geplanten Informationsgehalts umfaßt und ein Ausgangssignal erzeugt, das das Ausmaß der Übereinstimmung zwischen dem geplanten und dem aktuellen Informationsgehalt anzeigt.
15. Vorrichtung nach Anspruch 11, 12, 13 oder 14, die eine Vergleichseinrichtung zum Vergleich der Hochpegel-Anwenderdaten, die sich auf das wiedergegebene Bild beziehen, mit gespeicherten Daten umfaßt, die die charakteristischen Merkmale des Bildes definieren.
16. Vorrichtung nach Anspruch 11, die eine Codiereinrichtung und eine Einrichtung zur Anpassung des Betriebs der Codiereinrichtung auf die Hochpegel- Anwenderdaten umfaßt.
17. Vorrichtung nach Anspruch 11, 12, 13, 14, 15 oder 16, die einen Datenspeicher für die Hochpegel-Anwenderdaten und eine Einrichtung zur Gewinnung der Hochpegel-Anwenderdaten aus dem Datenspeicher umfaßt.
18. Vorrichtung nach Anspruch 17, die ferner eine Einrichtung zur Anpassung des erhaltenen Signals durch Ersetzen eines in dem erhaltenen Signal wiedergegebenen Bildes durch das Bild aus dem vorgegebenen Satz von Bildern, das ihm ähnlichsten ist, umfaßt.
DE69801165T 1997-10-22 1998-10-09 Signalverarbeitung Expired - Lifetime DE69801165T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP97308429 1997-10-22
PCT/GB1998/003049 WO1999021173A1 (en) 1997-10-22 1998-10-09 Signal processing

Publications (2)

Publication Number Publication Date
DE69801165D1 DE69801165D1 (de) 2001-08-23
DE69801165T2 true DE69801165T2 (de) 2002-03-28

Family

ID=8229562

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69801165T Expired - Lifetime DE69801165T2 (de) 1997-10-22 1998-10-09 Signalverarbeitung

Country Status (5)

Country Link
US (1) US6512538B1 (de)
EP (1) EP1046155B1 (de)
CA (1) CA2304749C (de)
DE (1) DE69801165T2 (de)
WO (1) WO1999021173A1 (de)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3622840B2 (ja) * 2000-08-25 2005-02-23 Kddi株式会社 伝送画質評価装置および伝送画質遠隔監視装置
US7102667B2 (en) * 2002-03-18 2006-09-05 Tektronix, Inc. Picture quality diagnostics for revealing cause of perceptible impairments
CN1695164A (zh) * 2002-11-06 2005-11-09 新加坡科技研究局 生成用于评估图像或视频质量的质量导向重要性图的方法
US7557775B2 (en) * 2004-09-30 2009-07-07 The Boeing Company Method and apparatus for evoking perceptions of affordances in virtual environments
CA2617893C (en) 2005-09-06 2011-05-03 Nippon Telegraph And Telephone Corporation Video communication quality estimation device, method, and program
EP2106154A1 (de) * 2008-03-28 2009-09-30 Deutsche Telekom AG Audiovisuelle Qualitätsbewertung
US8749641B1 (en) * 2013-05-01 2014-06-10 Google Inc. Detecting media source quality to determine introduced phenomenon
US10650813B2 (en) * 2017-05-25 2020-05-12 International Business Machines Corporation Analysis of content written on a board
CN111025280B (zh) * 2019-12-30 2021-10-01 浙江大学 一种基于分布式最小总体误差熵的运动目标测速方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4860360A (en) * 1987-04-06 1989-08-22 Gte Laboratories Incorporated Method of evaluating speech
US5630019A (en) * 1992-05-23 1997-05-13 Kabushiki Kaisha Topcon Waveform evaluating apparatus using neural network
US5301019A (en) * 1992-09-17 1994-04-05 Zenith Electronics Corp. Data compression system having perceptually weighted motion vectors
US5446492A (en) * 1993-01-19 1995-08-29 Wolf; Stephen Perception-based video quality measurement system
US5794188A (en) * 1993-11-25 1998-08-11 British Telecommunications Public Limited Company Speech signal distortion measurement which varies as a function of the distribution of measured distortion over time and frequency
JP4008497B2 (ja) * 1996-02-29 2007-11-14 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー トレーニングプロセス

Also Published As

Publication number Publication date
CA2304749A1 (en) 1999-04-29
WO1999021173A1 (en) 1999-04-29
DE69801165D1 (de) 2001-08-23
EP1046155A1 (de) 2000-10-25
CA2304749C (en) 2006-10-03
US6512538B1 (en) 2003-01-28
EP1046155B1 (de) 2001-07-18

Similar Documents

Publication Publication Date Title
DE69520067T2 (de) Verfahren und Einrichtung zur Kennzeichnung eines Eingangssignales
DE60037485T2 (de) Signalverarbeitungsverfahren und Videosignalprozessor zum Ermitteln und Analysieren eines Bild- und/oder Audiomusters
DE69626115T2 (de) Signalqualitätsbewertung
DE10297035B4 (de) Rekonstruktion von Nachrichten anhand von Teildetektion
DE69804549T2 (de) Aufmerksamkeitsbilddaten zur objektiven Messung des Videoqualitätsverlust
DE69523503T2 (de) Audiovisuelles Kommunikations-Verfahren und -Vorrichtung mit integrierter, wahrnehmungsabhängiger Sprach- und Videokodierung
DE69433254T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE60014063T2 (de) Vorrichtung und verfahren zur erkennung von gefühlen in der menschlichen stimme
DE69321590T2 (de) Verfahren und einrichtung für objektive sprachqualitätsmessungen in telekommunikationseinrichtungen
DE112021004261T5 (de) Dualmodale beziehungsnetzwerke zur audiovisuellen ereignislokalisierung
DE69910358T2 (de) Verfahren und vorrichtung zur objektiven bewertung der videoqualität
EP3317878A1 (de) Verfahren und vorrichtung zum erzeugen einer datenbank
DE60122751T2 (de) Verfahren und vorrichtung für die objektive bewertung der sprachqualität ohne referenzsignal
DE69901894T2 (de) Verfahren und vorrichtung zur objektiven qualitätsmessung von audiosignalen
DE10297017T5 (de) Überwachung der Nutzung von Mediendaten mit Beseitigung von Nicht-Programmdaten
EP0938831B1 (de) Gehörangepasste qualitätsbeurteilung von audiosignalen
DE60205232T2 (de) Verfahren und vorrichtung zur bestimmung der qualität eines sprachsignals
DE69527523T2 (de) Verfahren und apparat zum auffinden und identifizieren eines gesuchten objekts in einem komplexen bild
DE60005798T2 (de) Analyse der qualität von videosignalen
DE69801165T2 (de) Signalverarbeitung
DE69706650T2 (de) System und verfahren zur fehlerkorrektur in einer auf korrelation basierenden grundfrequenzschätzvorrichtung
DE60307965T2 (de) Vorrichtung und Verfahren zum Ändern der Wiedergabegeschwindigkeit von gespeicherten Sprachsignalen
DE60004852T2 (de) Verfahren zur qualitätsbeurteilung von audiovisuellen sequenzen
DE19521408C1 (de) Verfahren zum objektiven Bewerten der Bildqualität zwei- oder dreidimensionaler Bilder
EP2064898B1 (de) Vorrichtung zum bestimmen von informationen zur zeitlichen ausrichtung zweier informationssignale

Legal Events

Date Code Title Description
8364 No opposition during term of opposition