DE69924743T2

DE69924743T2 - Messung der qualität von sprachsignalen

Info

Publication number: DE69924743T2
Application number: DE69924743T
Authority: DE
Inventors: John Richard Ipswich REYNOLDS; William Antony RIX; Peter Michael Woodbridge HOLLIER; Philip Ipswich GRAY; Jane Eleanor Lymington BEAMOND
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1998-10-08
Filing date: 1999-09-29
Publication date: 2006-03-02
Anticipated expiration: 2019-09-30
Also published as: DE69924743D1; EP1119957A1; WO2000022803A1; IL142300A0; US6718296B1; ATE293333T1; EP1119957B1

Description

Diese Erfindung betrifft die Messung einer Qualität eines akustischen Signals und insbesondere eines Sprachsignals. Objektive Verfahren für diesen Zweck befinden sich im Moment in der Entwicklung und werden beim Testen von Prototypen, beim Testen von Komponenten vor der Auslieferung und beim Testen von installierten Einrichtungen in Dienst angewendet. Sie werden im Allgemeinen im Fernsprechbetrieb verwendet, werden aber auch in anderen zur Übertragung von Sprachsignalen verwendeten System angewendet, zum Beispiel in Lautsprecheranlagen.
Der vorliegende Anmelder besitzt eine Anzahl von diesen technischen Bereich betreffende Patente und Anmeldungen, insbesondere das am 14. Oktober 1998 erteilte Europäische Patent 0647375. In diesem System wird ein von dem System in Test vermindertes Signal mit einem Referenzsignal verglichen, das nicht durch das getestete System hindurchging, um hörbare Fehler in dem Signal mit verminderter Qualität zu identifizieren. Diese hörbaren Fehler werden geprüft, um ihre wahrnehmbare Signifikanz festzustellen – das heißt, Fehlern der Typen, die von menschlichen Zuhörern als signifikant betrachtet werden, wird ein größeres Gewicht gegeben als denen, die als nicht so signifikant angesehen werden. Da nur hörbare Fehler geprüft werden, werden unhörbare Fehler, die für die Wahrnehmung irrelevant sind, nicht geprüft.
Das automatisierte System liefert eine Ausgabe vergleichbar zu subjektiven Qualitätsmessungen, die ursprünglich zur Verwendung durch menschliche Subjekte vorgesehen waren. Insbesondere erzeugt es zwei Werte Y_LE und Y_LQ, die äquivalent sind zu den „mittleren Meinungswertungen" (MOS – Mean Opinion Scores) für „Zuhör- Anstrengung" und „Zuhör-Qualität", die von einer Gruppe menschlicher Zuhörer geliefert werden, wenn sie demselben Signal zuhören, wie später diskutiert wird. Die Verwendung eines automatisierten Systems ermöglicht eine konsistentere Bewertung, als menschliche Bewerter erreichen könnten, und ermöglicht auch die Verwendung von komprimierten und vereinfachten Testsequenzen und mehrsprachigen Testsequenzen, die falsche Ergebnisse liefern, wenn sie mit menschlichen Bewertern verwendet werden, da derartige Sequenzen keinen verständlichen Inhalt ausdrücken.
Derartige automatisierte Systeme erfordern, dass ein bekanntes (Referenz-)Signal durch ein Verzerrungssystem (das Telefonnetz) gespielt wird, um ein Signal mit verminderter Qualität abzuleiten, das mit einer nicht verzerrten Version des Referenzsignals verglichen wird. Derartige Systeme sind als „eindringende (intrusive)" Messsysteme bekannt, da, während der Test durchgeführt wird, das getestete System keinen Live(Einnahmen erzielenden)-Verkehr übertragen kann.
Eine gehörgerechte Umwandlung jedes Signals wird vorgenommen, um die Antwort des menschlichen Hörsystems (Ohr und Gehirn) auf Schall zu emulieren. Das Signal mit verminderter Qualität wird dann mit dem Referenzsignal in der wahrnehmbaren (perceptual) Domäne verglichen, in der die subjektive Qualität, die von einem das Netzwerk benutzenden Hörer wahrgenommen würde, aus Parametern bestimmt wird, die aus den Umwandlungen extrahiert werden.
Ein geeignetes Testsignal wird in der Internationalen Patentbeschreibung WO/95/01011 ( EP0705501 ) offenbart und weist eine Sequenz von sprachähnlichen Tönen auf, die ausgewählt wurden, repräsentativ für die verschiedenen Typen von phonetischen Tönen zu sein, die das getestete System zu handhaben hat, dargestellt in einer Sequenz.
Die Töne werden derart ausgewählt, dass typische Übergänge zwischen einzelnen phonetischen Elementen dargestellt werden. Eine typische Sprache weist eine Serie von Äußerungen auf, die von Ruheabschnitten getrennt werden, wenn der Sprecher zum Atmen pausiert oder dem anderen Teilnehmer der Konversation zuhört. Diese Ruheabschnitte und die Übergänge zwischen Äußerungen und Ruheabschnitten werden ebenso von dem Testsignal modelliert.
Das existierende System bewertet verlässlich die meisten Sprachübertragungstechnologien, die in herkömmlichen analogen und digitalen Vermittlungstelefonnetzen verwendet werden. In derartigen Netzen wird eine bestimmte Verbindung zwischen den beiden Parteien für einen Anruf für die Dauer dieses Anrufs bereitgestellt und die gesamte Sprache wird über diese Verbindung übertragen. Jedoch verbreiten sich verbindungslose paketbasierte Sprachübertragungssysteme immer weiter, insbesondere zur Verwendung im „Internet" und in den internen „Intranets" von Firmen. In einem verbindungslosen paketbasierten System wird jede Übertragung in eine Serie von Datenpakete aufgeteilt, die unabhängig voneinander von einem Benutzer zu dem anderen gehen. Zwischenknoten in dem Netzwerk übertragen die Pakete zu anderen Knoten gemäß in jedem Paket übertragener Adressinformation. Jedoch können, gemäß den Anforderungen von anderem Verkehr auf den verschiedenen Verbindungen zwischen derartigen Knoten, verschiedene Pakete verzögert sein oder sich auf unterschiedlichen Routen bewegen, um dasselbe Ziel zu erreichen. Folglich variieren Ende-zu-Ende-Zeiten von einem Paket zu einem anderen. Für die Übertragung von Daten, wie Text, oder beim Herunterladen von Computerdateien für eine nachfolgende Verwendung durch den Empfänger, haben derartige Schwankungen in den Ende-zu-Ende-Zeiten nur geringe Folgen. Wenn sie jedoch für Sprache in Echtzeit verwendet werden, können diese Variationen die Klarheit der Sprache, wie sie von dem Benutzer wahrgenommen wird, beeinträchtigen.
Verschiedene Vorschläge wurden gemacht, um zu versuchen, die Verzögerung auf ein Niveau zu minimieren, das eine Unterhaltung und ein Verständnis nicht stört – siehe zum Beispiel die internationale Patentanmeldung WO099/12329 dieses Anmelders und den Artikel von R. Barnett in „Electronics and Communication Engineering Journal", Oktober 1997, mit dem Titel „Connectionless ATM". Es ist für derartige verbindungslose Systeme jedoch fundamental, dass etwas Variation in der Rest-Verzögerung stattfindet. Eine einzelne Sprachäußerung wird typischerweise aus der in mehreren Paketen übertragenen Information zusammengesetzt. Jedoch sind Verzögerungsschwankungen zwischen einzelnen Paketen in der resultierenden Äußerung im Allgemeinen nicht zu bemerken, da das langsamste Paket im Allgemeinen die Verzögerung für die Äußerung insgesamt bestimmt. Jedoch kann die Verzögerung für jede vollständige Äußerung zwischen einer Äußerung und der nächsten beträchtlich variieren, da Pufferlängen während Ruheabschnitten normalerweise angepasst werden.
Veränderungen der Verzögerung, die während einer Äußerung auftreten, zum Beispiel weil ein Teil der Äußerung fehlt, sind in der resultierenden Äußerung eher bemerkbar.
Zusätzlich zu Veränderungen in einer Rest-Verzögerung werden nun immer mehr Übertragungssysteme verwendet, in denen Änderungen in anderen Charakteristiken, wie dem Pegel (Signalamplitude), auftreten können. Siehe ITU-T Entwurfsempfehlung G.169.
Das menschliche Gehirn ist unempfindlich gegenüber geringen Änderungen der Verzögerung und Amplitude zwischen Sprachereignissen, so dass diese Schwankungen für einen menschlichen Zuhörer nicht wahrzunehmen sind, vorausgesetzt, die Wirkung ist nicht so groß, dass sie eine Konversation stört. Jedoch ist das Messsystem gemäß dem Stand der Technik empfindlich gegenüber derartigen Variationen, so dass es beim Testen von verbindungslosen Paketsystemen unzuverlässige Werte für eine Signalqualität liefert – das heißt, die Ergebnisse reflektieren nicht akkurat die von menschlichen Subjekten berichtete subjektive Qualität.
Wenn die Verzögerung konstant ist, können die beiden Signale einfach synchronisiert werden, um die Verzögerung zu berücksichtigen. Wenn jedoch das Signal mit verminderter Qualität unter einer variablen Verzögerung leidet, würden zumindest einige Teile des Signals mit verminderter Qualität nicht mit dem Testsignal synchronisiert werden. Das Fehlen einer Synchronisierung in diesen Teilen würde als beträchtliche Fehler erfasst, die so groß wären, dass sie jegliche von der tatsächlichen Verschlechterung des Signals verursachte Fehler maskieren würden. Dies würde zu einer ungenauen Messung des subjektiven Effekts der Verschlechterung führen.
Es gibt deswegen ein Erfordernis für ein Messsystem, das gegenüber derartigen variablen Verzögerungen robust ist.
Gemäß der Erfindung ist eine Vorrichtung zum Testen von Einrichtungen zur Handhabung von Sprachsignalen vorgesehen, mit Mitteln zum Empfangen erster und zweiter Signale,
Mitteln zum Vergleichen des zweiten Signals mit dem ersten Signal, um ein Verzerrungs-Wahrnehmungs-Maß zu erzeugen, das den Grad anzeigt, zu dem die Verzerrung des Signals für einen menschlichen Zuhörer wahrnehmbar wäre, und
gekennzeichnet durch
Mittel zur Auswahl einzelner Abschnitte in dem ersten Signal und dem zweiten Signal,
Mittel zum Synchronisieren jedes Abschnitts in dem zweiten Signal mit dem entsprechenden Abschnitt in dem ersten Signal, wobei das Vergleichs-Mittel mit den entsprechenden synchronisierten Abschnitten arbeitet,
und Mittel zum Kombinieren der Ergebnisse einer jeden derartigen Messung, um ein Gesamtmaß des Grades zu erzeugen, zu dem die Verzerrung des zweiten Signals hinsichtlich des ersten Signals für einen menschlichen Zuhörer wahrnehmbar wäre.
Vorzugsweise berücksichtigt das Gesamtmaß die wahrnehmbare Signifikanz eines jeden Abschnitts. Die wahrnehmbare Signifikanz eines bestimmten Abschnitts ist abhängig von der Anzahl einzelner Sprachkomponenten und deren relativer Signifikanz für subjektive Qualitätsmaße in diesem Abschnitt.
Die Mittel zur Auswahl einzelner Abschnitte in den beiden Signalen können aufweisen Mittel zum Identifizieren einzelner Äußerungen. In dem bevorzugten Ausführungsbeispiel wird dies durch Erfassen des Endes jedes Ruheabschnitts in dem Signal erreicht. Eine Synchronisierung wird vorzugsweise durch Analyse des Sprachinhaltes der Signale durchgeführt. Jedoch kann eine getrennte Synchronisierungscharakteristik verwendet werden, um den Anfang jedes Abschnitts zu identifizieren. Diese Synchronisierungscharakteristik ist vorzugsweise außerhalb der Frequenzband-Charakteristik von Sprache, so dass sie das Analyseverfahren (das nur Veränderungen erfasst, die für einen menschlichen Zuhörer wahrnehmbar sind) nicht stört. Die einen bestimmten Abschnitt betreffende Synchronisierungscharakteristik kann als eindeutig für diesen Abschnitt ausgewählt werden, um sicherzustellen, dass jeder verzerrte Abschnitt mit dem entsprechenden Testabschnitt verglichen wird. Dies stellt sicher, dass, sollte ein Abschnitt oder seine Synchronisierungscharakteristik als Ergebnis der Verzerrung verloren gehen, nachfolgende Abschnitte trotzdem analysiert werden können.
In einer bevorzugten Anordnung wird jeder Abschnitt analysiert, um die Position jeder Verzögerungsänderung zu identifizieren, und die Teile des Abschnitts, die jeder Verzögerungsänderung voraus gehen und nachfolgen, werden getrennt synchronisiert und auf Verzerrung analysiert.
In dem im Detail zu beschreibenden Ausführungsbeispiel können die Abschnitte, die zur Analyse ausgewählt werden, einzelne Äußerungen aufweisen, das heißt, ununterbrochene Abschnitte von Sprache, denen jeweils eine Ruhe voraus geht und auf die eine Ruhe einer minimalen vorgegebenen Länge folgt. Jedoch kann eine Anzahl alternativer Verfahren zum Definieren geeigneter Abschnitte verwendet werden. Zum Beispiel können lange Äußerungen, wie vorher definiert, in zwei oder mehrere Teil-Äußerungen unterteilt werden. Das Signal kann stattdessen in eine Anzahl von Abschnitten fester Länge oder in eine feste Anzahl von gleich langen Abschnitten geteilt werden. Wenn jedoch Abschnitte überhaupt keine Sprache enthalten, werden sie vorzugsweise nicht für eine Analyse verwendet, da eine Verzögerung schwieriger zu bestimmen ist. Alle Fehler in Abschnitten, die keine Information enthalten, sind weniger wahrscheinlich wahrnehmbar wichtig.
In einem weiteren Aspekt weist die Erfindung ein Verfahren zum Testen von Einrichtungen zur Handhabung von Sprachsignalen auf, mit den Schritten:
Liefern eines Testsignals,
Empfangen eines verzerrten Signals, das dem Testsignal entspricht,
wenn es von der getesteten Einrichtung verzerrt wird,
Vergleichen des verzerrten Signals mit dem Testsignal, um ein Verzerrungs-Wahrnehmungs-Maß zu erzeugen, das den Grad anzeigt, zu dem die Verzerrung des Signals für einen menschlichen Zuhörer wahrnehmbar wäre, und
dadurch gekennzeichnet, dass
einander entsprechende einzelne Abschnitte in dem Testsignal und dem verzerrten Signal ausgewählt und synchronisiert werden, und der Vergleich zwischen einander entsprechenden Abschnitten durchgeführt wird,
und die Ergebnisse jedes derartigen Vergleichs kombiniert werden, um ein Gesamtmaß des Grades zu erzeugen, zu dem die Verzerrung des Signals für einen menschlichen Zuhörer wahrnehmbar wäre.
Die Erfindung kann in einer Computer-Software als ein Computerprogrammprodukt zum direkten Laden in den internen Speicher eines digitalen Computers verwirklicht werden, mit Softwarecodeteilen zum Durchführen der Schritte des oben beschriebenen Verfahrens, wenn das Produkt auf einem Computer läuft.
In einem weiteren Aspekt weist die Erfindung ein Computerprogrammprodukt auf, das auf einem Computer-verwendbaren Medium gespeichert ist, mit:
Computer-lesbaren Programm-Mitteln, die den Computer veranlassen, ein erstes Signal und ein zweites Signal zu analysieren, um ein Verzerrungs-Wahrnehmungs-Maß zu erzeugen, das den Grad anzeigt, zu dem die Verzerrung des zweiten Signals im Vergleich zu dem ersten Signal für einen menschlichen Zuhörer wahrnehmbar wäre, und
charakterisiert durch Computer-lesbare Programm-Mittel, die einen Computer veranlassen, einzelne Abschnitte in dem ersten Signal und dem zweiten Signal auszuwählen,
Computer-lesbare Programm-Mittel, die den Computer veranlassen, jeden Abschnitt in dem verzerrten Signal mit dem entsprechenden Abschnitt in dem Testsignal zu synchronisieren und ein Verzerrungs-Wahrnehmungs-Maß zu erzeugen, das den Grad anzeigt, zu dem die Verzerrung jedes Abschnitts des zweiten Signals im Vergleich zu dem entsprechenden Abschnitt des ersten Signals für einen menschlichen Zuhörer wahrnehmbar wäre;
Computer-lesbare Programm-Mittel, die den Computer veranlassen, die Ergebnisse einer jeden derartigen Messung zu kombinieren, um ein Gesamtmaß des Grades zu erzeugen, zu dem die Verzerrung des Signals für einen menschlichen Zuhörer wahrnehmbar wäre.
Das Computerprogrammprodukt kann auf jeden geeigneten Träger aufgenommen werden, der von einer geeigneten Computereingabevorrichtung lesbar ist, wie CD-ROM, optisch lesbare Markierungen, magnetische Medien, Lochkarte oder ein elektromagnetisches oder optisches Signal.
Ein bevorzugtes Ausführungsbeispiel der Erfindung wird nun auf beispielhafte Weise unter Bezugnahme auf die Zeichnungen beschrieben, wobei:
1 in einer schematischen Form die allgemeine Anordnung des Systems gemäß dem Stand der Technik zeigt;
2 in einer schematischen Form die allgemeine Anordnung eines Systems gemäß der Erfindung zeigt;
3 detaillierter die Anordnung der Vorverarbeitungselemente von 1 und 2 zeigt;
4 detaillierter die Anordnung der gehörgerechten Umwandlungselemente von 1 und 2 zeigt;
5 das in dem bevorzugten Ausführungsbeispiel der Erfindung verwendete Äußerungsidentifizierungsverfahren erläutert;
6 das in dem bevorzugten Ausführungsbeispiel der Erfindung verwendete Äußerungsausrichtungsverfahren erläutert; und
7 die funktionalen Elemente eines Universalcomputers erläutert, der zur Durchführung der Erfindung geeignet ist;
8 ein modifiziertes Verfahren gemäß der Erfindung erläutert, in dem eine einzelne Äußerung in zwei Teilen ausgerichtet werden kann;
9 ein Zeitverlauf ist, der das in 8 gezeigte Verfahren erläutert.
Die in diesen Zeichnungen dargestellten funktionalen Komponenten können als eine auf einem Universalcomputer laufende Software implementiert werden.
Das in 1 gezeigte System gemäß dem Stand der Technik enthält zwei Eingänge 1, 2 für das Referenzsignal und das Signal mit verminderter Qualität. Diese werden einer Vorverarbeitung in einer Eingangsverarbeitungseinheit 3 unterzogen, in erster Linie um die beiden Signale zu synchronisieren, wie detaillierter unter Bezugnahme auf 3 beschrieben wird. Dann werden sie einer gehörgerechten Umwandlung in einer Umwandlungseinheit 4, 5 unterzogen, um die nicht-lineare Antwort des menschlichen Hörsystems auf eine Frequenz und die Frequenz-abhängige Antwort des Hörsystems auf eine Amplitude zu modellieren. Diese Umwandlungen werden detaillierter unter Bezugnahme auf 4 beschrieben. Sie erzeugen jeweils eine entsprechende Ausgabe 6, 7, die eine Serie von Werten aufweisen, die das Signal als einen Satz von Frequenzbändern und von Zeitintervallen darstellen, die als eine zweidimensionale Matrix oder graphisch als eine Oberfläche dargestellt werden können.
Die Frequenzbänder sind von ungleicher Breite, um die nicht-lineare Antwort des menschlichen Hörsystems zu berücksichtigen. Die Zeitintervalle müssen in jedem Hörband nicht dieselben sein, wie in dem europäischen Patent EP 0647375 diskutiert wird.
Die beiden Ausgaben 6, 7 werden von einem Vergleicher 8 verglichen, der eine Ausgabe 9 erzeugt, die ein Maß des Unterschieds zwischen ihnen ist. Diese Ausgabe 9 stellt den hörbaren Fehler dar, der von dem getesteten System auf das Referenzsignal 1 angewendet wird, um das Signal mit verminderter Qualität 2 zu erzeugen. Die drei Ausgaben 6, 7, 9 werden dann von einer Wahrnehmungs-Analyseeinheit 10 verarbeitet, welche die wahrnehmbare Signifikanz jedes an der Ausgabe 9 identifizierten hörbaren Fehlers bestimmt. Dieser Vorgang berücksichtigt dem Zusammenhang gemäße Faktoren, beispielsweise, ob der Fehler von anderen Frequenz- oder Zeit-Komponenten maskiert wird, ob der Fehler von einem Typ ist, der ein Verständnis beeinflusst, und andere Faktoren, die detailliert in den vorher erwähnten Spezifikationen diskutiert werden. Dann werden an dem Ausgang 11 Signale erzeugt, die einen Gesamtwert liefern für eine „Zuhör-Anstrengung" (Y_LE) – ein Maß, wie sich ein Zuhörer konzentrieren müsste, um eine Bedeutung aus einem derartige Verzerrungen übertragenden Signal zu gewinnen, und für eine „Zuhör-Qualität" (Y_LQ) – die subjektive Qualität des Signals. Beide Skalen bewerten das Signal auf einer Skala von 1 bis 5 (höhere Zahlen bedeu ten weniger Verschlechterung) und werden in ITU-T P.800 beschrieben.
3 zeigt schematisch die Vorgänge, die in der Eingangsverarbeitungseinheit 3 stattfinden. Jedes Signal wird zuerst einer Eingangsverarbeitung unterzogen (Einheiten 12/13), um einfache systematische Unterschiede, wie DC-Pegel, zu entfernen. Die Signale werden dann an die Filter 14/15 geleitet, welche die Frequenzantwort zwischen dem Punkt der Signalerfassung und dem inneren Ohr emulieren. Jedes Signal wird dann an eine jeweilige Spracherfassungsstufe 16/17 geleitet, um den Anfang der Sprache oder einen anderen vorgegebenen Einsatz in dem Signal zu identifizieren. Dadurch können einander entsprechende Teile des Referenzsignals und des Signals mit verminderter Qualität in einem Ausrichtungs-Prozessor 18 identifiziert werden, so dass die beiden Signale verarbeitet werden können, um eine Fehlerfläche zu erzeugen. In dem System gemäß dem Stand der Technik von 1, das konfiguriert ist zur Bewertung der Qualität von geschalteten Verbindungen, in denen eine Verzögerung konstant ist, ist diese Ausrichtung ausreichend, um die gesamte Sprachprobe zu synchronisieren. In der vorliegenden Erfindung werden jedoch einzelne Pakete und einzelne aus diesen Paketen zusammengesetzte Äußerungen verschiedenen Verzögerungen um den von dem Ausrichtungs-Prozessor 18 bestimmten Wert herum ausgesetzt. Im Allgemeinen trägt das Signal mit verminderter Qualität im Vergleich zu dem ursprünglichen Referenzsignal einen Grad von Dämpfung oder Verstärkung. Einfache Dämpfung oder Verstärkung, wenn sie sich innerhalb der Grenzen der Hörbarkeit befindet, beeinflusst die wahrnehmbare Qualität des Sprachinhalts nicht, somit müssen derartige Änderungen im Pegel in der Verarbeitung zugelassen werden. Der Ausrichtungs-Prozessor 18 vergleicht den absoluten Pegel der beiden Einsatz-Signale, so dass eine Dämpfung bei dem Vergleich kompensiert werden kann.
4 zeigt die funktionalen Elemente der gehörgerechten Umwandlungseinheiten 4, 5. Das Signal wird zuerst in eine Anzahl getrennter Frequenzbänder gefiltert (19), wobei dann jedes in der Zeitdomäne über ein Intervall gemittelt (20) wird. Das Intervall kann für verschiedene Frequenzbänder unterschiedlich sein, gemäß von Berücksichtigungen wie die Dauer von Maskiereffekten und die Hörbarkeit von kurzzeitigen Tönen, deren Effekte mit der Frequenz variieren. Die psycho-akustische Lautstärke (loudness) jeder Zeit- und Frequenz-Komponente, unter Berücksichtigung von Maskiereffekten, Frequenz und anderer psychologischer und physiologischer Faktoren, wird dann bestimmt (21). Werte unter einem Hörbarkeits-Schwellenwert werden dann entfernt (22), um die Ausgaben 6, 7 zu erzeugen.
Die gehörgerechten Umwandlungseinheiten 4, 5 und die Komponenten 12, 13, 14, 15, 16, 17 des Eingangsverarbeitungs-Prozessors 3 werden als doppelt vorgesehen gezeigt, damit die Referenzsignale und die Signale mit verminderter Qualität parallel verarbeitet werden können. Es ist möglich, diese Prozesse für die beiden Signale sequentiell auszuführen, unter Verwendung einer einzigen Eingangsverarbeitungseinheit, einem Filter und einer Sprach-Erfassungsvorrichtung, um zuerst das Referenzsignal zu verarbeiten und dann denselben Vorgang auf dem Signal mit verminderter Qualität durchzuführen. Beide Ausgaben werden dann auf den Ausrichtungs-Prozessor 18 angewendet. Ähnlich können die beiden Referenz-Flächen 6, 7 von derselben gehörgerechten Umwandlungseinheit erzeugt werden. Zweifellos müssen die Ergebnisse der ersten Verarbeitung gespeichert werden, während das zweite Signal verarbeitet wird.
In dem Modell gemäß dem Stand der Technik werden Sprache und Nicht-Sprache in den Sprach-Erfassungsvorrichtungen 16, 17 identifiziert, um die vollständigen Proben zur Verwendung in der Wahr nehmungs-Analyseeinheit 10 auszuwählen und auszurichten. Im Gegensatz dazu arbeitet in dem in 2 gezeigten Ausführungsbeispiel der Erfindung die Wahrnehmungs-Analyseeinheit 10 jeweils auf einem einzigen Abschnitt. In der Erfindung werden Ausrichtung, Pegel und Übertragungs-Funktion für jede Äußerung unabhängig geschätzt. Mehrere Abschnitte in einem Testsignal werden einzeln verarbeitet und ihre gewonnenen Parameter dann kombiniert.
Die Eingaben 1, 2 werden auf einen Eingangsverarbeitungs-Prozessor 23 angewendet, der ähnliche Funktionen wie der Prozessor 3 in 1 ausführt, aber arbeitet, um jeden einzelnen Abschnitt auszuwählen und auszurichten, anstatt einfach das Signal als Ganzes auszurichten. Dies wird unter Bezugnahme auf 5 und 6 detaillierter beschrieben. Der Prozessor 23 erzeugt eine Serie von ausgerichteten Abschnittspaaren.
Die gehörgerechten Umwandlungseinheiten 4, 5 und die Erzeugungseinheit 27 für Fehlerparameter handhaben dann jedes Abschnittspaar auf die gleiche Weise wie der Prozess gemäß dem Stand der Technik, um Fehlerparameter für jede Äußerung an dem Ausgang 21 zu erzeugen.
Diese Fehlerparameter werden dann in einer Kombinierereinheit 28 weiter verarbeitet, die für jeden Fehlerparameter einen über alle Abschnitte zusammengesetzten Gesamtwert erzeugt. Diese Gesamtwerte sind typischerweise ein zusammengesetzter oder mittlerer Wert der Parameter der einzelnen Abschnitte, gewichtet, um die relative wahrnehmbare Signifikanz jedes Abschnitts zu berücksichtigen, zum Beispiel seine Länge. Diese Gewichtungen können im Voraus bestimmt werden, da das Testsignal ein vorgegebenes Referenzsignal ist. Die Kombinierereinheit 28 für Fehlerparameter stellt sicher, dass in verschiedenen Abschnitten auftretende Fehler auf geeignete Weise zu sammengesetzt werden. Zum Beispiel würde die Länge eines bestimmten Abschnitts seine Auswirkung auf die Qualität beeinflussen. Ebenso kann der Kombinierer ein Fehlerzusammensetzungsprofil umfassen – Fehler, die am Beginn oder am Ende eines Anrufs auftreten, können eine größere Auswirkung auf die wahrgenommene Qualität haben als die in der Mitte eines Anrufs.
Schließlich wird der kombinierte Fehlerparameter in einer Übersetzungseinheit 29 in die standardmäßige ITU-Signalqualitätsskala umgewandelt, um Werte von Y_LE und Y_LQ an der Ausgabe 11 zu erzeugen.
Ein in dem Eingangsverarbeitungs-Prozessor 23 durchgeführter Vorgang, um die Abschnitte zur Analyse auszuwählen, wird nun detailliert unter Bezugnahme auf 5 beschrieben, die Teile eines Referenzsignals 30 und eine verschlechterte Version 40 dieses Signals zeigt. Bei diesem Vorgang werden einzelne Äußerungen identifiziert. Eine Äußerung wird als eine Zeitdauer von Sprache betrachtet, in der eine Instanz einer Nicht-Sprache eine definierte Schwellendauer nicht überschreitet. Wie in 5 gezeigt, hat das Referenzsignal zwei Ruhe-Zeitabschnitte 31, 32. Der erste Zeitabschnitt 31 ist länger als der Schwellenwert und definiert somit eine Lücke zwischen zwei Äußerungen 33, 34. Der zweite Zeitabschnitt 32 ist kürzer als die Schwelle und definiert somit keine Lücke zwischen zwei Äußerungen. Einige Sprache-über-Paketvermittelte (voice-over-packet switching) Systeme sind ausgebildet, um sicherzustellen, dass jedes Paket einer Übertragung auf demselben Weg wie das vorhergehende Paket geleitet wird, außer eine vorgegebene Anzahl von vorhergehenden Paketen war „Ruhe". Dies stellt sicher, dass alle Pakete einer Äußerung auf demselben Weg geleitet werden, obwohl verschiedene Äußerungen unterschiedlich geleitet werden können, wobei die Ruhe-Lücken folglich auf der Empfangsseite kürzer oder länger sind. Die in dem vor liegenden Ausführungsbeispiel verwendete Schwelle kann geeigneterweise gewählt werden, dieser vorgegebenen Anzahl von Ruhe-Paketen zu entsprechen.
Um eine Robustheit beizubehalten, werden die Anfangs- und End-Markierungen für die Äußerungen 43, 44 in dem Signal mit verminderter Qualität nur von dem Referenzsignal 30 genommen. Dies stellt sicher, dass hörbare Störungen in dem Signal mit verminderter Qualität 40 oder ein Verlust des Signals die Identifizierung der Äußerungen nicht beeinträchtigt. Zum Beispiel wurde in 5 der letzte Teil 45 der zweiten Äußerung mit verminderter Qualität verloren, das Ende 46 der Äußerung 40 mit verminderter Qualität jedoch befindet sich an dem Punkt, der dem Ende 36 der Referenz-Äußerung 30 entspricht.
Das menschliche Gehirn ist gegenüber geringen Veränderungen bei der Verzögerung oder dem Pegel zwischen Sprachereignissen unempfindlich. Durch eine Verarbeitung von Äußerung nach Äußerung können diese geringen Veränderungen außer Acht gelassen werden. 6 zeigt diesen Vorgang.
Es wird angenommen, dass das Eingangsverarbeitungsmodul 3 (3) verantwortlich ist für den größten Teil des Verzögerungsversatzes zwischen dem Referenzsignal 50 und dem Signal 60 mit verminderter Qualität. Wenn der größte Teil des Versatzes entfernt ist, wird erwartet, dass sich jede Äußerung 61, 62 in dem Signal 60 mit verminderter Qualität innerhalb eines Ausrichtungsfensters von n Abtastwerten zu jeder Seite der entsprechenden Referenz-Äußerung 51, 52 befindet. Ein Abschnitt der Referenz-Äußerung 51, im Folgenden als ein Äußerungs-Suchbereich 53 bezeichnet, wird verarbeitet, indem er mit dem entsprechenden Abschnitt 63 des Signals mit verminderter Qualität unter Verwendung eines Kreuzkorrelations-Verfahrens auf überlappende Teile korreliert wird. Das Verfahren kann das in dem europäischen Patent 0791251 des Anmelders verwendete Verfahren sein. Der Modus der Korrelations-Funktion identifiziert den präzisen Startpunkt der verschlechterten Äußerung 61. Als ein Ergebnis kann die verschlechterte Äußerung 61 mit der Referenz-Äußerung 51 ausgerichtet werden, wodurch dieser Abschnitt durch den Rest der Analyse-Einheit verarbeitet werden kann. Der Vorgang wird für nachfolgende Äußerungen 52, 62, usw. wiederholt.
Eine Pegel-Ausrichtung, eine Schätzung der Übertragungsfunktion, gehörgerechte Umwandlungen und Fehlerparametererzeugung können dann alle auf einem „Äußerung für Äußerung"-Ansatz durchgeführt werden. 7 stellt schematisch einen Universalcomputer dar, der zur Durchführung der Erfindung geeignet ist. Er weist eine Eingabevorrichtung 71, eine Zentraleinheit (CPU) 72, eine Ausgabevorrichtung 73, wie einen Drucker oder ein Bildschirmgerät, einen Speicher 74 und einen Anschluss 75 zur Verbindung mit anderen Vorrichtungen auf. Die Betriebsanweisungen zur Steuerung des Computers können in einer maschinenlesbaren Form auf einem Träger, wie eine Magnetplatte oder ein Magnetband 70, oder als ein über den Anschluss 75 von einer anderen Vorrichtung über eine Telekommunikationsverbindung heruntergeladenes Signal geliefert werden. Ähnlich können das Referenzsignal und das Signal mit verminderter Qualität von einem der Mittel geliefert werden. Die Betriebsanweisungen und das Referenzsignal und das Signal mit verminderter Qualität werden in dem Speicher 74 gespeichert, bis sie von der Zentraleinheit 72 aufgerufen werden, die gemäß den in dem Programm übertragenen Anweisungen und allen Eingaben von Menschen arbeitet, die über eine mit dem Anschluss 75 verbundene Eingabevorrichtung gemacht werden. Die Ausgabe-Parameter Y_LE und Y_LQ werden an die Ausgabevorrichtung 73 geliefert.
Es sollte angemerkt werden, dass Unterschiede in der Verzögerung auch innerhalb einer einzelnen Äußerung (Sprachereignis) auftreten können. Unterschiede in der Verzögerung zwischen einem Abschnitt einer Äußerung und einem anderen Abschnitt derselben Äußerung sind eher wahrnehmbar als Unterschiede in der Verzögerung zwischen getrennten Äußerungen, so dass sie mit höherer Wahrscheinlichkeit die subjektive Qualität des Signals beeinflussen, und es wichtiger ist, sie zu berücksichtigen. Insbesondere wird eine Reduzierung der Verzögerung zwischen dem ursprünglichen Signal und dem Signal mit verminderter Qualität während einer Äußerung als Verkürzung eines einzelnen Tons oder sein vollständiges Fehlen offensichtlich. Ähnlich wird eine Zunahme der Verzögerung zwischen dem ursprünglichen Signal und dem Signal mit verminderter Qualität während einer Äußerung als Verlängerung eines einzelnen Tons oder Einführung eines in dem ursprünglichen Signal fehlenden Tons offensichtlich. Diese Fehler haben eine Wirkung auf die wahrgenommene Qualität des Signals. Jedoch würde die schlechte Ausrichtung der Signale vor oder nach der Veränderung der Verzögerung von dem Messsystem als Verschlechterung wahrgenommen, obwohl für den Zuhörer keine Verschlechterung erfassbar wäre.
In einer Modifizierung der Erfindung, die nun unter Bezugnahme auf die 8 und 9 beschrieben wird, können derartige Diskontinuitäten in der Verzögerung identifiziert und berücksichtigt werden. Dieser Vorgang identifiziert eine Äußerung mit einer einzigen derartigen Diskontinuität, außer sie ist zu nahe an dem Anfang oder Ende der Äußerung. Er identifiziert auch einige Äußerungen mit zwei derartigen Diskontinuitäten.
Dieser Vorgang schätzt für ein bestimmtes Paar (ursprünglich/verschlechtert) von Sprachdateien alle in der verschlechterten Datei vorhandenen zeitlichen Verzögerungen und die Stellen jeder Verzöge rungsänderungen. Dieser Vorgang wird in den 8 und 9 dargestellt.
In einem anfänglichen Verarbeitungsschritt werden das ursprüngliche Signal 1 und das Signal 2 mit verminderter Qualität gelesen (Schritt 801). Wenn das Signal mit verminderter Qualität kürzer als das ursprüngliche Signal ist, wird eine Null-Füllung (zero padding) an das Ende des Signals mit verminderter Qualität hinzugefügt (Schritt 802). Wenn das Signal mit verminderter Qualität länger ist, wird seine Länge angepasst, indem es gekürzt wird. Dies stellt sicher, dass die Intaktheit des ursprünglichen Signals nicht beeinträchtigt wird.
Als nächstes werden Bereiche von Sprachaktivität (Äußerungen) unter Verwendung einer Sprachaktivitäts-Erfassungsvorrichtung lokalisiert (Schritt 803); für jede Äußerung von der ursprünglichen Datei wird der Abschnitt mit denselben Abtastwert-Labels von der verschlechterten Datei identifiziert (Schritt 804). Für jedes derartige Paar von Äußerungen werden dann die folgenden Schritte durchgeführt.
Da die Sprachaktivitäts-Erfassungsvorrichtung Abschneidepunkte für die extrahierten Sprachabschnitte direkt dort erzeugt, wo Sprache beginnt und endet, gibt es kein Anlaufen (run-in) oder Auslaufen (run-out); ein kurzer Zeitabschnitt von Ruhe wird deswegen zu jedem Ende der beiden Äußerungen hinzugefügt, um dem Ausrichtungsvorgang zu unterstützen (Schritt 805).
Der nächste Schritt ist, eine Verzögerungsschätzung für die vollständige Äußerung zu berechnen (Schritt 806) und das Ergebnis zu speichern. Ein Konfidenzwert für diese Verzögerungsschätzung wird ebenfalls berechnet und gespeichert.
Die Äußerung wird dann an dem Mittelpunkt m in zwei Abschnitte unterteilt (siehe 9) und Verzögerungen und Konfidenzwerte für jede Hälfte werden berechnet und gespeichert (Schritt 807).
Wenn die Verzögerungen in den beiden Hälften übereinstimmen (innerhalb einer geringen Fehlerspanne), zeigt dies an, dass die Verzögerung über die Äußerung hinweg konstant ist und es keine Verzögerungsänderung gibt. Das folgende Dreiteilungsverfahren 808–826 wird dann verwendet, um ein weiteres Konfidenzmaß zur Bestätigung dieses Ergebnisses unter Verwendung des bereits bestimmten Verzögerungswertes zu erzeugen (Schritt 806). Wenn die beiden Verzögerungen nicht übereinstimmen (innerhalb einer geringen Fehlerspanne), zeigt dies an, dass der zweite Abschnitt eine von dem ersten Abschnitt unterschiedliche mittlere Verzögerung hat, was heißt, dass eine Verzögerungsänderung in einer der beiden Hälften vorhanden ist. Das folgende Dreiteilungsverfahren 808–826 wird verwendet, um die Position der Verzögerungsänderung zu bestimmen.
In dieser Beschreibung wird eine „Übereinstimmung" von zwei Verzögerungsschätzungen angenommen, wenn sie um weniger als eine vorgegebene Toleranz voneinander abweichen, zum Beispiel 16 Digitalisierungs-Abtastwerte (1 Millisekunde).
Es ist zu beachten, dass Verzögerungsänderungen sehr nah am Anfang oder Ende der Äußerung nicht erfasst werden, da die beiden Hälften dann Verzögerungswerte haben, die sehr ähnlich sind. In derartigen Umständen werden die ursprünglichen und die verschlechterten Äußerungen korrekt ausgerichtet, außer an einem kurzen Abschnitt an einem Ende, der als eine Verschlechterung identifiziert wird.
Das Dreiteilungsverfahren ist ein iterativer Vorgang, der auf einem Suchintervall [a, b] durchgeführt wird, das anfangs die vollständige Äußerung ist (wie in 9 gezeigt), aber bei jeder Iteration neu definiert wird. Das Suchintervall wird in drei symmetrischen überlappenden Abschnitten gleicher Länge analysiert, wie in 9 gezeigt, wobei jeder der drei Abschnitte 40% des Suchintervalls aufweist. Sie werden definiert von den Intervallen: [a, x], [w, z], [y, b], wobei a, w, x, y, z, b jeweils bei 0.0, 0.3, 0.4, 0.6, 0.7 und 1.0 anteilige Entfernungen des vollständigen Suchintervalls [a, b] sind. Da sie einen symmetrischen Satz um den Mittelpunkt m bilden (0.5 anteilige Entfernung von jedem Ende des Suchintervalls), ist die Suchrichtung unbeeinflusst (unbiased).
Um das iterative Dreiteilungsverfahren zu beginnen, wird das Suchintervall [a, b] als die gesamte Probe gesetzt (Schritt 808).
An jedem Schritt des iterativen Verfahrens werden die drei überlappenden Intervalle [a, x], [w, z] und [y, b] jeweils als die ersten, mittleren und letzten 40% des Suchintervalls definiert (Schritt 809). Verzögerungen und entsprechende Konfidenzmaße werden dann für jeden Abschnitt gemessen und gespeichert (Schritt 810).
Es wurde bereits angemerkt, dass, wenn eine Verzögerungsänderung nahe am Anfang oder Ende eines Suchintervalls auftritt, dies eine relativ geringe Wirkung auf die Schätzung des Verzögerungswerts für dieses Intervall haben wird und wahrscheinlich nicht als eine Verzögerungsänderung erfasst wird. Somit sind Verzögerungsänderungen in der Nähe des Anfangs oder des Endes einer Äußerung weniger erfassbar als die in der Nähe der Mitte. Eine in dem Bereich [w, x] (9) auftretende Verzögerungsänderung wird dazu führen, dass der für das erste Intervall [a, x] geschätzte Verzögerungswert hauptsächlich von der tatsächlichen Verzögerung vor der Änderung beeinflusst wird, aber der für das mittlere Intervall [w, z] geschätzte Verzögerungswert entspricht sehr genau der tatsächlichen Verzögerung nach der Änderung. Dieser zweite Verzögerungswert wird auch gemessen, aber mit einem höheren Konfidenzwert für das dritte Intervall [y, b]. Somit werden die Verzögerungen für die zweiten und dritten Intervalle [w, z] und [y, b] übereinstimmen, in dem oben definierten Sinn.
In der nächsten Phase werden die für die drei Intervalle gemessenen Verzögerungen verglichen (Schritt 811).
Wenn die ersten und dritten Intervalle [a, x] und [y, b] übereinstimmen, wird die Suche beendet und die iterative Schleife verlassen (Schritt 812), da in diesem Fall der Schluss zu ziehen ist, dass es keine Verzögerung zwischen dem Anfang und dem Ende des Suchintervalls gibt. Die Verzögerung für das vollständige Suchintervall und ein Konfidenzwert werden dann geschätzt und gespeichert und die iterative Schleife wird verlassen (siehe Schritt 816).
Stimmt keines der drei Intervalle überein (Schritt 813), wird die Suche beendet und die iterative Schleife verlassen (Schritt 816), da es in diesem Fall nicht möglich ist, eine Richtung für die nächste Iteration zu bestimmen. Diese Situation tritt auf, wenn zwei oder mehrere Verzögerungsänderungen vorhanden sind.
Wenn die Verzögerung für das mittlere Intervall [w, z] mit einer (aber nicht beiden) der anderen beiden Intervalle [a, x], [y, b] übereinstimmt (Schritt 814), kann angenommen werden, dass die Verzögerungsänderung innerhalb oder in der Nähe der Überlappung zwischen dem zweiten Intervall [w, z] und dem nicht übereinstimmenden Intervall [y, b] oder [a, x] liegt. Das Suchintervall wird dann neu definiert, damit es [a, z] oder [x, b] wird (Schritt 815) (wodurch das Inter vall entfernt wird, in dem die Verzögerungsänderung nicht auftritt) und eine weitere Iteration wird durchgeführt (Schritt 809).
Das iterative Verfahren wird beendet, wenn die Länge des Suchintervalls unter eine vorgegebene Schwelle abnimmt (zum Beispiel 8000 Abtastwerte: 0.5 Sek) (Schritt 816), außer die Schleife wurde bereits verlassen (Schritte 812, 813).
Die bereits gespeicherten (Schritte 806, 807, 810, 812) Verzögerungswerte und Konfidenzwerte werden nun verwendet, um den Wechselpunkt (changeover point) und tatsächliche Verzögerungswerte zu bestimmen.
Zuerst wird der gespeicherte Konfidenzwert für jede Iteration des Verfahrens, einschließlich der für die Stufen für die vollständige Äußerung und für die halben Abschnitte, abgerufen und der mittlere Konfidenzwert für jede Iteration bestimmt (Schritt 817). Der Satz von der maximalen mittleren Konfidenz entsprechenden Verzögerungswerten wird dann ausgewählt (Schritt 818), da dies der Satz sein wird, in dem die geschätzte Position der Verzögerungsänderung (wenn vorhanden) am nähesten zu dem exakten Wert ist.
Um die Grenzen zu identifizieren, innerhalb die der tatsächliche Wechselpunkt fällt, werden die folgenden Schritte auf dem ausgewählten Satz von Verzögerungswerten durchgeführt:
Wenn die für die Ausrichtung der gesamten Äußerung berechnete Verzögerung (Schritt 806) die Verzögerung mit der höchsten Konfidenz liefert, wird gefolgert, dass es keine Verzögerungsänderung und somit keinen Wechselpunkt gibt (Schritt 819).
Wenn der höchste mittlere Konfidenzwert als der für die zwei Verzögerungen erhaltene identifiziert wird, die für die Teilung der Äußerung in zwei gleiche Hälften berechnet wurden (Schritt 807), und diese beiden Hälften stimmen überein, gibt es wiederum keine Verzögerungsänderung und somit keinen Wechselpunkt (Schritt 820). Stimmen die Hälften nicht überein, dann gibt es eine Verzögerungsänderung, wobei der Wechselpunkt als exakt der Mittelpunkt der Äußerung identifiziert wird (Schritt 821).
Wenn der Satz von Datenwerten, der ausgewählt wurde, da er den höchsten Konfidenzwert hat, einer der Dreiteilungen ist, werden die folgenden Schritte 822–826 durchgeführt.
Wenn der beste Konfidenzwert der für eine Iteration ist, in der die ersten und dritten Abschnitte übereinstimmen (wie in Schritt 812 herausgefunden wurde), wird angenommen, dass es einen Fehler bei der Berechnung der Verzögerung des mittleren Abschnitts gibt (wofür es schwieriger ist, eine genaue Verzögerungsschätzung zu erhalten, da es keine auszurichtenden Anfänge und Enden von Sprache gibt) und dass keine Verzögerungsänderung tatsächlich aufgetreten ist (Schritt 822). Die alternative Möglichkeit, dass zwei entgegengesetzte Verzögerungsänderungen zu genau der richtigen Zeit aufgetreten sind, so dass die äußeren Intervalle [a, x], [y, b] übereinstimmen, mit einer anderen Verzögerung in dem mittleren Abschnitt [w, z], ist zu unwahrscheinlich, um eine Betrachtung zu erfordern.
Wenn die Verzögerung in dem mittleren Intervall [w, z] der ausgewählten Dreiteilung mit einem (aber nicht beiden) der anderen beiden Intervalle übereinstimmt (wie in Schritt 814 herausgefunden wurde), muss es eine Verzögerungsänderung innerhalb des Suchintervalls [a, b] geben (Schritt 823). Insbesondere, wenn die Verzögerungsschätzungen für die ersten und zweiten Intervalle [a, x], [w, z] überein stimmen, dann muss die Verzögerung in der zweiten Hälfte des zweiten Intervalls [w, z] oder in der ersten Hälfte des dritten Intervalls [y, b] liegen. Ähnlich gilt, wenn die Verzögerungsschätzungen für die zweiten und dritten Intervalle [w, z], [y, b] übereinstimmen, dann muss die Verzögerungsänderung in der zweiten Hälfte des ersten Intervalls [a, x] oder in der ersten Hälfte des zweiten Intervalls [w, z] liegen. Die exakte Position des Wechsels kann nicht genauer bestimmt werden als das minimale Suchintervall ermöglicht, somit wird ein vorgegebener Punkt, der in den identifizierten Bereich des ausgewählten Suchintervalls fällt, als die geschätzte Verzögerungsänderungsposition gewählt (Schritt 825). (Es ist zu beachten, dass das gewählte Suchintervall selbst typischerweise als ein Ergebnis der iterativen Reduzierungen in dem Suchintervall (Schritt 815) ein kleiner Teil der vollständigen Äußerung ist, somit wird die Stelle der Verzögerungsänderung als in dieses kurze Intervall fallend identifiziert).
Wenn keine Abschnitte übereinstimmen (Schritt 824), wird angenommen, dass es zwei Verzögerungsänderungen gibt (mehr als zwei sind sehr unwahrscheinlich), und zwei vorgegebene Punkte entlang des Suchintervalls werden als die geschätzten Verzögerungsänderungspositionen ausgewählt (Schritt 825).
Neue Werte für die Verzögerung in jedem Teil der Äußerung, wie nun durch den geschätzten Verzögerungsänderungspunkt oder die Punkte definiert, werden dann bestimmt (Schritt 826).
Abhängig vom Ergebnis des Auswahlschritts 818, kann die Äußerung deswegen keine, eine oder zwei Verzögerungsänderungen) identifiziert haben. Das ursprüngliche Äußerungspaar 1, 2 wird dann in bei diesen Verzögerungsänderungen (wenn vorhanden) zwei getrennte Abschnitte getrennt und die derart identifizierten Verzögerungen werden auf jedes Paar aufgeprägt (Schritt 827).
Das Verfahren (Schritte 805–827) wird für das nächste Äußerungspaar wiederholt.
In dem bisher beschriebenen Ausführungsbeispiel ist der anfangs ausgewählte Abschnitt eine einzelne Äußerung. Äußerungen mit einer Dauer, die länger als eine vorgegebene Schwelle ist, können unterteilt werden in zwei oder mehrere Teil-Äußerungen, wobei dann jede Teil-Äußerung getrennt ausgerichtet wird, wodurch eine Vielzahl von Verzögerungsänderungen in einer einzelnen Äußerung identifiziert werden kann.
Das Vorhandensein einer Verzögerungsänderung kann durch Teilen der Äußerung in zwei Teile an einem oder mehreren verschiedenen Punkten) getestet werden. Für jeden Teilungspunkt werden die zwei Teile des Signals getrennt ausgerichtet und die Konfidenz derartiger Ausrichtungen wird bestimmt. Ein Vergleich über alle Teilungspunkte der Verzögerungen jedes Abschnitts und die Konfidenz dieser Verzögerungswerte wird verwendet, um die Stelle, wenn vorhanden, einer Verzögerungsänderung in dem Signal zu bestimmen. Dieser Vorgang kann dann wiederholt werden für die Abschnitte auf jeder Seite dieser identifizierten Verzögerungsänderung, um mögliche zusätzliche Variationen in der Verzögerung zu identifizieren.
In einer weiteren alternativen Anordnung wird das vollständige Signal (oder jeder Abschnitt von mehreren vorgegebenen Abschnitten davon, wie einzelne Äußerungen) zuerst als Ganzes verarbeitet, um jede konstante Verzögerung zu identifizieren und zu entfernen. Das Signal wird dann in zwei Hälften geteilt und eine Ausrichtung wird auf jedem Abschnitt getrennt durchgeführt. Jeder derart ausgerichteter Abschnitt wird rekursiv unterteilt, bis eine vorgegebene minimale Dauer erreicht ist. Dieser Vorgang ermöglicht, dass eine Anzahl von Verzögerungsänderungen an willkürlichen Stellen in dem Signal identifiziert wird.

Claims

Vorrichtung zum Testen von Einrichtungen zur Handhabung von Sprachsignalen, mit Mitteln zum Empfangen erster und zweiter Signale (1, 2), Mitteln (8) zum Vergleichen des zweiten Signals mit dem ersten Signal, um ein Verzerrungs-Wahrnehmungs-Maß zu erzeugen, das den Grad anzeigt, zu dem die Verzerrung des Signals für einen menschlichen Zuhörer wahrnehmbar wäre, und gekennzeichnet durch Mittel (23) zur Auswahl und Synchronisierung einzelner Abschnitte in dem ersten Signal und dem zweiten Signal, wobei das Vergleichs-Mittel (8) mit den entsprechenden synchronisierten Abschnitten arbeitet, und Mittel (28) zum Kombinieren der Ergebnisse einer jeden derartigen Messung, um ein Gesamtmaß des Grades zu erzeugen, zu dem die Verzerrung des zweiten Signals hinsichtlich des ersten Signals für einen menschlichen Zuhörer wahrnehmbar wäre.
Vorrichtung gemäß Anspruch 1, wobei das Kombinierungs-Mittel (28) ein Gesamtmaß ableitet, das die wahrnehmbare Signifikanz eines jeden Abschnitts berücksichtigt.
Vorrichtung gemäß Anspruch 1 oder Anspruch 2, wobei das Mittel (23) zur Auswahl einzelner Abschnitte in dem Signal Mittel zum Erfassen des Endes von Ruheabschnitten aufweist, die eine vorgegebene Länge überschreiten, wodurch es einzelne Äußerungen in dem Signal erfasst.
Vorrichtung gemäß Anspruch 3, wobei eine Äußerung, die mehr als eine vorgegebene Länge von Sprache enthält, in zwei oder mehrere Abschnitte unterteilt ist.
Vorrichtung gemäß Anspruch 1 oder Anspruch 2, wobei das Mittel (23) zur Auswahl einzelner Abschnitte in dem Signal aufweist Mittel zum Erfassen, ob Sprache in jeder einer Anzahl von willkürlich gewählten Unterteilungen des Signals vorhanden ist.
Vorrichtung gemäß einem der vorhergehenden Ansprüche, wobei das Synchronisierungs-Mittel (23) Mittel zum Identifizieren der Position einer oder mehrerer Verzögerungsänderungen) in einem Abschnitt, Mittel zum getrennten Synchronisieren der Teile des Abschnitts, die jeder Verzögerungsänderung voraus gehen und nachfolgen, und Mittel zum getrennten Analysieren dieser Teile des Abschnitts auf Verzerrung umfasst.
Verfahren zum Testen von Einrichtungen zur Handhabung von Sprachsignalen, mit den Schritten: Liefern eines Testsignals (1), Empfangen eines verzerrten Signals (2), das dem Testsignal entspricht, wenn es von der getesteten Einrichtung verzerrt wird, Vergleichen des verzerrten Signals mit dem Testsignal, um ein Verzerrungs-Wahrnehmungs-Maß (11) zu erzeugen, das den Grad anzeigt, zu dem die Verzerrung des Signals für einen menschlichen Zuhörer wahrnehmbar wäre, und dadurch gekennzeichnet, dass einander entsprechende einzelne Abschnitte in dem Testsignal (1) und dem verzerrten Signal (2) ausgewählt und synchronisiert werden und der Vergleich zwischen einander entsprechenden Abschnitten durchgeführt wird, und die Ergebnisse jedes derartigen Vergleichs kombiniert werden, um ein Gesamtmaß des Grades zu erzeugen, zu dem die Verzerrung des Signals für einen menschlichen Zuhörer wahrnehmbar wäre.
Verfahren gemäß Anspruch 7, wobei der Schritt des Kombinierens ein Gesamtmaß ergibt, das die wahrnehmbare Signifikanz eines jeden Abschnitts berücksichtigt.
Verfahren gemäß Anspruch 7 oder Anspruch 8, wobei die ausgewählten Abschnitte einzelne Äußerungen sind, die durch Erfassen des Endes von Ruheabschnitten identifiziert werden, die eine vorgegebene Länge überschreiten.
Verfahren gemäß Anspruch 9, wobei Äußerungen, die mehr als eine vorgegebene Länge von Sprache enthalten, in zwei oder mehrere Abschnitte unterteilt werden.
Verfahren gemäß Anspruch 7 oder Anspruch 8, wobei einzelne Abschnitte in dem Signal ausgewählt werden durch Erfassen, ob Sprache in jeder einer Anzahl von willkürlich gewählten Unterteilungen des Signals vorhanden ist.
Verfahren gemäß einem der Ansprüche 7 bis 11, wobei der Abschnitt analysiert wird, um die Position einer Verzögerungsänderung zu identifizieren, und die jeder Verzögerungsänderung vorausgehenden und nachfolgenden Teile des Abschnitts getrennt synchronisiert und auf Qualitätsverlust analysiert werden.
Computerprogrammprodukt, das auf einem Computerverwendbaren Medium gespeichert ist, mit: Computer-lesbaren Programm-Mitteln, die den Computer veranlassen, ein erstes Signal (1) und ein zweites Signal (2) zu analysieren, um ein Verzerrungs-Wahrnehmungs-Maß (11) zu erzeugen, das den Grad anzeigt, zu dem die Verzerrung des zweiten Signals im Vergleich zu dem ersten Signal für einen menschlichen Zuhörer wahrnehmbar wäre, und charakterisiert durch Computer-lesbare Programm-Mittel, die einen Computer veranlassen, einzelne Abschnitte in dem ersten Signal und dem zweiten Signal auszuwählen, Computer-lesbare Programm-Mittel, die den Computer veranlassen, jeden Abschnitt in dem verzerrten Signal mit dem entsprechenden Abschnitt in dem Testsignal zu synchronisieren und ein Verzerrungs-Wahrnehmungs-Maß zu erzeugen, das den Grad anzeigt, zu dem die Verzerrung jedes Abschnitts des zweiten Signals im Vergleich zu dem entsprechenden Abschnitt des ersten Signals für einen menschlichen Zuhörer wahrnehmbar wäre; Computer-lesbare Programm-Mittel, die den Computer veranlassen, die Ergebnisse einer jeden derartigen Messung zu kombinieren, um ein Gesamtmaß des Grades zu erzeugen, zu dem die Verzerrung des Signals für einen menschlichen Zuhörer wahrnehmbar wäre.