-
Diese
Erfindung betrifft die Messung einer Qualität eines akustischen Signals
und insbesondere eines Sprachsignals. Objektive Verfahren für diesen Zweck
befinden sich im Moment in der Entwicklung und werden beim Testen
von Prototypen, beim Testen von Komponenten vor der Auslieferung
und beim Testen von installierten Einrichtungen in Dienst angewendet.
Sie werden im Allgemeinen im Fernsprechbetrieb verwendet, werden
aber auch in anderen zur Übertragung
von Sprachsignalen verwendeten System angewendet, zum Beispiel in
Lautsprecheranlagen.
-
Der
vorliegende Anmelder besitzt eine Anzahl von diesen technischen
Bereich betreffende Patente und Anmeldungen, insbesondere das am
14. Oktober 1998 erteilte Europäische
Patent 0647375. In diesem System wird ein von dem System in Test vermindertes
Signal mit einem Referenzsignal verglichen, das nicht durch das
getestete System hindurchging, um hörbare Fehler in dem Signal
mit verminderter Qualität
zu identifizieren. Diese hörbaren Fehler
werden geprüft,
um ihre wahrnehmbare Signifikanz festzustellen – das heißt, Fehlern der Typen, die
von menschlichen Zuhörern
als signifikant betrachtet werden, wird ein größeres Gewicht gegeben als denen,
die als nicht so signifikant angesehen werden. Da nur hörbare Fehler
geprüft
werden, werden unhörbare
Fehler, die für
die Wahrnehmung irrelevant sind, nicht geprüft.
-
Das
automatisierte System liefert eine Ausgabe vergleichbar zu subjektiven
Qualitätsmessungen,
die ursprünglich
zur Verwendung durch menschliche Subjekte vorgesehen waren. Insbesondere
erzeugt es zwei Werte YLE und YLQ,
die äquivalent
sind zu den „mittleren
Meinungswertungen" (MOS – Mean Opinion
Scores) für „Zuhör- Anstrengung" und „Zuhör-Qualität", die von einer Gruppe menschlicher
Zuhörer
geliefert werden, wenn sie demselben Signal zuhören, wie später diskutiert wird. Die Verwendung
eines automatisierten Systems ermöglicht eine konsistentere Bewertung,
als menschliche Bewerter erreichen könnten, und ermöglicht auch
die Verwendung von komprimierten und vereinfachten Testsequenzen
und mehrsprachigen Testsequenzen, die falsche Ergebnisse liefern,
wenn sie mit menschlichen Bewertern verwendet werden, da derartige
Sequenzen keinen verständlichen
Inhalt ausdrücken.
-
Derartige
automatisierte Systeme erfordern, dass ein bekanntes (Referenz-)Signal
durch ein Verzerrungssystem (das Telefonnetz) gespielt wird, um ein
Signal mit verminderter Qualität
abzuleiten, das mit einer nicht verzerrten Version des Referenzsignals
verglichen wird. Derartige Systeme sind als „eindringende (intrusive)" Messsysteme bekannt,
da, während
der Test durchgeführt
wird, das getestete System keinen Live(Einnahmen erzielenden)-Verkehr übertragen
kann.
-
Eine
gehörgerechte
Umwandlung jedes Signals wird vorgenommen, um die Antwort des menschlichen
Hörsystems
(Ohr und Gehirn) auf Schall zu emulieren. Das Signal mit verminderter Qualität wird dann
mit dem Referenzsignal in der wahrnehmbaren (perceptual) Domäne verglichen,
in der die subjektive Qualität,
die von einem das Netzwerk benutzenden Hörer wahrgenommen würde, aus Parametern
bestimmt wird, die aus den Umwandlungen extrahiert werden.
-
Ein
geeignetes Testsignal wird in der Internationalen Patentbeschreibung
WO/95/01011 (
EP0705501 )
offenbart und weist eine Sequenz von sprachähnlichen Tönen auf, die ausgewählt wurden, repräsentativ
für die
verschiedenen Typen von phonetischen Tönen zu sein, die das getestete
System zu handhaben hat, dargestellt in einer Sequenz.
-
Die
Töne werden
derart ausgewählt,
dass typische Übergänge zwischen
einzelnen phonetischen Elementen dargestellt werden. Eine typische
Sprache weist eine Serie von Äußerungen
auf, die von Ruheabschnitten getrennt werden, wenn der Sprecher
zum Atmen pausiert oder dem anderen Teilnehmer der Konversation
zuhört.
Diese Ruheabschnitte und die Übergänge zwischen Äußerungen
und Ruheabschnitten werden ebenso von dem Testsignal modelliert.
-
Das
existierende System bewertet verlässlich die meisten Sprachübertragungstechnologien, die
in herkömmlichen
analogen und digitalen Vermittlungstelefonnetzen verwendet werden.
In derartigen Netzen wird eine bestimmte Verbindung zwischen den
beiden Parteien für
einen Anruf für
die Dauer dieses Anrufs bereitgestellt und die gesamte Sprache wird über diese
Verbindung übertragen.
Jedoch verbreiten sich verbindungslose paketbasierte Sprachübertragungssysteme
immer weiter, insbesondere zur Verwendung im „Internet" und in den internen „Intranets" von Firmen. In einem
verbindungslosen paketbasierten System wird jede Übertragung
in eine Serie von Datenpakete aufgeteilt, die unabhängig voneinander
von einem Benutzer zu dem anderen gehen. Zwischenknoten in dem Netzwerk übertragen
die Pakete zu anderen Knoten gemäß in jedem
Paket übertragener
Adressinformation. Jedoch können,
gemäß den Anforderungen
von anderem Verkehr auf den verschiedenen Verbindungen zwischen
derartigen Knoten, verschiedene Pakete verzögert sein oder sich auf unterschiedlichen
Routen bewegen, um dasselbe Ziel zu erreichen. Folglich variieren
Ende-zu-Ende-Zeiten von einem Paket zu einem anderen. Für die Übertragung
von Daten, wie Text, oder beim Herunterladen von Computerdateien
für eine nachfolgende
Verwendung durch den Empfänger, haben
derartige Schwankungen in den Ende-zu-Ende-Zeiten nur geringe Folgen.
Wenn sie jedoch für Sprache
in Echtzeit verwendet werden, können
diese Variationen die Klarheit der Sprache, wie sie von dem Benutzer
wahrgenommen wird, beeinträchtigen.
-
Verschiedene
Vorschläge
wurden gemacht, um zu versuchen, die Verzögerung auf ein Niveau zu minimieren,
das eine Unterhaltung und ein Verständnis nicht stört – siehe
zum Beispiel die internationale Patentanmeldung WO099/12329 dieses
Anmelders und den Artikel von R. Barnett in „Electronics and Communication
Engineering Journal",
Oktober 1997, mit dem Titel „Connectionless
ATM". Es ist für derartige
verbindungslose Systeme jedoch fundamental, dass etwas Variation
in der Rest-Verzögerung
stattfindet. Eine einzelne Sprachäußerung wird typischerweise
aus der in mehreren Paketen übertragenen
Information zusammengesetzt. Jedoch sind Verzögerungsschwankungen zwischen
einzelnen Paketen in der resultierenden Äußerung im Allgemeinen nicht
zu bemerken, da das langsamste Paket im Allgemeinen die Verzögerung für die Äußerung insgesamt
bestimmt. Jedoch kann die Verzögerung
für jede
vollständige Äußerung zwischen
einer Äußerung und der
nächsten
beträchtlich
variieren, da Pufferlängen während Ruheabschnitten
normalerweise angepasst werden.
-
Veränderungen
der Verzögerung,
die während
einer Äußerung auftreten,
zum Beispiel weil ein Teil der Äußerung fehlt,
sind in der resultierenden Äußerung eher
bemerkbar.
-
Zusätzlich zu
Veränderungen
in einer Rest-Verzögerung
werden nun immer mehr Übertragungssysteme
verwendet, in denen Änderungen
in anderen Charakteristiken, wie dem Pegel (Signalamplitude), auftreten
können.
Siehe ITU-T Entwurfsempfehlung G.169.
-
Das
menschliche Gehirn ist unempfindlich gegenüber geringen Änderungen
der Verzögerung und
Amplitude zwischen Sprachereignissen, so dass diese Schwankungen
für einen
menschlichen Zuhörer
nicht wahrzunehmen sind, vorausgesetzt, die Wirkung ist nicht so
groß,
dass sie eine Konversation stört.
Jedoch ist das Messsystem gemäß dem Stand der
Technik empfindlich gegenüber
derartigen Variationen, so dass es beim Testen von verbindungslosen Paketsystemen
unzuverlässige
Werte für
eine Signalqualität
liefert – das
heißt,
die Ergebnisse reflektieren nicht akkurat die von menschlichen Subjekten
berichtete subjektive Qualität.
-
Wenn
die Verzögerung
konstant ist, können die
beiden Signale einfach synchronisiert werden, um die Verzögerung zu
berücksichtigen.
Wenn jedoch das Signal mit verminderter Qualität unter einer variablen Verzögerung leidet,
würden
zumindest einige Teile des Signals mit verminderter Qualität nicht mit
dem Testsignal synchronisiert werden. Das Fehlen einer Synchronisierung
in diesen Teilen würde
als beträchtliche
Fehler erfasst, die so groß wären, dass sie
jegliche von der tatsächlichen
Verschlechterung des Signals verursachte Fehler maskieren würden. Dies
würde zu
einer ungenauen Messung des subjektiven Effekts der Verschlechterung
führen.
-
Es
gibt deswegen ein Erfordernis für
ein Messsystem, das gegenüber
derartigen variablen Verzögerungen
robust ist.
-
Gemäß der Erfindung
ist eine Vorrichtung zum Testen von Einrichtungen zur Handhabung
von Sprachsignalen vorgesehen, mit Mitteln zum Empfangen erster
und zweiter Signale,
Mitteln zum Vergleichen des zweiten Signals
mit dem ersten Signal, um ein Verzerrungs-Wahrnehmungs-Maß zu erzeugen,
das den Grad anzeigt, zu dem die Verzerrung des Signals für einen
menschlichen Zuhörer
wahrnehmbar wäre,
und
gekennzeichnet durch
Mittel zur Auswahl einzelner
Abschnitte in dem ersten Signal und dem zweiten Signal,
Mittel
zum Synchronisieren jedes Abschnitts in dem zweiten Signal mit dem
entsprechenden Abschnitt in dem ersten Signal, wobei das Vergleichs-Mittel
mit den entsprechenden synchronisierten Abschnitten arbeitet,
und
Mittel zum Kombinieren der Ergebnisse einer jeden derartigen Messung,
um ein Gesamtmaß des Grades
zu erzeugen, zu dem die Verzerrung des zweiten Signals hinsichtlich
des ersten Signals für
einen menschlichen Zuhörer
wahrnehmbar wäre.
-
Vorzugsweise
berücksichtigt
das Gesamtmaß die
wahrnehmbare Signifikanz eines jeden Abschnitts. Die wahrnehmbare
Signifikanz eines bestimmten Abschnitts ist abhängig von der Anzahl einzelner
Sprachkomponenten und deren relativer Signifikanz für subjektive
Qualitätsmaße in diesem
Abschnitt.
-
Die
Mittel zur Auswahl einzelner Abschnitte in den beiden Signalen können aufweisen
Mittel zum Identifizieren einzelner Äußerungen. In dem bevorzugten
Ausführungsbeispiel
wird dies durch Erfassen des Endes jedes Ruheabschnitts in dem Signal
erreicht. Eine Synchronisierung wird vorzugsweise durch Analyse
des Sprachinhaltes der Signale durchgeführt. Jedoch kann eine getrennte
Synchronisierungscharakteristik verwendet werden, um den Anfang
jedes Abschnitts zu identifizieren. Diese Synchronisierungscharakteristik
ist vorzugsweise außerhalb
der Frequenzband-Charakteristik von Sprache, so dass sie das Analyseverfahren
(das nur Veränderungen
erfasst, die für
einen menschlichen Zuhörer wahrnehmbar
sind) nicht stört.
Die einen bestimmten Abschnitt betreffende Synchronisierungscharakteristik
kann als eindeutig für
diesen Abschnitt ausgewählt werden,
um sicherzustellen, dass jeder verzerrte Abschnitt mit dem entsprechenden
Testabschnitt verglichen wird. Dies stellt sicher, dass, sollte
ein Abschnitt oder seine Synchronisierungscharakteristik als Ergebnis
der Verzerrung verloren gehen, nachfolgende Abschnitte trotzdem
analysiert werden können.
-
In
einer bevorzugten Anordnung wird jeder Abschnitt analysiert, um
die Position jeder Verzögerungsänderung
zu identifizieren, und die Teile des Abschnitts, die jeder Verzögerungsänderung
voraus gehen und nachfolgen, werden getrennt synchronisiert und
auf Verzerrung analysiert.
-
In
dem im Detail zu beschreibenden Ausführungsbeispiel können die
Abschnitte, die zur Analyse ausgewählt werden, einzelne Äußerungen
aufweisen, das heißt,
ununterbrochene Abschnitte von Sprache, denen jeweils eine Ruhe
voraus geht und auf die eine Ruhe einer minimalen vorgegebenen Länge folgt.
Jedoch kann eine Anzahl alternativer Verfahren zum Definieren geeigneter
Abschnitte verwendet werden. Zum Beispiel können lange Äußerungen, wie vorher definiert,
in zwei oder mehrere Teil-Äußerungen
unterteilt werden. Das Signal kann stattdessen in eine Anzahl von
Abschnitten fester Länge
oder in eine feste Anzahl von gleich langen Abschnitten geteilt
werden. Wenn jedoch Abschnitte überhaupt
keine Sprache enthalten, werden sie vorzugsweise nicht für eine Analyse
verwendet, da eine Verzögerung
schwieriger zu bestimmen ist. Alle Fehler in Abschnitten, die keine
Information enthalten, sind weniger wahrscheinlich wahrnehmbar wichtig.
-
In
einem weiteren Aspekt weist die Erfindung ein Verfahren zum Testen
von Einrichtungen zur Handhabung von Sprachsignalen auf, mit den
Schritten:
Liefern eines Testsignals,
Empfangen eines
verzerrten Signals, das dem Testsignal entspricht,
wenn es
von der getesteten Einrichtung verzerrt wird,
Vergleichen des
verzerrten Signals mit dem Testsignal, um ein Verzerrungs-Wahrnehmungs-Maß zu erzeugen,
das den Grad anzeigt, zu dem die Verzerrung des Signals für einen
menschlichen Zuhörer wahrnehmbar
wäre, und
dadurch
gekennzeichnet, dass
einander entsprechende einzelne Abschnitte
in dem Testsignal und dem verzerrten Signal ausgewählt und
synchronisiert werden, und der Vergleich zwischen einander entsprechenden
Abschnitten durchgeführt
wird,
und die Ergebnisse jedes derartigen Vergleichs kombiniert
werden, um ein Gesamtmaß des
Grades zu erzeugen, zu dem die Verzerrung des Signals für einen
menschlichen Zuhörer
wahrnehmbar wäre.
-
Die
Erfindung kann in einer Computer-Software als ein Computerprogrammprodukt
zum direkten Laden in den internen Speicher eines digitalen Computers
verwirklicht werden, mit Softwarecodeteilen zum Durchführen der
Schritte des oben beschriebenen Verfahrens, wenn das Produkt auf
einem Computer läuft.
-
In
einem weiteren Aspekt weist die Erfindung ein Computerprogrammprodukt
auf, das auf einem Computer-verwendbaren Medium gespeichert ist, mit:
Computer-lesbaren
Programm-Mitteln, die den Computer veranlassen, ein erstes Signal
und ein zweites Signal zu analysieren, um ein Verzerrungs-Wahrnehmungs-Maß zu erzeugen,
das den Grad anzeigt, zu dem die Verzerrung des zweiten Signals
im Vergleich zu dem ersten Signal für einen menschlichen Zuhörer wahrnehmbar
wäre, und
charakterisiert
durch Computer-lesbare Programm-Mittel, die einen Computer veranlassen,
einzelne Abschnitte in dem ersten Signal und dem zweiten Signal
auszuwählen,
Computer-lesbare
Programm-Mittel, die den Computer veranlassen, jeden Abschnitt in
dem verzerrten Signal mit dem entsprechenden Abschnitt in dem Testsignal
zu synchronisieren und ein Verzerrungs-Wahrnehmungs-Maß zu erzeugen, das den Grad
anzeigt, zu dem die Verzerrung jedes Abschnitts des zweiten Signals
im Vergleich zu dem entsprechenden Abschnitt des ersten Signals
für einen menschlichen
Zuhörer
wahrnehmbar wäre;
Computer-lesbare
Programm-Mittel, die den Computer veranlassen, die Ergebnisse einer
jeden derartigen Messung zu kombinieren, um ein Gesamtmaß des Grades
zu erzeugen, zu dem die Verzerrung des Signals für einen menschlichen Zuhörer wahrnehmbar
wäre.
-
Das
Computerprogrammprodukt kann auf jeden geeigneten Träger aufgenommen
werden, der von einer geeigneten Computereingabevorrichtung lesbar
ist, wie CD-ROM, optisch lesbare Markierungen, magnetische Medien,
Lochkarte oder ein elektromagnetisches oder optisches Signal.
-
Ein
bevorzugtes Ausführungsbeispiel
der Erfindung wird nun auf beispielhafte Weise unter Bezugnahme
auf die Zeichnungen beschrieben, wobei:
-
1 in
einer schematischen Form die allgemeine Anordnung des Systems gemäß dem Stand der
Technik zeigt;
-
2 in
einer schematischen Form die allgemeine Anordnung eines Systems
gemäß der Erfindung
zeigt;
-
3 detaillierter
die Anordnung der Vorverarbeitungselemente von 1 und 2 zeigt;
-
4 detaillierter
die Anordnung der gehörgerechten
Umwandlungselemente von 1 und 2 zeigt;
-
5 das
in dem bevorzugten Ausführungsbeispiel
der Erfindung verwendete Äußerungsidentifizierungsverfahren
erläutert;
-
6 das
in dem bevorzugten Ausführungsbeispiel
der Erfindung verwendete Äußerungsausrichtungsverfahren
erläutert;
und
-
7 die
funktionalen Elemente eines Universalcomputers erläutert, der
zur Durchführung
der Erfindung geeignet ist;
-
8 ein
modifiziertes Verfahren gemäß der Erfindung
erläutert,
in dem eine einzelne Äußerung in zwei
Teilen ausgerichtet werden kann;
-
9 ein Zeitverlauf ist, der das in 8 gezeigte
Verfahren erläutert.
-
Die
in diesen Zeichnungen dargestellten funktionalen Komponenten können als
eine auf einem Universalcomputer laufende Software implementiert
werden.
-
Das
in 1 gezeigte System gemäß dem Stand der Technik enthält zwei
Eingänge 1, 2 für das Referenzsignal
und das Signal mit verminderter Qualität. Diese werden einer Vorverarbeitung
in einer Eingangsverarbeitungseinheit 3 unterzogen, in
erster Linie um die beiden Signale zu synchronisieren, wie detaillierter
unter Bezugnahme auf 3 beschrieben wird. Dann werden
sie einer gehörgerechten Umwandlung
in einer Umwandlungseinheit 4, 5 unterzogen, um
die nicht-lineare Antwort des menschlichen Hörsystems auf eine Frequenz
und die Frequenz-abhängige
Antwort des Hörsystems
auf eine Amplitude zu modellieren. Diese Umwandlungen werden detaillierter
unter Bezugnahme auf 4 beschrieben. Sie erzeugen
jeweils eine entsprechende Ausgabe 6, 7, die eine
Serie von Werten aufweisen, die das Signal als einen Satz von Frequenzbändern und
von Zeitintervallen darstellen, die als eine zweidimensionale Matrix
oder graphisch als eine Oberfläche
dargestellt werden können.
-
Die
Frequenzbänder
sind von ungleicher Breite, um die nicht-lineare Antwort des menschlichen
Hörsystems
zu berücksichtigen.
Die Zeitintervalle müssen
in jedem Hörband
nicht dieselben sein, wie in dem europäischen Patent
EP 0647375 diskutiert wird.
-
Die
beiden Ausgaben 6, 7 werden von einem Vergleicher 8 verglichen,
der eine Ausgabe 9 erzeugt, die ein Maß des Unterschieds zwischen
ihnen ist. Diese Ausgabe 9 stellt den hörbaren Fehler dar, der von
dem getesteten System auf das Referenzsignal 1 angewendet
wird, um das Signal mit verminderter Qualität 2 zu erzeugen. Die
drei Ausgaben 6, 7, 9 werden dann von
einer Wahrnehmungs-Analyseeinheit 10 verarbeitet,
welche die wahrnehmbare Signifikanz jedes an der Ausgabe 9 identifizierten hörbaren Fehlers
bestimmt. Dieser Vorgang berücksichtigt
dem Zusammenhang gemäße Faktoren,
beispielsweise, ob der Fehler von anderen Frequenz- oder Zeit-Komponenten maskiert
wird, ob der Fehler von einem Typ ist, der ein Verständnis beeinflusst, und
andere Faktoren, die detailliert in den vorher erwähnten Spezifikationen
diskutiert werden. Dann werden an dem Ausgang 11 Signale
erzeugt, die einen Gesamtwert liefern für eine „Zuhör-Anstrengung" (YLE) – ein Maß, wie sich
ein Zuhörer
konzentrieren müsste,
um eine Bedeutung aus einem derartige Verzerrungen übertragenden
Signal zu gewinnen, und für
eine „Zuhör-Qualität" (YLQ) – die subjektive
Qualität
des Signals. Beide Skalen bewerten das Signal auf einer Skala von
1 bis 5 (höhere
Zahlen bedeu ten weniger Verschlechterung) und werden in ITU-T P.800
beschrieben.
-
3 zeigt
schematisch die Vorgänge,
die in der Eingangsverarbeitungseinheit 3 stattfinden.
Jedes Signal wird zuerst einer Eingangsverarbeitung unterzogen (Einheiten 12/13),
um einfache systematische Unterschiede, wie DC-Pegel, zu entfernen.
Die Signale werden dann an die Filter 14/15 geleitet,
welche die Frequenzantwort zwischen dem Punkt der Signalerfassung
und dem inneren Ohr emulieren. Jedes Signal wird dann an eine jeweilige
Spracherfassungsstufe 16/17 geleitet, um den Anfang
der Sprache oder einen anderen vorgegebenen Einsatz in dem Signal
zu identifizieren. Dadurch können
einander entsprechende Teile des Referenzsignals und des Signals
mit verminderter Qualität
in einem Ausrichtungs-Prozessor 18 identifiziert werden,
so dass die beiden Signale verarbeitet werden können, um eine Fehlerfläche zu erzeugen.
In dem System gemäß dem Stand
der Technik von 1, das konfiguriert ist zur
Bewertung der Qualität
von geschalteten Verbindungen, in denen eine Verzögerung konstant ist,
ist diese Ausrichtung ausreichend, um die gesamte Sprachprobe zu
synchronisieren. In der vorliegenden Erfindung werden jedoch einzelne
Pakete und einzelne aus diesen Paketen zusammengesetzte Äußerungen
verschiedenen Verzögerungen
um den von dem Ausrichtungs-Prozessor 18 bestimmten Wert
herum ausgesetzt. Im Allgemeinen trägt das Signal mit verminderter
Qualität
im Vergleich zu dem ursprünglichen
Referenzsignal einen Grad von Dämpfung
oder Verstärkung.
Einfache Dämpfung oder
Verstärkung,
wenn sie sich innerhalb der Grenzen der Hörbarkeit befindet, beeinflusst
die wahrnehmbare Qualität
des Sprachinhalts nicht, somit müssen
derartige Änderungen
im Pegel in der Verarbeitung zugelassen werden. Der Ausrichtungs-Prozessor 18 vergleicht
den absoluten Pegel der beiden Einsatz-Signale, so dass eine Dämpfung bei
dem Vergleich kompensiert werden kann.
-
4 zeigt
die funktionalen Elemente der gehörgerechten Umwandlungseinheiten 4, 5.
Das Signal wird zuerst in eine Anzahl getrennter Frequenzbänder gefiltert
(19), wobei dann jedes in der Zeitdomäne über ein Intervall gemittelt
(20) wird. Das Intervall kann für verschiedene Frequenzbänder unterschiedlich
sein, gemäß von Berücksichtigungen
wie die Dauer von Maskiereffekten und die Hörbarkeit von kurzzeitigen Tönen, deren
Effekte mit der Frequenz variieren. Die psycho-akustische Lautstärke (loudness)
jeder Zeit- und Frequenz-Komponente, unter
Berücksichtigung
von Maskiereffekten, Frequenz und anderer psychologischer und physiologischer
Faktoren, wird dann bestimmt (21). Werte unter einem Hörbarkeits-Schwellenwert
werden dann entfernt (22), um die Ausgaben 6, 7 zu
erzeugen.
-
Die
gehörgerechten
Umwandlungseinheiten 4, 5 und die Komponenten 12, 13, 14, 15, 16, 17 des Eingangsverarbeitungs-Prozessors 3 werden
als doppelt vorgesehen gezeigt, damit die Referenzsignale und die
Signale mit verminderter Qualität
parallel verarbeitet werden können.
Es ist möglich,
diese Prozesse für
die beiden Signale sequentiell auszuführen, unter Verwendung einer
einzigen Eingangsverarbeitungseinheit, einem Filter und einer Sprach-Erfassungsvorrichtung,
um zuerst das Referenzsignal zu verarbeiten und dann denselben Vorgang
auf dem Signal mit verminderter Qualität durchzuführen. Beide Ausgaben werden
dann auf den Ausrichtungs-Prozessor 18 angewendet. Ähnlich können die
beiden Referenz-Flächen 6, 7 von
derselben gehörgerechten
Umwandlungseinheit erzeugt werden. Zweifellos müssen die Ergebnisse der ersten
Verarbeitung gespeichert werden, während das zweite Signal verarbeitet
wird.
-
In
dem Modell gemäß dem Stand
der Technik werden Sprache und Nicht-Sprache in den Sprach-Erfassungsvorrichtungen 16, 17 identifiziert, um
die vollständigen
Proben zur Verwendung in der Wahr nehmungs-Analyseeinheit 10 auszuwählen und auszurichten.
Im Gegensatz dazu arbeitet in dem in 2 gezeigten
Ausführungsbeispiel
der Erfindung die Wahrnehmungs-Analyseeinheit 10 jeweils
auf einem einzigen Abschnitt. In der Erfindung werden Ausrichtung,
Pegel und Übertragungs-Funktion
für jede Äußerung unabhängig geschätzt. Mehrere
Abschnitte in einem Testsignal werden einzeln verarbeitet und ihre
gewonnenen Parameter dann kombiniert.
-
Die
Eingaben 1, 2 werden auf einen Eingangsverarbeitungs-Prozessor 23 angewendet,
der ähnliche
Funktionen wie der Prozessor 3 in 1 ausführt, aber
arbeitet, um jeden einzelnen Abschnitt auszuwählen und auszurichten, anstatt
einfach das Signal als Ganzes auszurichten. Dies wird unter Bezugnahme
auf 5 und 6 detaillierter beschrieben.
Der Prozessor 23 erzeugt eine Serie von ausgerichteten
Abschnittspaaren.
-
Die
gehörgerechten
Umwandlungseinheiten 4, 5 und die Erzeugungseinheit 27 für Fehlerparameter
handhaben dann jedes Abschnittspaar auf die gleiche Weise wie der
Prozess gemäß dem Stand der
Technik, um Fehlerparameter für
jede Äußerung an
dem Ausgang 21 zu erzeugen.
-
Diese
Fehlerparameter werden dann in einer Kombinierereinheit 28 weiter
verarbeitet, die für
jeden Fehlerparameter einen über
alle Abschnitte zusammengesetzten Gesamtwert erzeugt. Diese Gesamtwerte
sind typischerweise ein zusammengesetzter oder mittlerer Wert der
Parameter der einzelnen Abschnitte, gewichtet, um die relative wahrnehmbare
Signifikanz jedes Abschnitts zu berücksichtigen, zum Beispiel seine
Länge.
Diese Gewichtungen können
im Voraus bestimmt werden, da das Testsignal ein vorgegebenes Referenzsignal
ist. Die Kombinierereinheit 28 für Fehlerparameter stellt sicher,
dass in verschiedenen Abschnitten auftretende Fehler auf geeignete
Weise zu sammengesetzt werden. Zum Beispiel würde die Länge eines bestimmten Abschnitts
seine Auswirkung auf die Qualität
beeinflussen. Ebenso kann der Kombinierer ein Fehlerzusammensetzungsprofil
umfassen – Fehler,
die am Beginn oder am Ende eines Anrufs auftreten, können eine
größere Auswirkung
auf die wahrgenommene Qualität
haben als die in der Mitte eines Anrufs.
-
Schließlich wird
der kombinierte Fehlerparameter in einer Übersetzungseinheit 29 in
die standardmäßige ITU-Signalqualitätsskala
umgewandelt, um Werte von YLE und YLQ an der Ausgabe 11 zu erzeugen.
-
Ein
in dem Eingangsverarbeitungs-Prozessor 23 durchgeführter Vorgang,
um die Abschnitte zur Analyse auszuwählen, wird nun detailliert
unter Bezugnahme auf 5 beschrieben, die Teile eines
Referenzsignals 30 und eine verschlechterte Version 40 dieses
Signals zeigt. Bei diesem Vorgang werden einzelne Äußerungen
identifiziert. Eine Äußerung wird
als eine Zeitdauer von Sprache betrachtet, in der eine Instanz einer
Nicht-Sprache eine definierte Schwellendauer nicht überschreitet.
Wie in 5 gezeigt, hat das Referenzsignal zwei Ruhe-Zeitabschnitte 31, 32.
Der erste Zeitabschnitt 31 ist länger als der Schwellenwert
und definiert somit eine Lücke zwischen
zwei Äußerungen 33, 34.
Der zweite Zeitabschnitt 32 ist kürzer als die Schwelle und definiert somit
keine Lücke
zwischen zwei Äußerungen.
Einige Sprache-über-Paketvermittelte
(voice-over-packet switching) Systeme sind ausgebildet, um sicherzustellen,
dass jedes Paket einer Übertragung
auf demselben Weg wie das vorhergehende Paket geleitet wird, außer eine
vorgegebene Anzahl von vorhergehenden Paketen war „Ruhe". Dies stellt sicher, dass
alle Pakete einer Äußerung auf
demselben Weg geleitet werden, obwohl verschiedene Äußerungen unterschiedlich
geleitet werden können,
wobei die Ruhe-Lücken
folglich auf der Empfangsseite kürzer oder
länger
sind. Die in dem vor liegenden Ausführungsbeispiel verwendete Schwelle
kann geeigneterweise gewählt
werden, dieser vorgegebenen Anzahl von Ruhe-Paketen zu entsprechen.
-
Um
eine Robustheit beizubehalten, werden die Anfangs- und End-Markierungen für die Äußerungen 43, 44 in
dem Signal mit verminderter Qualität nur von dem Referenzsignal 30 genommen.
Dies stellt sicher, dass hörbare
Störungen
in dem Signal mit verminderter Qualität 40 oder ein Verlust
des Signals die Identifizierung der Äußerungen nicht beeinträchtigt.
Zum Beispiel wurde in 5 der letzte Teil 45 der
zweiten Äußerung mit
verminderter Qualität verloren,
das Ende 46 der Äußerung 40 mit
verminderter Qualität
jedoch befindet sich an dem Punkt, der dem Ende 36 der
Referenz-Äußerung 30 entspricht.
-
Das
menschliche Gehirn ist gegenüber
geringen Veränderungen
bei der Verzögerung
oder dem Pegel zwischen Sprachereignissen unempfindlich. Durch eine
Verarbeitung von Äußerung nach Äußerung können diese
geringen Veränderungen
außer Acht
gelassen werden. 6 zeigt diesen Vorgang.
-
Es
wird angenommen, dass das Eingangsverarbeitungsmodul 3 (3)
verantwortlich ist für den
größten Teil
des Verzögerungsversatzes
zwischen dem Referenzsignal 50 und dem Signal 60 mit verminderter
Qualität.
Wenn der größte Teil
des Versatzes entfernt ist, wird erwartet, dass sich jede Äußerung 61, 62 in
dem Signal 60 mit verminderter Qualität innerhalb eines Ausrichtungsfensters
von n Abtastwerten zu jeder Seite der entsprechenden Referenz-Äußerung 51, 52 befindet.
Ein Abschnitt der Referenz-Äußerung 51,
im Folgenden als ein Äußerungs-Suchbereich 53 bezeichnet,
wird verarbeitet, indem er mit dem entsprechenden Abschnitt 63 des Signals
mit verminderter Qualität
unter Verwendung eines Kreuzkorrelations-Verfahrens auf überlappende
Teile korreliert wird. Das Verfahren kann das in dem europäischen Patent
0791251 des Anmelders verwendete Verfahren sein. Der Modus der Korrelations-Funktion
identifiziert den präzisen
Startpunkt der verschlechterten Äußerung 61.
Als ein Ergebnis kann die verschlechterte Äußerung 61 mit der
Referenz-Äußerung 51 ausgerichtet
werden, wodurch dieser Abschnitt durch den Rest der Analyse-Einheit verarbeitet
werden kann. Der Vorgang wird für
nachfolgende Äußerungen 52, 62,
usw. wiederholt.
-
Eine
Pegel-Ausrichtung, eine Schätzung
der Übertragungsfunktion,
gehörgerechte
Umwandlungen und Fehlerparametererzeugung können dann alle auf einem „Äußerung für Äußerung"-Ansatz durchgeführt werden. 7 stellt
schematisch einen Universalcomputer dar, der zur Durchführung der
Erfindung geeignet ist. Er weist eine Eingabevorrichtung 71,
eine Zentraleinheit (CPU) 72, eine Ausgabevorrichtung 73,
wie einen Drucker oder ein Bildschirmgerät, einen Speicher 74 und
einen Anschluss 75 zur Verbindung mit anderen Vorrichtungen
auf. Die Betriebsanweisungen zur Steuerung des Computers können in
einer maschinenlesbaren Form auf einem Träger, wie eine Magnetplatte
oder ein Magnetband 70, oder als ein über den Anschluss 75 von einer
anderen Vorrichtung über
eine Telekommunikationsverbindung heruntergeladenes Signal geliefert werden. Ähnlich können das
Referenzsignal und das Signal mit verminderter Qualität von einem
der Mittel geliefert werden. Die Betriebsanweisungen und das Referenzsignal
und das Signal mit verminderter Qualität werden in dem Speicher 74 gespeichert,
bis sie von der Zentraleinheit 72 aufgerufen werden, die
gemäß den in
dem Programm übertragenen
Anweisungen und allen Eingaben von Menschen arbeitet, die über eine
mit dem Anschluss 75 verbundene Eingabevorrichtung gemacht
werden. Die Ausgabe-Parameter YLE und YLQ werden an die Ausgabevorrichtung 73 geliefert.
-
Es
sollte angemerkt werden, dass Unterschiede in der Verzögerung auch
innerhalb einer einzelnen Äußerung (Sprachereignis)
auftreten können. Unterschiede
in der Verzögerung
zwischen einem Abschnitt einer Äußerung und
einem anderen Abschnitt derselben Äußerung sind eher wahrnehmbar als
Unterschiede in der Verzögerung
zwischen getrennten Äußerungen,
so dass sie mit höherer
Wahrscheinlichkeit die subjektive Qualität des Signals beeinflussen,
und es wichtiger ist, sie zu berücksichtigen.
Insbesondere wird eine Reduzierung der Verzögerung zwischen dem ursprünglichen
Signal und dem Signal mit verminderter Qualität während einer Äußerung als
Verkürzung
eines einzelnen Tons oder sein vollständiges Fehlen offensichtlich. Ähnlich wird eine
Zunahme der Verzögerung
zwischen dem ursprünglichen
Signal und dem Signal mit verminderter Qualität während einer Äußerung als
Verlängerung eines
einzelnen Tons oder Einführung
eines in dem ursprünglichen
Signal fehlenden Tons offensichtlich. Diese Fehler haben eine Wirkung
auf die wahrgenommene Qualität
des Signals. Jedoch würde
die schlechte Ausrichtung der Signale vor oder nach der Veränderung
der Verzögerung
von dem Messsystem als Verschlechterung wahrgenommen, obwohl für den Zuhörer keine
Verschlechterung erfassbar wäre.
-
In
einer Modifizierung der Erfindung, die nun unter Bezugnahme auf
die 8 und 9 beschrieben wird,
können
derartige Diskontinuitäten
in der Verzögerung
identifiziert und berücksichtigt
werden. Dieser Vorgang identifiziert eine Äußerung mit einer einzigen derartigen
Diskontinuität,
außer
sie ist zu nahe an dem Anfang oder Ende der Äußerung. Er identifiziert auch
einige Äußerungen
mit zwei derartigen Diskontinuitäten.
-
Dieser
Vorgang schätzt
für ein
bestimmtes Paar (ursprünglich/verschlechtert)
von Sprachdateien alle in der verschlechterten Datei vorhandenen zeitlichen
Verzögerungen
und die Stellen jeder Verzöge rungsänderungen.
Dieser Vorgang wird in den 8 und 9 dargestellt.
-
In
einem anfänglichen
Verarbeitungsschritt werden das ursprüngliche Signal 1 und
das Signal 2 mit verminderter Qualität gelesen (Schritt 801).
Wenn das Signal mit verminderter Qualität kürzer als das ursprüngliche
Signal ist, wird eine Null-Füllung
(zero padding) an das Ende des Signals mit verminderter Qualität hinzugefügt (Schritt 802).
Wenn das Signal mit verminderter Qualität länger ist, wird seine Länge angepasst,
indem es gekürzt
wird. Dies stellt sicher, dass die Intaktheit des ursprünglichen
Signals nicht beeinträchtigt
wird.
-
Als
nächstes
werden Bereiche von Sprachaktivität (Äußerungen) unter Verwendung
einer Sprachaktivitäts-Erfassungsvorrichtung
lokalisiert (Schritt 803); für jede Äußerung von der ursprünglichen
Datei wird der Abschnitt mit denselben Abtastwert-Labels von der
verschlechterten Datei identifiziert (Schritt 804). Für jedes
derartige Paar von Äußerungen
werden dann die folgenden Schritte durchgeführt.
-
Da
die Sprachaktivitäts-Erfassungsvorrichtung
Abschneidepunkte für
die extrahierten Sprachabschnitte direkt dort erzeugt, wo Sprache
beginnt und endet, gibt es kein Anlaufen (run-in) oder Auslaufen
(run-out); ein kurzer Zeitabschnitt von Ruhe wird deswegen zu jedem
Ende der beiden Äußerungen hinzugefügt, um dem
Ausrichtungsvorgang zu unterstützen
(Schritt 805).
-
Der
nächste
Schritt ist, eine Verzögerungsschätzung für die vollständige Äußerung zu
berechnen (Schritt 806) und das Ergebnis zu speichern.
Ein Konfidenzwert für
diese Verzögerungsschätzung wird
ebenfalls berechnet und gespeichert.
-
Die Äußerung wird
dann an dem Mittelpunkt m in zwei Abschnitte unterteilt (siehe 9) und Verzögerungen und Konfidenzwerte
für jede
Hälfte
werden berechnet und gespeichert (Schritt 807).
-
Wenn
die Verzögerungen
in den beiden Hälften übereinstimmen
(innerhalb einer geringen Fehlerspanne), zeigt dies an, dass die
Verzögerung über die Äußerung hinweg
konstant ist und es keine Verzögerungsänderung
gibt. Das folgende Dreiteilungsverfahren 808–826 wird
dann verwendet, um ein weiteres Konfidenzmaß zur Bestätigung dieses Ergebnisses unter
Verwendung des bereits bestimmten Verzögerungswertes zu erzeugen (Schritt 806). Wenn
die beiden Verzögerungen
nicht übereinstimmen
(innerhalb einer geringen Fehlerspanne), zeigt dies an, dass der
zweite Abschnitt eine von dem ersten Abschnitt unterschiedliche
mittlere Verzögerung hat,
was heißt,
dass eine Verzögerungsänderung
in einer der beiden Hälften
vorhanden ist. Das folgende Dreiteilungsverfahren 808–826 wird
verwendet, um die Position der Verzögerungsänderung zu bestimmen.
-
In
dieser Beschreibung wird eine „Übereinstimmung" von zwei Verzögerungsschätzungen
angenommen, wenn sie um weniger als eine vorgegebene Toleranz voneinander
abweichen, zum Beispiel 16 Digitalisierungs-Abtastwerte (1 Millisekunde).
-
Es
ist zu beachten, dass Verzögerungsänderungen
sehr nah am Anfang oder Ende der Äußerung nicht erfasst werden,
da die beiden Hälften
dann Verzögerungswerte
haben, die sehr ähnlich
sind. In derartigen Umständen
werden die ursprünglichen
und die verschlechterten Äußerungen
korrekt ausgerichtet, außer
an einem kurzen Abschnitt an einem Ende, der als eine Verschlechterung
identifiziert wird.
-
Das
Dreiteilungsverfahren ist ein iterativer Vorgang, der auf einem
Suchintervall [a, b] durchgeführt
wird, das anfangs die vollständige Äußerung ist (wie
in 9 gezeigt), aber bei jeder Iteration
neu definiert wird. Das Suchintervall wird in drei symmetrischen überlappenden
Abschnitten gleicher Länge analysiert,
wie in 9 gezeigt, wobei jeder der
drei Abschnitte 40% des Suchintervalls aufweist. Sie werden definiert
von den Intervallen: [a, x], [w, z], [y, b], wobei a, w, x, y, z,
b jeweils bei 0.0, 0.3, 0.4, 0.6, 0.7 und 1.0 anteilige Entfernungen
des vollständigen
Suchintervalls [a, b] sind. Da sie einen symmetrischen Satz um den
Mittelpunkt m bilden (0.5 anteilige Entfernung von jedem Ende des
Suchintervalls), ist die Suchrichtung unbeeinflusst (unbiased).
-
Um
das iterative Dreiteilungsverfahren zu beginnen, wird das Suchintervall
[a, b] als die gesamte Probe gesetzt (Schritt 808).
-
An
jedem Schritt des iterativen Verfahrens werden die drei überlappenden
Intervalle [a, x], [w, z] und [y, b] jeweils als die ersten, mittleren
und letzten 40% des Suchintervalls definiert (Schritt 809).
Verzögerungen
und entsprechende Konfidenzmaße
werden dann für
jeden Abschnitt gemessen und gespeichert (Schritt 810).
-
Es
wurde bereits angemerkt, dass, wenn eine Verzögerungsänderung nahe am Anfang oder Ende
eines Suchintervalls auftritt, dies eine relativ geringe Wirkung
auf die Schätzung
des Verzögerungswerts
für dieses
Intervall haben wird und wahrscheinlich nicht als eine Verzögerungsänderung
erfasst wird. Somit sind Verzögerungsänderungen
in der Nähe
des Anfangs oder des Endes einer Äußerung weniger erfassbar als
die in der Nähe
der Mitte. Eine in dem Bereich [w, x] (9)
auftretende Verzögerungsänderung
wird dazu führen,
dass der für
das erste Intervall [a, x] geschätzte
Verzögerungswert hauptsächlich von
der tatsächlichen
Verzögerung
vor der Änderung
beeinflusst wird, aber der für
das mittlere Intervall [w, z] geschätzte Verzögerungswert entspricht sehr
genau der tatsächlichen
Verzögerung nach
der Änderung.
Dieser zweite Verzögerungswert wird
auch gemessen, aber mit einem höheren
Konfidenzwert für
das dritte Intervall [y, b]. Somit werden die Verzögerungen
für die
zweiten und dritten Intervalle [w, z] und [y, b] übereinstimmen,
in dem oben definierten Sinn.
-
In
der nächsten
Phase werden die für
die drei Intervalle gemessenen Verzögerungen verglichen (Schritt 811).
-
Wenn
die ersten und dritten Intervalle [a, x] und [y, b] übereinstimmen,
wird die Suche beendet und die iterative Schleife verlassen (Schritt 812),
da in diesem Fall der Schluss zu ziehen ist, dass es keine Verzögerung zwischen
dem Anfang und dem Ende des Suchintervalls gibt. Die Verzögerung für das vollständige Suchintervall
und ein Konfidenzwert werden dann geschätzt und gespeichert und die
iterative Schleife wird verlassen (siehe Schritt 816).
-
Stimmt
keines der drei Intervalle überein (Schritt 813),
wird die Suche beendet und die iterative Schleife verlassen (Schritt 816),
da es in diesem Fall nicht möglich
ist, eine Richtung für
die nächste
Iteration zu bestimmen. Diese Situation tritt auf, wenn zwei oder
mehrere Verzögerungsänderungen
vorhanden sind.
-
Wenn
die Verzögerung
für das
mittlere Intervall [w, z] mit einer (aber nicht beiden) der anderen beiden
Intervalle [a, x], [y, b] übereinstimmt
(Schritt 814), kann angenommen werden, dass die Verzögerungsänderung
innerhalb oder in der Nähe
der Überlappung
zwischen dem zweiten Intervall [w, z] und dem nicht übereinstimmenden
Intervall [y, b] oder [a, x] liegt. Das Suchintervall wird dann
neu definiert, damit es [a, z] oder [x, b] wird (Schritt 815)
(wodurch das Inter vall entfernt wird, in dem die Verzögerungsänderung
nicht auftritt) und eine weitere Iteration wird durchgeführt (Schritt 809).
-
Das
iterative Verfahren wird beendet, wenn die Länge des Suchintervalls unter
eine vorgegebene Schwelle abnimmt (zum Beispiel 8000 Abtastwerte: 0.5
Sek) (Schritt 816), außer
die Schleife wurde bereits verlassen (Schritte 812, 813).
-
Die
bereits gespeicherten (Schritte 806, 807, 810, 812)
Verzögerungswerte
und Konfidenzwerte werden nun verwendet, um den Wechselpunkt (changeover
point) und tatsächliche
Verzögerungswerte
zu bestimmen.
-
Zuerst
wird der gespeicherte Konfidenzwert für jede Iteration des Verfahrens,
einschließlich
der für
die Stufen für
die vollständige Äußerung und
für die
halben Abschnitte, abgerufen und der mittlere Konfidenzwert für jede Iteration
bestimmt (Schritt 817). Der Satz von der maximalen mittleren
Konfidenz entsprechenden Verzögerungswerten
wird dann ausgewählt
(Schritt 818), da dies der Satz sein wird, in dem die geschätzte Position
der Verzögerungsänderung
(wenn vorhanden) am nähesten
zu dem exakten Wert ist.
-
Um
die Grenzen zu identifizieren, innerhalb die der tatsächliche
Wechselpunkt fällt,
werden die folgenden Schritte auf dem ausgewählten Satz von Verzögerungswerten
durchgeführt:
Wenn
die für
die Ausrichtung der gesamten Äußerung berechnete
Verzögerung
(Schritt 806) die Verzögerung
mit der höchsten
Konfidenz liefert, wird gefolgert, dass es keine Verzögerungsänderung
und somit keinen Wechselpunkt gibt (Schritt 819).
Wenn
der höchste
mittlere Konfidenzwert als der für die
zwei Verzögerungen
erhaltene identifiziert wird, die für die Teilung der Äußerung in
zwei gleiche Hälften
berechnet wurden (Schritt 807), und diese beiden Hälften stimmen überein,
gibt es wiederum keine Verzögerungsänderung
und somit keinen Wechselpunkt (Schritt 820). Stimmen die
Hälften
nicht überein, dann
gibt es eine Verzögerungsänderung,
wobei der Wechselpunkt als exakt der Mittelpunkt der Äußerung identifiziert
wird (Schritt 821).
Wenn der Satz von Datenwerten,
der ausgewählt wurde,
da er den höchsten
Konfidenzwert hat, einer der Dreiteilungen ist, werden die folgenden
Schritte 822–826 durchgeführt.
Wenn
der beste Konfidenzwert der für
eine Iteration ist, in der die ersten und dritten Abschnitte übereinstimmen
(wie in Schritt 812 herausgefunden wurde), wird angenommen,
dass es einen Fehler bei der Berechnung der Verzögerung des mittleren Abschnitts gibt
(wofür
es schwieriger ist, eine genaue Verzögerungsschätzung zu erhalten, da es keine
auszurichtenden Anfänge
und Enden von Sprache gibt) und dass keine Verzögerungsänderung tatsächlich aufgetreten
ist (Schritt 822). Die alternative Möglichkeit, dass zwei entgegengesetzte
Verzögerungsänderungen
zu genau der richtigen Zeit aufgetreten sind, so dass die äußeren Intervalle
[a, x], [y, b] übereinstimmen,
mit einer anderen Verzögerung
in dem mittleren Abschnitt [w, z], ist zu unwahrscheinlich, um eine
Betrachtung zu erfordern.
Wenn die Verzögerung in dem mittleren Intervall
[w, z] der ausgewählten
Dreiteilung mit einem (aber nicht beiden) der anderen beiden Intervalle übereinstimmt (wie
in Schritt 814 herausgefunden wurde), muss es eine Verzögerungsänderung
innerhalb des Suchintervalls [a, b] geben (Schritt 823).
Insbesondere, wenn die Verzögerungsschätzungen
für die
ersten und zweiten Intervalle [a, x], [w, z] überein stimmen, dann muss die
Verzögerung
in der zweiten Hälfte
des zweiten Intervalls [w, z] oder in der ersten Hälfte des dritten
Intervalls [y, b] liegen. Ähnlich
gilt, wenn die Verzögerungsschätzungen
für die
zweiten und dritten Intervalle [w, z], [y, b] übereinstimmen, dann muss die Verzögerungsänderung
in der zweiten Hälfte
des ersten Intervalls [a, x] oder in der ersten Hälfte des
zweiten Intervalls [w, z] liegen. Die exakte Position des Wechsels
kann nicht genauer bestimmt werden als das minimale Suchintervall
ermöglicht,
somit wird ein vorgegebener Punkt, der in den identifizierten Bereich
des ausgewählten
Suchintervalls fällt,
als die geschätzte
Verzögerungsänderungsposition
gewählt (Schritt 825).
(Es ist zu beachten, dass das gewählte Suchintervall selbst typischerweise
als ein Ergebnis der iterativen Reduzierungen in dem Suchintervall (Schritt 815)
ein kleiner Teil der vollständigen Äußerung ist,
somit wird die Stelle der Verzögerungsänderung
als in dieses kurze Intervall fallend identifiziert).
Wenn
keine Abschnitte übereinstimmen
(Schritt 824), wird angenommen, dass es zwei Verzögerungsänderungen
gibt (mehr als zwei sind sehr unwahrscheinlich), und zwei vorgegebene
Punkte entlang des Suchintervalls werden als die geschätzten Verzögerungsänderungspositionen
ausgewählt
(Schritt 825).
-
Neue
Werte für
die Verzögerung
in jedem Teil der Äußerung,
wie nun durch den geschätzten Verzögerungsänderungspunkt
oder die Punkte definiert, werden dann bestimmt (Schritt 826).
-
Abhängig vom
Ergebnis des Auswahlschritts 818, kann die Äußerung deswegen
keine, eine oder zwei Verzögerungsänderungen)
identifiziert haben. Das ursprüngliche Äußerungspaar 1, 2 wird
dann in bei diesen Verzögerungsänderungen
(wenn vorhanden) zwei getrennte Abschnitte getrennt und die derart
identifizierten Verzögerungen
werden auf jedes Paar aufgeprägt
(Schritt 827).
-
Das
Verfahren (Schritte 805–827) wird für das nächste Äußerungspaar
wiederholt.
-
In
dem bisher beschriebenen Ausführungsbeispiel
ist der anfangs ausgewählte
Abschnitt eine einzelne Äußerung. Äußerungen
mit einer Dauer, die länger
als eine vorgegebene Schwelle ist, können unterteilt werden in zwei
oder mehrere Teil-Äußerungen,
wobei dann jede Teil-Äußerung getrennt
ausgerichtet wird, wodurch eine Vielzahl von Verzögerungsänderungen
in einer einzelnen Äußerung identifiziert
werden kann.
-
Das
Vorhandensein einer Verzögerungsänderung
kann durch Teilen der Äußerung in
zwei Teile an einem oder mehreren verschiedenen Punkten) getestet
werden. Für
jeden Teilungspunkt werden die zwei Teile des Signals getrennt ausgerichtet
und die Konfidenz derartiger Ausrichtungen wird bestimmt. Ein Vergleich über alle
Teilungspunkte der Verzögerungen
jedes Abschnitts und die Konfidenz dieser Verzögerungswerte wird verwendet,
um die Stelle, wenn vorhanden, einer Verzögerungsänderung in dem Signal zu bestimmen.
Dieser Vorgang kann dann wiederholt werden für die Abschnitte auf jeder Seite
dieser identifizierten Verzögerungsänderung, um
mögliche
zusätzliche
Variationen in der Verzögerung
zu identifizieren.
-
In
einer weiteren alternativen Anordnung wird das vollständige Signal
(oder jeder Abschnitt von mehreren vorgegebenen Abschnitten davon,
wie einzelne Äußerungen)
zuerst als Ganzes verarbeitet, um jede konstante Verzögerung zu
identifizieren und zu entfernen. Das Signal wird dann in zwei Hälften geteilt
und eine Ausrichtung wird auf jedem Abschnitt getrennt durchgeführt. Jeder
derart ausgerichteter Abschnitt wird rekursiv unterteilt, bis eine
vorgegebene minimale Dauer erreicht ist. Dieser Vorgang ermöglicht,
dass eine Anzahl von Verzögerungsänderungen
an willkürlichen
Stellen in dem Signal identifiziert wird.