DE19915648A1

DE19915648A1 - Verfahren zum Bewerten der Sprachqualität von Telefonverbindungen

Info

Publication number: DE19915648A1
Application number: DE1999115648
Authority: DE
Inventors: Holger Stahl
Original assignee: Rohde and Schwarz GmbH and Co KG
Current assignee: Rohde and Schwarz GmbH and Co KG
Priority date: 1999-04-07
Filing date: 1999-04-07
Publication date: 2000-10-12

Abstract

Zum Bewerten der Sprachqualität von Telefonverbindungen durch Vergleich der Original(Referenz)-äußerung mit dem entsprechenden Teil der übertragenen Äußerung wird das digitalisierte Sprachsignal der Original(Referenz)-äußerung und das digitalisierte Sprachsignal der übertragenen Äußerung einer Kurzzeitspektralanalyse unterzogen; die aufeinanderfolgenden Kurzzeitspektren (Merkmalsfolgen) werden geglättet und einer Energienormierung unterzogen; dann werden die Merkmalsfolgen von Referenzäußerungen und übertragener Äußerung durch Synchronisation zur Deckung gebracht und voneinander subtrahiert (Beobachtungsfolgen); schließlich werden die durch Subtraktion gewonnenen Beobachtungsfolgen mittels mehrerer Hidden-Markov-Modelle klassifiziert und dasjenige Modell mit der maximalen Gesamtemissionswahrscheinlichkeit bestimmt und als Bewertungsergbnis ausgegeben.

Description

Die Erfindung betrifft und geht aus von einem Verfahren zum Bewerten der Sprachqualität von Telefonverbindungen, insbesondere solcher Verbindungen, die über drahtlose Mobilfunknetze bestehen. Die Bewertung geschieht durch Vergleich der Original(Referenz)-äußerung mit dem entsprechenden Teil der übertragenen Äußerung.

Ein Verfahren dieser Art ist bekannt (ASCOM Technical White Paper Series "Speech Quality and its Objective Evaluation with PACE", Ausgabe Nr. 103/98).

Für Zwecke der Spracherkennung sind außerdem schon die verschiedenartigsten Verfahren zur Aufbereitung und Klassifikation von digitalisierten Sprachsignalabschnitten bekannt. Als besonders geeignet haben sich für die Spracherkennung stochastische Verfahren gezeigt, die auf den sogenannten Hidden- Markov-Modellen basieren (L. R. Rabiner: A Tutorial on Hidden Markov Models and selected Applications in Speech Recognition. Proc. IEEE, Bd. 77 (1989), Heft 2, S. 257-286; H. Stahl: Konsistente Integration stochastischer Wissensquellen zur semantischen Decodierung gesprochener Äußerungen. Dissertation, Fakultät für Elektrotechnik und Informationstechnik, Technische Universität München, 1997).

Bei Telefonie-genutzten Mobilfunknetzen ist ein wichtiges Qualitätskriterium die subjektiv empfundene Qualität der übertragenen Sprache. Als Qualitätsmaß wird üblicherweise der von der ITU empfohlene sogenannte MOS-Wert (Mean Listening Quality Opinion Score, ITU-T P800: Series P: Telephone Transmission Quality; Methods for Objective and Subjective Assessment of Quality, Aug. 1996; ITU-T P830: Series P: Telephone Transmission Quality; Methods for Objective and Subjective Assessment of Quality, Febr. 1996) verwendet. Dieses Qualitätsmaß ist eine gemittelte Qualitätsbewertung vieler Testhörer, wobei in der Norm keine Festlegung darüber getroffen ist, welche Eigenschaft der Äußerung die Versuchsperson bewerten soll. Damit kann jeder Testhörer seine eigenen Kriterien ansetzen und bei genügender Anzahl von Testpersonen ergibt der gemittelte MOS-Wert dann einen repräsentativen Mittelwert.

Mit dem eingangs erwähnten bekannten Verfahren (Verfahren nach ASCOM) wurde schon versucht, diese durch Testpersonen durchgeführte subjektive Qualitätsbestimmung durch ein objektives Qualitätskriterium zu ersetzen.

Es ist Aufgabe der Erfindung, ein diesbezüglich einfacheres und auch schneller arbeitendes objektives Verfahren zur Sprachqualitätsbewertung von Mobilfunknetzen zu schaffen.

Diese Aufgabe wird ausgehend von einem Verfahren laut Oberbegriff des Hauptanspruches durch dessen kennzeichnende Merkmale gelöst. Vorteilhafte Weiterbildungen ergeben sich aus den Unteransprüchen.

Gemäß der Erfindung wird eine Signalvorverarbeitung unter Auswertung von Kurzzeitspektralanalysen angewendet, wie sie an sich bei Spracherkennungssystemen bekannt ist. Im Gegensatz zu dem bekannten Spracherkennungsverfahren dient als zu klassifizierendes Muster jedoch nicht die vorverarbeitete übertragene Äußerung direkt, sondern nur die Differenz zwischen der übertragenen Äußerung und der Referenzäußerung. Diese Differenz entspricht unmittelbar der Störung, welche die Äußerung während der Übertragung erlitten hat. Durch diese erfindungsgemäße Abwandlung der üblichen Spracherkennungsverfahren und vor allem durch die Kombination mit einem nach den Hidden-Markov-Modellen arbeitenden Klassifizierung wird ein Verfahren möglich, das ausgehend von einer vergleichsweise geringen Anzahl nötiger Trainingsmuster eine sehr exakte Bewertung der Sprachqualität in Telefonnetzen ermöglicht. Die Hidden-Markov-Modelle müssen nicht zwingend auf eine spezielle Äußerung mit fester Wortfolge trainiert werden, sondern es können stattdessen beliebige Äußerungen sowohl zum Training als auch bei der Klassifikation verwendet werden. Außerdem kommen die Modelle mit wesentlich weniger Parametern aus, da nur die Struktur der Übertragungsstörungen und nicht etwa auch die gesamte akustische Struktur der Äußerung selbst modelliert werden muß.

Die Erfindung wird im Folgenden anhand schematischer Zeichnungen an Ausführungsbeispielen näher erläutert.

Die Bewertung der Sprachqualität einer gesprochenen Wortfolge (im folgenden Äußerung genannt) läßt sich ausdrücken als eine Abbildung des Sprachsignals der übertragenen Äußerung auf das zugehörige Bewertungsmaß. Diese Abbildung ist ein typisches Problem der Mustererkennung und soll bei dem vorliegenden Verfahren mittels stochastischer Modelle gelöst werden. Auf dem Gebiet der Spracherkennung haben sich sogenannte Hidden-Markov-Modelle (HMMe) etabliert; diese sollen in abgewandelter Form auch hier zum Einsatz kommen.

Die Parameter solcher Modelle werden im Rahmen mehrerer Trainingsläufe abgeschätzt, indem ihnen viele, durch die Telefonübertragung mehr oder weniger gestörte Äußerungen angeboten werden, die zuvor durch eine ausreichende Anzahl von Testhörern bewertet wurden. Die Modelle "lernen" damit die subjektive Beurteilung der Testhörer und sind bei geeigneter Struktur dann in der Lage, deren Verhalten selbständig nachzubilden und über das Trainingsmaterial hinausgehend zu abstrahieren. Sie können damit auch völlig neue, im Training noch nie gesehene Muster richtig klassifizieren.

Fig. 1 zeigt das Verfahren im Überblick, es läßt sich grob in zwei Stufen aufteilen: die Signal-Vorverarbeitung und die Klasifikation:

Bei der Signal-Vorverarbeitung werden sowohl das Sprachsignal der Referenzäußerung als auch das Signal der übertragenen Äußerung einer Merkmalsextraktion unterzogen, welche in fest vorgegebenen Zeitabschnitten Kurzzeitspektren (die sog. Merkmalsfolgen) aus dem jeweiligen Signal berechnet.

Die nachfolgende Stufe Energienormierung paßt die Dauer und Amplitude der Merkmalsfolge der übertragenen Äußerung an die Dauer und Amplitude der Referenzäußerung an, so daß in der nachfolgenden Stufe Synchronisation eine zeitliche Verschiebung berechnet werden kann, um die beiden Äußerungen zur Deckung zu bringen. Synchronisation ist nötig, weil auf dem Telefon-Übertragungswege eine Zeitverzögerung unbekannter Dauer (bis zu 200 ms) auftreten kann.

Am Ende der Signal-Vorverarbeitung werden die nun amplituden- und zeitangepaßten Merkmalsfolgen der beiden Signale voneinander subtrahiert (die sog. Abstandsberechnung), so daß eine Merkmalsfolge entsteht, welche nur die Unterschiede zwischen den beiden Signalen repräsentiert. Diese Differenz-Merkmalsfolge wird im Folgenden Beobachtungsfolge genannt.

Bei der Klassifikation dient die fertig berechnete Beobachtungsfolge (diese repräsentiert die spektralen und zeitlichen Unterschiede zwischen den beiden Äußerungen) als Eingangsdatensatz für mehrere HMMe. Jedes dieser Hidden-Markov-Modelle modelliert die bedingte Wahrscheinlichkeit, daß die Beobachtungsfolge einem bestimmten Bewertungsmaß (im dargestellten Beispiel fünf verschiedene) zugeordnet werden kann.

Aus diesen sog. Gesamtemissionswahrscheinlichkeiten, die für jedes einzelne Modell berechnet werden, wird anschließend die maximale Wahrscheinlichkeit ermittelt, um so dasjenige Modell zu bestimmen, welches mit seinem Bewertungsmaß am besten zu der betrachteten Äußerung paßt. Mittels eines speziellen Interpolationsverfahrens wird diese Maximum-Suche nicht hart, sondern fließend und mit wesentlich höherer Auflösung als der Anzahl der Modelle durchgeführt.

Fig. 2 zeigt Einzelheiten der Signal-Vorverarbeitung.

Das digitalisierte Sprachsignal (Abtastfrequenz 8 kHz, 16 Bit linear codiert) wird zunächst einer Zeitfensterung (Fensterbreite 25 ms) und dann alle 10 ms einer Kurzzeitspektralanalyse (256 Werte) unterzogen. Der spektrale Informationsgehalt eines solchen Fensters wird im Folgenden Frame genannt, er repräsentiert das für einen Zeitabschnitt von 10 ms als stationär angenommene Sprachsignal. Alle aufeinanderfolgenden Frames einer Äußerung bilden die Merkmalsfolge.

Um die Datenmenge der Spektren zu reduzieren, werden diese mittels eines speziellen, die Eigenschaften des menschlichen Gehörs nachbildenden Algorithmus' geglättet und anschließend abgetastet.

Bei der Spracherkennung ist es üblich, die Glättung der Spektren so stark vorzunehmen, daß die Harmonischen der Grundfrequenz völlig eliminiert werden, d. h. alle spektralen Amplitudenschwankungen mit einer Breite < 100 Hz werden egalisiert.

Für die Sprachqualitätsbewertung ist die Grundfrequenz jedoch ein sehr relevantes, den jeweiligen Sprecher kennzeichnendes Merkmal, welches zumindest in den unteren Frequenzbereichen erhalten bleiben muß.

Daher wird vorgeschlagen, die Glättung nur auf Spektralamplituden bei 300 Hz anzuwenden, so daß die spektralen Parameter und damit die Merkmalsfolge wieder die volle Information über die Grundfrequenz des Sprechers enthalten. Damit kann das bereits für Spracherkennungsapplikationen vorhandene und bewährte Verfahren der Merkmalsextraktion mit nur marginalen Änderungen auch zur Sprachqualitätsbewertung herangezogen werden.

Diese partielle Glättung ist in Fig. 2 illustriert.

Um beim Vergleich der Referenz- und der übertragenen Merkmalsfolge möglichst gute Übereinstimmung zu erzielen, müssen Unterschiede in der Verstärkung der Übertragungsstrecke ausgeglichen werden. Dazu wird für jeden Vergleich das spektrale und zeitliche Leistungsmittel über den jeweils zu vergleichenden Merkmalsfolgenabschnitt der übertragenen Äußerung gebildet und genau auf diese Summe dann normiert.

Zur Ermittlung der zeitlichen Verschiebung wird fortlaufend die Merkmalsfolge der Referenzäußerung mit der aktuellen Merkmalsfolge der übertragenen Äußerung verglichen. Aufgabe der Synchronisation ist es, diejenige Anzahl der Frames Δj_sync, um den die beiden Merkmalsfolgen gegeneinander verschoben werden müssen, zu ermitteln, welche die gemittelte Abweichung α(ΔJ) zwischen den Merkmalsfolgen O_T der übertragenen Äußerung und O_R der Referenzäußerung minimiert:

wobei

Der Term |o_T,(j- _Δ _j) - o_R,j| ist dabei ein Maß für die Abweichung des (j - Δj)-ten Frames der Referenzäußerung vom j-ten Frame der übertragenen Äußerung an.

Zur Bestimmung von Δj_sync mit Gl. (1) muß die Berechnung der Abweichung α(Δj) für jede mögliche Verzögerung berechnet werden. Das ist mitunter der rechenaufwendigste Teil des gesamten Bewertungsverfahrens.

Um diesen Aufwand zu reduzieren, wird vorgeschlagen, Gl. (2) so abzuwandeln, daß nicht jedes Paar von Frames verglichen wird, sondern nur jedes F_C-te.

Der Wert F_C < 0 wird Crest(Kamm)-Faktor genannt. Der für die Synchronisation nötige Rechenaufwand sinkt umgekehrt proportional mit F_C. Unter der Annahme, daß das Sprachsignal über eine gewisse Zahl von Frames relativ stationär (d. h. ohne größere Änderungen im Spektralbereich) bleibt, wird die Qualität der Synchronisation erst für F_C < 5 signifikant schlechter werden.

Die anschließende Abstandsberechnung kann im einfachsten Fall als vektorielle Differenzbildung der einzelnen Frames ausgeführt werden.

Die Klassifikation der Äußerungen mittels HMMen wurde weitgehend den gängigen Verfahren der Spracherkennung entlehnt. Ähnlich wie bei den sog. Einzelworterkennern wird das zu klassifizierende Muster von unterschiedlichen Modellen emittiert (d. h. erzeugt) und danach dasjenige Modell bzw. diejenige Klasse ausgewählt (d. h. klassifiziert), welches die maximale Gesamtemissionswahrscheinlichkeit liefert.

Ein HMM besteht aus einer Anzahl N_W von Zuständen z₁, z₂, . . ., zN_W, in denen jeweils die Frames oi mit der zustandsspezifischen Emissionswahrscheinlichkeit θ_m (o_i) = P(o_i | z_m) beobachtet werden. Zwischen den Zuständen gibt es mögliche Übergänge mit den Zustandsübergangswahrscheinlichkeiten µ_mn = P(z_n | z_m).

Im Gegensatz zu den gängigen Spracherkennungsverfahren dient als zu klassifizierendes Muster jedoch nicht die (vorverarbeitete) übertragene Äußerung direkt, sondern nur die Differenz zwischen übertragener und Referenzäußerung. Diese Differenz entspricht der Störung, die die Äußerung während der Übertragung erlitten hatte.

Im Rahmen der Spracherkennung kommen sog. Links-Rechts-Modelle mit linearer Struktur zum Einsatz, da diese der (zeitlich) linearen Struktur der Sprache entsprechen. Bei diesen sog. Links-Rechts-Modellen ist nur ein Übergang von einem Zustand auf sich selbst bzw. auf den nächstfolgenden oder übernächstfolgenden Zustand möglich, also nur immer ein Übergang in einer Richtung von einem Zustand in einen Zustand mit gleichem oder höherem Index.

Für die Sprachqualitätsbewertung ist diese Modellstruktur ungeeignet, da die zu modellierenden Störungen im Normalfall nicht dauernd auftreten, sondern sporadisch und dann möglicherweise in sich wiederholender Form. Es wäre also eine unnötige Verschwendung von Modellparametern, würde man versuchen, die gesamte Äußerung zusammen mit den Störungen zu modellieren. Es wird daher eine zyklische Struktur mit mindestens fünf Zuständen gemäß Fig. 3 vorgeschlagen, die dem repetativen Charakter typischer Mobilfunk-Störungen Rechnung trägt. Übergänge sind jeweils in denselben, in den nächsten und in den übernächsten Zustand möglich. Eventuell kann ein weiterer Übergang zum über-übernächsten Zustand sinnvoll sein, da in der transienten Struktur wesentliche Informationen über die Störung steckt. Einsprünge und Aussprünge sind in/aus jedem Zustand ohne Wahrscheinlichkeitsbewertung möglich.

In Fig. 3 ist dieser Übergang vom letzten Zustand z₅ zum ersten Zustand z₁ durch µ₄₁ dargestellt und die Möglichkeit des Übergangs auf den zweiten Zustand z₂ durch µ₄₂. Durch diese von der linearen Struktur der Spracherkennungssysteme abweichende erfindungsgemäße zyklische Struktur ist es möglich, mit einer wesentlich geringeren Anzahl von Zuständen auszukommen.

Für jede Bewertungsklasse I (z. B. fünf verschiedene) existiert ein HMM-Parametersatz. Jedes der HMMe liefert für die betrachtete Beobachungsfolge O (d. h. für eine übertragene Äußerung) eine bestimmte Gesamtemissionswahrscheinlichkeit P(O | I).

Aufgabe des Klassifikators ist es, die Beobachtungsfolge O auf eine Klasse I_K abzubilden. Die einfachste, naheliegende und in der Spracherkennung übliche Strategie beschreibt der sog. Maximum-Likelihood-Klassifikator, der sich für diejenige Klasse I_K entscheidet, welche die Gesamtemissionswahrscheinlichkeit P(0 | I) maximiert (X. D. Huang, Y. Ariki, M. A. Jack: Hidden Markov Models for Speech Recognition. Edinburgh University Press, Edinburgh, Schottland, 1990).

Diese "harte" Entscheidung ist bei einem Spracherkennungssystem, welches diskrete Worteinträge aus einem begrenzten Vokabular auswählen muß, sinnvoll.

Bei der Sprachqualitätsbewertung jedoch sind die Übergänge zwischen den Klassen des zu ermittelnden Klassifikationsergebnisses fließend. Es ist somit ein Klassifikator wünschenswert, der auch Klassifikationsergebnisse in den Grenzbereichen der diskreten Klassen auflösen kann.

Der in der folgenden Gl. (5) beschriebene Klassifikator bildet den Mittelwert aus den möglichen Bewertungsmaßen I_i (z. B. I₁ = 1, I₂ = 2, I₃ = 3, I₄ = 4, I₅ = 5), die mit den zugehörigen Gesamtemissionswahrscheinlichkeiten p(I_i | O) des jeweiligen Modelles i gewichtet wurden:

Damit haben auch diejenigen Klassen I_i, deren zugehörige Modelle nicht die maximale Gesamtemissionswahrscheinlichkeit liefern, noch einen Einfluß auf das Bewertungsmaß I_K und dieser Einfluß wird umso größer, je größer deren Gesamtemissionswahrscheinlichkeit P(O | I) ist. Der beschriebene Klassifikator ist somit in der Lage, wesentlich mehr Bewertungen zu liefern, als Modelle vorhanden sind.

Zusätzlich ist über den Exponenten h die Möglichkeit einer nichtlinearen Verzerrung des Verhältnisses der einzelnen Gesamtemissionswahrscheinlichkeiten P(O | I) vorgesehen, der Exponent kann auch als "Entscheidungshärte-Konstante" interpretiert werden.

Bei der Wahl h = 1 gehen alle Gesamtemissionswahrscheinlichkeiten unverzerrt in die Klassifikation ein, h = ∞ entspricht dem "harten" Maximum-Likelihood-Klassifikator nach Gl. (4), und h = 0 liefert grundsätzlich den konstanten Mittelwert aus allen möglichen Bewertungsmaßen I_i.

Den einzelnen Modellen werden für die Auswertung und Anzeige der Sprachqualität entsprechende Bewertungsmaße zugeordnet, im Ausführungsbeispiel nach Fig. 1 mit beispielsweise fünf Modellen. Entsprechend der von der ITU empfohlenen MOS Bewertungsskala könnte dazu jedes Modell ein Bewertungsmaß zwischen I₁ = 1 und I₅ = 5 repräsentieren, wobei 5 die beste Sprachqualität bedeutet.

Claims

1. Verfahren zum Bewerten der Sprachqualität von Telefonverbindungen durch Vergleich der Original(Referenz)-äußerung mit dem entsprechenden Teil der übertragenen Äußerung,
dadurch gekennzeichnet,
daß

a) das digitalisierte Sprachsignal der Referenzäußerung und das digitalisierte Sprachsignal der übertragenen Äußerung einer Kurzzeitspektralanalyse unterzogen wird,
b) die aufeinanderfolgenden Kurzzeitspektren (Merkmalsfolgen) geglättet und einer Energienormierung unterzogen werden,
c) dann die Merkmalsfolgen von Referenzäußerung und übertragener Äußerung durch Synchronisation zur Deckung gebracht und voneinander subtrahiert werden (Beobachtungsfolgen), und schließlich
d) die durch Subtraktion gewonnenen Beobachtungsfolgen mittels mehrerer Hidden- Markov-Modelle klassifiziert werden und dasjenige Modell mit der maximalen Gesamtemissionswahrscheinlichkeit bestimmt und als Bewertungsergebnis ausgegeben wird.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Hidden-Markov-Modelle jeweils Übergänge vom letzten Zustand zum ersten und zweiten Zustand aufweisen.

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die maximale Gesamtemissionswahrscheinlichkeit I_K nach der Beziehung
berechnet wird, wobei I_i die einzelnen Bewertungsmaße sind, P(O | I_i) die Gesamtemissionswahrscheinlichkeit der Beobachungsfolge O zu einem bestimmten Bewertungsmaß I_i ist und h ein die Härte der Entscheidung beeinflussender Faktor.

4. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die Glättung der Kurzzeitspektren nur bei Spektralamplituden angewendet wird, welche über 300 Hz auftreten.

5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß zur Synchronisation der Merkmalsfolgen nur jede n-te, insbesondere nur jede zweite bis fünfte Merkmalsfolge von Referenzäußerung und übertragener Äußerung miteinander verglichen werden.