DE19915648A1 - Verfahren zum Bewerten der Sprachqualität von Telefonverbindungen - Google Patents
Verfahren zum Bewerten der Sprachqualität von TelefonverbindungenInfo
- Publication number
- DE19915648A1 DE19915648A1 DE1999115648 DE19915648A DE19915648A1 DE 19915648 A1 DE19915648 A1 DE 19915648A1 DE 1999115648 DE1999115648 DE 1999115648 DE 19915648 A DE19915648 A DE 19915648A DE 19915648 A1 DE19915648 A1 DE 19915648A1
- Authority
- DE
- Germany
- Prior art keywords
- utterance
- total emission
- transmitted
- hidden markov
- emission probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000001228 spectrum Methods 0.000 claims abstract description 6
- 238000010183 spectrum analysis Methods 0.000 claims abstract description 3
- 238000011156 evaluation Methods 0.000 claims description 11
- 230000007704 transition Effects 0.000 claims description 10
- 230000003595 spectral effect Effects 0.000 claims description 9
- 238000009499 grossing Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 abstract 1
- 230000005540 biological transmission Effects 0.000 description 7
- 238000001303 quality assessment method Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000005309 stochastic process Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/22—Arrangements for supervision, monitoring or testing
- H04M3/2236—Quality of speech transmission monitoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
Landscapes
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
Zum Bewerten der Sprachqualität von Telefonverbindungen durch Vergleich der Original(Referenz)-äußerung mit dem entsprechenden Teil der übertragenen Äußerung wird das digitalisierte Sprachsignal der Original(Referenz)-äußerung und das digitalisierte Sprachsignal der übertragenen Äußerung einer Kurzzeitspektralanalyse unterzogen; die aufeinanderfolgenden Kurzzeitspektren (Merkmalsfolgen) werden geglättet und einer Energienormierung unterzogen; dann werden die Merkmalsfolgen von Referenzäußerungen und übertragener Äußerung durch Synchronisation zur Deckung gebracht und voneinander subtrahiert (Beobachtungsfolgen); schließlich werden die durch Subtraktion gewonnenen Beobachtungsfolgen mittels mehrerer Hidden-Markov-Modelle klassifiziert und dasjenige Modell mit der maximalen Gesamtemissionswahrscheinlichkeit bestimmt und als Bewertungsergbnis ausgegeben.
Description
Die Erfindung betrifft und geht aus von einem Verfahren zum Bewerten der
Sprachqualität von Telefonverbindungen, insbesondere solcher Verbindungen, die über
drahtlose Mobilfunknetze bestehen. Die Bewertung geschieht durch Vergleich der
Original(Referenz)-äußerung mit dem entsprechenden Teil der übertragenen Äußerung.
Ein Verfahren dieser Art ist bekannt (ASCOM Technical White Paper Series "Speech
Quality and its Objective Evaluation with PACE", Ausgabe Nr. 103/98).
Für Zwecke der Spracherkennung sind außerdem schon die verschiedenartigsten
Verfahren zur Aufbereitung und Klassifikation von digitalisierten
Sprachsignalabschnitten bekannt. Als besonders geeignet haben sich für die
Spracherkennung stochastische Verfahren gezeigt, die auf den sogenannten Hidden-
Markov-Modellen basieren (L. R. Rabiner: A Tutorial on Hidden Markov Models and
selected Applications in Speech Recognition. Proc. IEEE, Bd. 77 (1989), Heft 2, S.
257-286; H. Stahl: Konsistente Integration stochastischer Wissensquellen zur
semantischen Decodierung gesprochener Äußerungen. Dissertation, Fakultät für
Elektrotechnik und Informationstechnik, Technische Universität München, 1997).
Bei Telefonie-genutzten Mobilfunknetzen ist ein wichtiges Qualitätskriterium die
subjektiv empfundene Qualität der übertragenen Sprache. Als Qualitätsmaß wird
üblicherweise der von der ITU empfohlene sogenannte MOS-Wert (Mean Listening
Quality Opinion Score, ITU-T P800: Series P: Telephone Transmission Quality;
Methods for Objective and Subjective Assessment of Quality, Aug. 1996; ITU-T P830:
Series P: Telephone Transmission Quality; Methods for Objective and Subjective
Assessment of Quality, Febr. 1996) verwendet. Dieses Qualitätsmaß ist eine gemittelte
Qualitätsbewertung vieler Testhörer, wobei in der Norm keine Festlegung darüber
getroffen ist, welche Eigenschaft der Äußerung die Versuchsperson bewerten soll.
Damit kann jeder Testhörer seine eigenen Kriterien ansetzen und bei genügender Anzahl
von Testpersonen ergibt der gemittelte MOS-Wert dann einen repräsentativen
Mittelwert.
Mit dem eingangs erwähnten bekannten Verfahren (Verfahren nach ASCOM) wurde
schon versucht, diese durch Testpersonen durchgeführte subjektive
Qualitätsbestimmung durch ein objektives Qualitätskriterium zu ersetzen.
Es ist Aufgabe der Erfindung, ein diesbezüglich einfacheres und auch schneller
arbeitendes objektives Verfahren zur Sprachqualitätsbewertung von Mobilfunknetzen zu
schaffen.
Diese Aufgabe wird ausgehend von einem Verfahren laut Oberbegriff des
Hauptanspruches durch dessen kennzeichnende Merkmale gelöst. Vorteilhafte
Weiterbildungen ergeben sich aus den Unteransprüchen.
Gemäß der Erfindung wird eine Signalvorverarbeitung unter Auswertung von
Kurzzeitspektralanalysen angewendet, wie sie an sich bei Spracherkennungssystemen
bekannt ist. Im Gegensatz zu dem bekannten Spracherkennungsverfahren dient als zu
klassifizierendes Muster jedoch nicht die vorverarbeitete übertragene Äußerung direkt,
sondern nur die Differenz zwischen der übertragenen Äußerung und der
Referenzäußerung. Diese Differenz entspricht unmittelbar der Störung, welche die
Äußerung während der Übertragung erlitten hat. Durch diese erfindungsgemäße
Abwandlung der üblichen Spracherkennungsverfahren und vor allem durch die
Kombination mit einem nach den Hidden-Markov-Modellen arbeitenden Klassifizierung
wird ein Verfahren möglich, das ausgehend von einer vergleichsweise geringen Anzahl
nötiger Trainingsmuster eine sehr exakte Bewertung der Sprachqualität in Telefonnetzen
ermöglicht. Die Hidden-Markov-Modelle müssen nicht zwingend auf eine spezielle
Äußerung mit fester Wortfolge trainiert werden, sondern es können stattdessen beliebige
Äußerungen sowohl zum Training als auch bei der Klassifikation verwendet werden.
Außerdem kommen die Modelle mit wesentlich weniger Parametern aus, da nur die
Struktur der Übertragungsstörungen und nicht etwa auch die gesamte akustische
Struktur der Äußerung selbst modelliert werden muß.
Die Erfindung wird im Folgenden anhand schematischer Zeichnungen an
Ausführungsbeispielen näher erläutert.
Die Bewertung der Sprachqualität einer gesprochenen Wortfolge (im folgenden
Äußerung genannt) läßt sich ausdrücken als eine Abbildung des Sprachsignals der
übertragenen Äußerung auf das zugehörige Bewertungsmaß. Diese Abbildung ist ein
typisches Problem der Mustererkennung und soll bei dem vorliegenden Verfahren
mittels stochastischer Modelle gelöst werden. Auf dem Gebiet der Spracherkennung
haben sich sogenannte Hidden-Markov-Modelle (HMMe) etabliert; diese sollen in
abgewandelter Form auch hier zum Einsatz kommen.
Die Parameter solcher Modelle werden im Rahmen mehrerer Trainingsläufe
abgeschätzt, indem ihnen viele, durch die Telefonübertragung mehr oder weniger
gestörte Äußerungen angeboten werden, die zuvor durch eine ausreichende Anzahl von
Testhörern bewertet wurden. Die Modelle "lernen" damit die subjektive Beurteilung der
Testhörer und sind bei geeigneter Struktur dann in der Lage, deren Verhalten
selbständig nachzubilden und über das Trainingsmaterial hinausgehend zu abstrahieren.
Sie können damit auch völlig neue, im Training noch nie gesehene Muster richtig
klassifizieren.
Fig. 1 zeigt das Verfahren im Überblick, es läßt sich grob in zwei Stufen aufteilen: die
Signal-Vorverarbeitung und die Klasifikation:
Bei der Signal-Vorverarbeitung werden sowohl das Sprachsignal der Referenzäußerung
als auch das Signal der übertragenen Äußerung einer Merkmalsextraktion unterzogen,
welche in fest vorgegebenen Zeitabschnitten Kurzzeitspektren (die sog.
Merkmalsfolgen) aus dem jeweiligen Signal berechnet.
Die nachfolgende Stufe Energienormierung paßt die Dauer und Amplitude der
Merkmalsfolge der übertragenen Äußerung an die Dauer und Amplitude der
Referenzäußerung an, so daß in der nachfolgenden Stufe Synchronisation eine zeitliche
Verschiebung berechnet werden kann, um die beiden Äußerungen zur Deckung zu
bringen. Synchronisation ist nötig, weil auf dem Telefon-Übertragungswege eine
Zeitverzögerung unbekannter Dauer (bis zu 200 ms) auftreten kann.
Am Ende der Signal-Vorverarbeitung werden die nun amplituden- und zeitangepaßten
Merkmalsfolgen der beiden Signale voneinander subtrahiert (die sog.
Abstandsberechnung), so daß eine Merkmalsfolge entsteht, welche nur die Unterschiede
zwischen den beiden Signalen repräsentiert. Diese Differenz-Merkmalsfolge wird im
Folgenden Beobachtungsfolge genannt.
Bei der Klassifikation dient die fertig berechnete Beobachtungsfolge (diese repräsentiert
die spektralen und zeitlichen Unterschiede zwischen den beiden Äußerungen) als
Eingangsdatensatz für mehrere HMMe. Jedes dieser Hidden-Markov-Modelle
modelliert die bedingte Wahrscheinlichkeit, daß die Beobachtungsfolge einem
bestimmten Bewertungsmaß (im dargestellten Beispiel fünf verschiedene) zugeordnet
werden kann.
Aus diesen sog. Gesamtemissionswahrscheinlichkeiten, die für jedes einzelne Modell
berechnet werden, wird anschließend die maximale Wahrscheinlichkeit ermittelt, um so
dasjenige Modell zu bestimmen, welches mit seinem Bewertungsmaß am besten zu der
betrachteten Äußerung paßt. Mittels eines speziellen Interpolationsverfahrens wird diese
Maximum-Suche nicht hart, sondern fließend und mit wesentlich höherer Auflösung als
der Anzahl der Modelle durchgeführt.
Fig. 2 zeigt Einzelheiten der Signal-Vorverarbeitung.
Das digitalisierte Sprachsignal (Abtastfrequenz 8 kHz, 16 Bit linear codiert) wird
zunächst einer Zeitfensterung (Fensterbreite 25 ms) und dann alle 10 ms einer
Kurzzeitspektralanalyse (256 Werte) unterzogen. Der spektrale Informationsgehalt eines
solchen Fensters wird im Folgenden Frame genannt, er repräsentiert das für einen
Zeitabschnitt von 10 ms als stationär angenommene Sprachsignal. Alle
aufeinanderfolgenden Frames einer Äußerung bilden die Merkmalsfolge.
Um die Datenmenge der Spektren zu reduzieren, werden diese mittels eines speziellen,
die Eigenschaften des menschlichen Gehörs nachbildenden Algorithmus' geglättet und
anschließend abgetastet.
Bei der Spracherkennung ist es üblich, die Glättung der Spektren so stark vorzunehmen,
daß die Harmonischen der Grundfrequenz völlig eliminiert werden, d. h. alle spektralen
Amplitudenschwankungen mit einer Breite < 100 Hz werden egalisiert.
Für die Sprachqualitätsbewertung ist die Grundfrequenz jedoch ein sehr relevantes, den
jeweiligen Sprecher kennzeichnendes Merkmal, welches zumindest in den unteren
Frequenzbereichen erhalten bleiben muß.
Daher wird vorgeschlagen, die Glättung nur auf Spektralamplituden bei 300 Hz
anzuwenden, so daß die spektralen Parameter und damit die Merkmalsfolge wieder die
volle Information über die Grundfrequenz des Sprechers enthalten. Damit kann das
bereits für Spracherkennungsapplikationen vorhandene und bewährte Verfahren der
Merkmalsextraktion mit nur marginalen Änderungen auch zur Sprachqualitätsbewertung
herangezogen werden.
Diese partielle Glättung ist in Fig. 2 illustriert.
Um beim Vergleich der Referenz- und der übertragenen Merkmalsfolge möglichst gute
Übereinstimmung zu erzielen, müssen Unterschiede in der Verstärkung der
Übertragungsstrecke ausgeglichen werden. Dazu wird für jeden Vergleich das spektrale
und zeitliche Leistungsmittel über den jeweils zu vergleichenden
Merkmalsfolgenabschnitt der übertragenen Äußerung gebildet und genau auf diese
Summe dann normiert.
Zur Ermittlung der zeitlichen Verschiebung wird fortlaufend die Merkmalsfolge der
Referenzäußerung mit der aktuellen Merkmalsfolge der übertragenen Äußerung
verglichen. Aufgabe der Synchronisation ist es, diejenige Anzahl der Frames Δjsync, um
den die beiden Merkmalsfolgen gegeneinander verschoben werden müssen, zu
ermitteln, welche die gemittelte Abweichung α(ΔJ) zwischen den Merkmalsfolgen OT
der übertragenen Äußerung und OR der Referenzäußerung minimiert:
wobei
Der Term |oT,(j- Δ j) - oR,j| ist dabei ein Maß für die Abweichung des (j - Δj)-ten
Frames der Referenzäußerung vom j-ten Frame der übertragenen Äußerung an.
Zur Bestimmung von Δjsync mit Gl. (1) muß die Berechnung der Abweichung α(Δj) für
jede mögliche Verzögerung berechnet werden. Das ist mitunter der rechenaufwendigste
Teil des gesamten Bewertungsverfahrens.
Um diesen Aufwand zu reduzieren, wird vorgeschlagen, Gl. (2) so abzuwandeln, daß
nicht jedes Paar von Frames verglichen wird, sondern nur jedes FC-te.
Der Wert FC < 0 wird Crest(Kamm)-Faktor genannt. Der für die Synchronisation
nötige Rechenaufwand sinkt umgekehrt proportional mit FC. Unter der Annahme, daß
das Sprachsignal über eine gewisse Zahl von Frames relativ stationär (d. h. ohne größere
Änderungen im Spektralbereich) bleibt, wird die Qualität der Synchronisation erst für
FC < 5 signifikant schlechter werden.
Die anschließende Abstandsberechnung kann im einfachsten Fall als vektorielle
Differenzbildung der einzelnen Frames ausgeführt werden.
Die Klassifikation der Äußerungen mittels HMMen wurde weitgehend den gängigen
Verfahren der Spracherkennung entlehnt. Ähnlich wie bei den sog. Einzelworterkennern
wird das zu klassifizierende Muster von unterschiedlichen Modellen emittiert (d. h.
erzeugt) und danach dasjenige Modell bzw. diejenige Klasse ausgewählt (d. h.
klassifiziert), welches die maximale Gesamtemissionswahrscheinlichkeit liefert.
Ein HMM besteht aus einer Anzahl NW von Zuständen z1, z2, . . ., zNW, in denen jeweils
die Frames oi mit der zustandsspezifischen Emissionswahrscheinlichkeit
θm (oi) = P(oi | zm) beobachtet werden. Zwischen den Zuständen gibt es mögliche
Übergänge mit den Zustandsübergangswahrscheinlichkeiten µmn = P(zn | zm).
Im Gegensatz zu den gängigen Spracherkennungsverfahren dient als zu klassifizierendes
Muster jedoch nicht die (vorverarbeitete) übertragene Äußerung direkt, sondern nur die
Differenz zwischen übertragener und Referenzäußerung. Diese Differenz entspricht der
Störung, die die Äußerung während der Übertragung erlitten hatte.
Im Rahmen der Spracherkennung kommen sog. Links-Rechts-Modelle mit linearer
Struktur zum Einsatz, da diese der (zeitlich) linearen Struktur der Sprache entsprechen.
Bei diesen sog. Links-Rechts-Modellen ist nur ein Übergang von einem Zustand auf
sich selbst bzw. auf den nächstfolgenden oder übernächstfolgenden Zustand möglich,
also nur immer ein Übergang in einer Richtung von einem Zustand in einen Zustand mit
gleichem oder höherem Index.
Für die Sprachqualitätsbewertung ist diese Modellstruktur ungeeignet, da die zu
modellierenden Störungen im Normalfall nicht dauernd auftreten, sondern sporadisch
und dann möglicherweise in sich wiederholender Form. Es wäre also eine unnötige
Verschwendung von Modellparametern, würde man versuchen, die gesamte Äußerung
zusammen mit den Störungen zu modellieren. Es wird daher eine zyklische Struktur mit
mindestens fünf Zuständen gemäß Fig. 3 vorgeschlagen, die dem repetativen Charakter
typischer Mobilfunk-Störungen Rechnung trägt. Übergänge sind jeweils in denselben, in
den nächsten und in den übernächsten Zustand möglich. Eventuell kann ein weiterer
Übergang zum über-übernächsten Zustand sinnvoll sein, da in der transienten Struktur
wesentliche Informationen über die Störung steckt. Einsprünge und Aussprünge sind
in/aus jedem Zustand ohne Wahrscheinlichkeitsbewertung möglich.
In Fig. 3 ist dieser Übergang vom letzten Zustand z5 zum ersten Zustand z1 durch µ41
dargestellt und die Möglichkeit des Übergangs auf den zweiten Zustand z2 durch µ42.
Durch diese von der linearen Struktur der Spracherkennungssysteme abweichende
erfindungsgemäße zyklische Struktur ist es möglich, mit einer wesentlich geringeren
Anzahl von Zuständen auszukommen.
Für jede Bewertungsklasse I (z. B. fünf verschiedene) existiert ein HMM-Parametersatz.
Jedes der HMMe liefert für die betrachtete Beobachungsfolge O (d. h. für eine
übertragene Äußerung) eine bestimmte Gesamtemissionswahrscheinlichkeit P(O | I).
Aufgabe des Klassifikators ist es, die Beobachtungsfolge O auf eine Klasse IK
abzubilden. Die einfachste, naheliegende und in der Spracherkennung übliche Strategie
beschreibt der sog. Maximum-Likelihood-Klassifikator, der sich für diejenige Klasse IK
entscheidet, welche die Gesamtemissionswahrscheinlichkeit P(0 | I) maximiert (X. D.
Huang, Y. Ariki, M. A. Jack: Hidden Markov Models for Speech Recognition.
Edinburgh University Press, Edinburgh, Schottland, 1990).
Diese "harte" Entscheidung ist bei einem Spracherkennungssystem, welches diskrete
Worteinträge aus einem begrenzten Vokabular auswählen muß, sinnvoll.
Bei der Sprachqualitätsbewertung jedoch sind die Übergänge zwischen den Klassen des
zu ermittelnden Klassifikationsergebnisses fließend. Es ist somit ein Klassifikator
wünschenswert, der auch Klassifikationsergebnisse in den Grenzbereichen der diskreten
Klassen auflösen kann.
Der in der folgenden Gl. (5) beschriebene Klassifikator bildet den Mittelwert aus den
möglichen Bewertungsmaßen Ii (z. B. I1 = 1, I2 = 2, I3 = 3, I4 = 4, I5 = 5), die mit
den zugehörigen Gesamtemissionswahrscheinlichkeiten p(Ii | O) des jeweiligen
Modelles i gewichtet wurden:
Damit haben auch diejenigen Klassen Ii, deren zugehörige Modelle nicht die maximale
Gesamtemissionswahrscheinlichkeit liefern, noch einen Einfluß auf das Bewertungsmaß IK
und dieser Einfluß wird umso größer, je größer deren Gesamtemissionswahrscheinlichkeit
P(O | I) ist. Der beschriebene Klassifikator ist somit in der Lage, wesentlich mehr
Bewertungen zu liefern, als Modelle vorhanden sind.
Zusätzlich ist über den Exponenten h die Möglichkeit einer nichtlinearen Verzerrung
des Verhältnisses der einzelnen Gesamtemissionswahrscheinlichkeiten P(O | I)
vorgesehen, der Exponent kann auch als "Entscheidungshärte-Konstante" interpretiert
werden.
Bei der Wahl h = 1 gehen alle Gesamtemissionswahrscheinlichkeiten unverzerrt in die
Klassifikation ein, h = ∞ entspricht dem "harten" Maximum-Likelihood-Klassifikator
nach Gl. (4), und h = 0 liefert grundsätzlich den konstanten Mittelwert aus allen
möglichen Bewertungsmaßen Ii.
Den einzelnen Modellen werden für die Auswertung und Anzeige der Sprachqualität
entsprechende Bewertungsmaße zugeordnet, im Ausführungsbeispiel nach Fig. 1 mit
beispielsweise fünf Modellen. Entsprechend der von der ITU empfohlenen MOS
Bewertungsskala könnte dazu jedes Modell ein Bewertungsmaß zwischen I1 = 1 und
I5 = 5 repräsentieren, wobei 5 die beste Sprachqualität bedeutet.
Claims (5)
1. Verfahren zum Bewerten der Sprachqualität von Telefonverbindungen durch
Vergleich der Original(Referenz)-äußerung mit dem entsprechenden Teil der
übertragenen Äußerung,
dadurch gekennzeichnet,
daß
dadurch gekennzeichnet,
daß
- a) das digitalisierte Sprachsignal der Referenzäußerung und das digitalisierte Sprachsignal der übertragenen Äußerung einer Kurzzeitspektralanalyse unterzogen wird,
- b) die aufeinanderfolgenden Kurzzeitspektren (Merkmalsfolgen) geglättet und einer Energienormierung unterzogen werden,
- c) dann die Merkmalsfolgen von Referenzäußerung und übertragener Äußerung durch Synchronisation zur Deckung gebracht und voneinander subtrahiert werden (Beobachtungsfolgen), und schließlich
- d) die durch Subtraktion gewonnenen Beobachtungsfolgen mittels mehrerer Hidden- Markov-Modelle klassifiziert werden und dasjenige Modell mit der maximalen Gesamtemissionswahrscheinlichkeit bestimmt und als Bewertungsergebnis ausgegeben wird.
2. Verfahren nach Anspruch 1,
dadurch gekennzeichnet,
daß die Hidden-Markov-Modelle jeweils Übergänge vom letzten Zustand zum ersten
und zweiten Zustand aufweisen.
3. Verfahren nach Anspruch 1 oder 2,
dadurch gekennzeichnet,
daß die maximale Gesamtemissionswahrscheinlichkeit IK nach der Beziehung
berechnet wird, wobei Ii die einzelnen Bewertungsmaße sind, P(O | Ii) die Gesamtemissionswahrscheinlichkeit der Beobachungsfolge O zu einem bestimmten Bewertungsmaß Ii ist und h ein die Härte der Entscheidung beeinflussender Faktor.
berechnet wird, wobei Ii die einzelnen Bewertungsmaße sind, P(O | Ii) die Gesamtemissionswahrscheinlichkeit der Beobachungsfolge O zu einem bestimmten Bewertungsmaß Ii ist und h ein die Härte der Entscheidung beeinflussender Faktor.
4. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet,
daß die Glättung der Kurzzeitspektren nur bei Spektralamplituden angewendet wird,
welche über 300 Hz auftreten.
5. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet,
daß zur Synchronisation der Merkmalsfolgen nur jede n-te, insbesondere nur jede
zweite bis fünfte Merkmalsfolge von Referenzäußerung und übertragener Äußerung
miteinander verglichen werden.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE1999115648 DE19915648A1 (de) | 1999-04-07 | 1999-04-07 | Verfahren zum Bewerten der Sprachqualität von Telefonverbindungen |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE1999115648 DE19915648A1 (de) | 1999-04-07 | 1999-04-07 | Verfahren zum Bewerten der Sprachqualität von Telefonverbindungen |
Publications (1)
Publication Number | Publication Date |
---|---|
DE19915648A1 true DE19915648A1 (de) | 2000-10-12 |
Family
ID=7903761
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE1999115648 Withdrawn DE19915648A1 (de) | 1999-04-07 | 1999-04-07 | Verfahren zum Bewerten der Sprachqualität von Telefonverbindungen |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE19915648A1 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2737267B1 (de) | 2011-07-25 | 2015-09-09 | Valeo Systèmes Thermiques | Zylinder zum speichern eines kühlmittels und wärmetauscher mit einem solchen zylinder |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3708002A1 (de) * | 1987-03-12 | 1988-09-22 | Telefonbau & Normalzeit Gmbh | Messverfahren zum beurteilen der guete von sprachcodierern und/oder uebertragungsstrecken |
EP0481107A1 (de) * | 1990-10-16 | 1992-04-22 | International Business Machines Corporation | Sprachsyntheseeinrichtung nach dem phonetischen Hidden-Markov-Modell |
DE4324292C1 (de) * | 1993-07-21 | 1995-02-02 | Detecon Gmbh | Verfahren zur Ermittlung einer die Qualität einer digitalen Sprachübertragung kennzeichnenden Größe |
DE19500494C2 (de) * | 1995-01-10 | 1997-01-23 | Siemens Ag | Merkmalsextraktionsverfahren für ein Sprachsignal |
EP0866442A2 (de) * | 1997-03-20 | 1998-09-23 | AT&T Corp. | Kombination von nichtlinearer Frequenzverzerrung und spektraler Formung in einem Markov basierten Spracherkenner |
-
1999
- 1999-04-07 DE DE1999115648 patent/DE19915648A1/de not_active Withdrawn
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3708002A1 (de) * | 1987-03-12 | 1988-09-22 | Telefonbau & Normalzeit Gmbh | Messverfahren zum beurteilen der guete von sprachcodierern und/oder uebertragungsstrecken |
EP0481107A1 (de) * | 1990-10-16 | 1992-04-22 | International Business Machines Corporation | Sprachsyntheseeinrichtung nach dem phonetischen Hidden-Markov-Modell |
DE4324292C1 (de) * | 1993-07-21 | 1995-02-02 | Detecon Gmbh | Verfahren zur Ermittlung einer die Qualität einer digitalen Sprachübertragung kennzeichnenden Größe |
DE19500494C2 (de) * | 1995-01-10 | 1997-01-23 | Siemens Ag | Merkmalsextraktionsverfahren für ein Sprachsignal |
EP0866442A2 (de) * | 1997-03-20 | 1998-09-23 | AT&T Corp. | Kombination von nichtlinearer Frequenzverzerrung und spektraler Formung in einem Markov basierten Spracherkenner |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2737267B1 (de) | 2011-07-25 | 2015-09-09 | Valeo Systèmes Thermiques | Zylinder zum speichern eines kühlmittels und wärmetauscher mit einem solchen zylinder |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69433254T2 (de) | Verfahren und Vorrichtung zur Sprachdetektion | |
DE69722980T2 (de) | Aufzeichnung von Sprachdaten mit Segmenten von akustisch verschiedenen Umgebungen | |
DE60302407T2 (de) | Umgebungs- und sprecheradaptierte Spracherkennung | |
DE3236832C2 (de) | Verfahren und Gerät zur Sprachanalyse | |
DE60111329T2 (de) | Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung | |
DE69627580T2 (de) | Verfahren zur Rauschverminderung in einem Sprachsignal | |
DE3236834C2 (de) | Verfahren und Gerät zur Sprachanalyse | |
DE69831991T2 (de) | Verfahren und Vorrichtung zur Sprachdetektion | |
DE69831288T2 (de) | An Umgebungsgeräusche angepasste Sprachverarbeitung | |
DE10041512B4 (de) | Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen | |
DE69938374T2 (de) | Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle | |
DE10030105A1 (de) | Spracherkennungseinrichtung | |
DE60204504T2 (de) | Schlüsselworterkennung in einem verrauschten Signal | |
DE69819438T2 (de) | Verfahren zur Spracherkennung | |
DE2626793A1 (de) | Verfahren zur bewertung stimmhafter und stimmloser zustaende eines sprachsignals | |
EP1193688A2 (de) | Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern | |
DE69635141T2 (de) | Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung | |
EP0815553B1 (de) | Verfahren zur erkennung einer signalpause zwischen zwei mustern, welche in einem zeitvarianten mess-signal vorhanden sind | |
EP1273003A1 (de) | Verfahren und vorrichtung zum bestimmen prosodischer markierungen | |
DE60107072T2 (de) | Robuste merkmale für die erkennung von verrauschten sprachsignalen | |
EP1193689A2 (de) | Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern | |
DE19920501A1 (de) | Wiedergabeverfahren für sprachgesteuerte Systeme mit textbasierter Sprachsynthese | |
EP0285222A2 (de) | Verfahren zum Erkennen zusammenhängend gesprochener Wörter | |
DE69628603T2 (de) | System zur Musteranpassung mittels einer Baumstruktur | |
DE102010040553A1 (de) | Spracherkennungsverfahren |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OM8 | Search report available as to paragraph 43 lit. 1 sentence 1 patent law | ||
8110 | Request for examination paragraph 44 | ||
8139 | Disposal/non-payment of the annual fee |