DE19915648A1 - Verfahren zum Bewerten der Sprachqualität von Telefonverbindungen - Google Patents

Verfahren zum Bewerten der Sprachqualität von Telefonverbindungen

Info

Publication number
DE19915648A1
DE19915648A1 DE1999115648 DE19915648A DE19915648A1 DE 19915648 A1 DE19915648 A1 DE 19915648A1 DE 1999115648 DE1999115648 DE 1999115648 DE 19915648 A DE19915648 A DE 19915648A DE 19915648 A1 DE19915648 A1 DE 19915648A1
Authority
DE
Germany
Prior art keywords
utterance
total emission
transmitted
hidden markov
emission probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE1999115648
Other languages
English (en)
Inventor
Holger Stahl
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rohde and Schwarz GmbH and Co KG
Original Assignee
Rohde and Schwarz GmbH and Co KG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rohde and Schwarz GmbH and Co KG filed Critical Rohde and Schwarz GmbH and Co KG
Priority to DE1999115648 priority Critical patent/DE19915648A1/de
Publication of DE19915648A1 publication Critical patent/DE19915648A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2236Quality of speech transmission monitoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition

Landscapes

  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

Zum Bewerten der Sprachqualität von Telefonverbindungen durch Vergleich der Original(Referenz)-äußerung mit dem entsprechenden Teil der übertragenen Äußerung wird das digitalisierte Sprachsignal der Original(Referenz)-äußerung und das digitalisierte Sprachsignal der übertragenen Äußerung einer Kurzzeitspektralanalyse unterzogen; die aufeinanderfolgenden Kurzzeitspektren (Merkmalsfolgen) werden geglättet und einer Energienormierung unterzogen; dann werden die Merkmalsfolgen von Referenzäußerungen und übertragener Äußerung durch Synchronisation zur Deckung gebracht und voneinander subtrahiert (Beobachtungsfolgen); schließlich werden die durch Subtraktion gewonnenen Beobachtungsfolgen mittels mehrerer Hidden-Markov-Modelle klassifiziert und dasjenige Modell mit der maximalen Gesamtemissionswahrscheinlichkeit bestimmt und als Bewertungsergbnis ausgegeben.

Description

Die Erfindung betrifft und geht aus von einem Verfahren zum Bewerten der Sprachqualität von Telefonverbindungen, insbesondere solcher Verbindungen, die über drahtlose Mobilfunknetze bestehen. Die Bewertung geschieht durch Vergleich der Original(Referenz)-äußerung mit dem entsprechenden Teil der übertragenen Äußerung.
Ein Verfahren dieser Art ist bekannt (ASCOM Technical White Paper Series "Speech Quality and its Objective Evaluation with PACE", Ausgabe Nr. 103/98).
Für Zwecke der Spracherkennung sind außerdem schon die verschiedenartigsten Verfahren zur Aufbereitung und Klassifikation von digitalisierten Sprachsignalabschnitten bekannt. Als besonders geeignet haben sich für die Spracherkennung stochastische Verfahren gezeigt, die auf den sogenannten Hidden- Markov-Modellen basieren (L. R. Rabiner: A Tutorial on Hidden Markov Models and selected Applications in Speech Recognition. Proc. IEEE, Bd. 77 (1989), Heft 2, S. 257-286; H. Stahl: Konsistente Integration stochastischer Wissensquellen zur semantischen Decodierung gesprochener Äußerungen. Dissertation, Fakultät für Elektrotechnik und Informationstechnik, Technische Universität München, 1997).
Bei Telefonie-genutzten Mobilfunknetzen ist ein wichtiges Qualitätskriterium die subjektiv empfundene Qualität der übertragenen Sprache. Als Qualitätsmaß wird üblicherweise der von der ITU empfohlene sogenannte MOS-Wert (Mean Listening Quality Opinion Score, ITU-T P800: Series P: Telephone Transmission Quality; Methods for Objective and Subjective Assessment of Quality, Aug. 1996; ITU-T P830: Series P: Telephone Transmission Quality; Methods for Objective and Subjective Assessment of Quality, Febr. 1996) verwendet. Dieses Qualitätsmaß ist eine gemittelte Qualitätsbewertung vieler Testhörer, wobei in der Norm keine Festlegung darüber getroffen ist, welche Eigenschaft der Äußerung die Versuchsperson bewerten soll. Damit kann jeder Testhörer seine eigenen Kriterien ansetzen und bei genügender Anzahl von Testpersonen ergibt der gemittelte MOS-Wert dann einen repräsentativen Mittelwert.
Mit dem eingangs erwähnten bekannten Verfahren (Verfahren nach ASCOM) wurde schon versucht, diese durch Testpersonen durchgeführte subjektive Qualitätsbestimmung durch ein objektives Qualitätskriterium zu ersetzen.
Es ist Aufgabe der Erfindung, ein diesbezüglich einfacheres und auch schneller arbeitendes objektives Verfahren zur Sprachqualitätsbewertung von Mobilfunknetzen zu schaffen.
Diese Aufgabe wird ausgehend von einem Verfahren laut Oberbegriff des Hauptanspruches durch dessen kennzeichnende Merkmale gelöst. Vorteilhafte Weiterbildungen ergeben sich aus den Unteransprüchen.
Gemäß der Erfindung wird eine Signalvorverarbeitung unter Auswertung von Kurzzeitspektralanalysen angewendet, wie sie an sich bei Spracherkennungssystemen bekannt ist. Im Gegensatz zu dem bekannten Spracherkennungsverfahren dient als zu klassifizierendes Muster jedoch nicht die vorverarbeitete übertragene Äußerung direkt, sondern nur die Differenz zwischen der übertragenen Äußerung und der Referenzäußerung. Diese Differenz entspricht unmittelbar der Störung, welche die Äußerung während der Übertragung erlitten hat. Durch diese erfindungsgemäße Abwandlung der üblichen Spracherkennungsverfahren und vor allem durch die Kombination mit einem nach den Hidden-Markov-Modellen arbeitenden Klassifizierung wird ein Verfahren möglich, das ausgehend von einer vergleichsweise geringen Anzahl nötiger Trainingsmuster eine sehr exakte Bewertung der Sprachqualität in Telefonnetzen ermöglicht. Die Hidden-Markov-Modelle müssen nicht zwingend auf eine spezielle Äußerung mit fester Wortfolge trainiert werden, sondern es können stattdessen beliebige Äußerungen sowohl zum Training als auch bei der Klassifikation verwendet werden. Außerdem kommen die Modelle mit wesentlich weniger Parametern aus, da nur die Struktur der Übertragungsstörungen und nicht etwa auch die gesamte akustische Struktur der Äußerung selbst modelliert werden muß.
Die Erfindung wird im Folgenden anhand schematischer Zeichnungen an Ausführungsbeispielen näher erläutert.
Die Bewertung der Sprachqualität einer gesprochenen Wortfolge (im folgenden Äußerung genannt) läßt sich ausdrücken als eine Abbildung des Sprachsignals der übertragenen Äußerung auf das zugehörige Bewertungsmaß. Diese Abbildung ist ein typisches Problem der Mustererkennung und soll bei dem vorliegenden Verfahren mittels stochastischer Modelle gelöst werden. Auf dem Gebiet der Spracherkennung haben sich sogenannte Hidden-Markov-Modelle (HMMe) etabliert; diese sollen in abgewandelter Form auch hier zum Einsatz kommen.
Die Parameter solcher Modelle werden im Rahmen mehrerer Trainingsläufe abgeschätzt, indem ihnen viele, durch die Telefonübertragung mehr oder weniger gestörte Äußerungen angeboten werden, die zuvor durch eine ausreichende Anzahl von Testhörern bewertet wurden. Die Modelle "lernen" damit die subjektive Beurteilung der Testhörer und sind bei geeigneter Struktur dann in der Lage, deren Verhalten selbständig nachzubilden und über das Trainingsmaterial hinausgehend zu abstrahieren. Sie können damit auch völlig neue, im Training noch nie gesehene Muster richtig klassifizieren.
Fig. 1 zeigt das Verfahren im Überblick, es läßt sich grob in zwei Stufen aufteilen: die Signal-Vorverarbeitung und die Klasifikation:
Bei der Signal-Vorverarbeitung werden sowohl das Sprachsignal der Referenzäußerung als auch das Signal der übertragenen Äußerung einer Merkmalsextraktion unterzogen, welche in fest vorgegebenen Zeitabschnitten Kurzzeitspektren (die sog. Merkmalsfolgen) aus dem jeweiligen Signal berechnet.
Die nachfolgende Stufe Energienormierung paßt die Dauer und Amplitude der Merkmalsfolge der übertragenen Äußerung an die Dauer und Amplitude der Referenzäußerung an, so daß in der nachfolgenden Stufe Synchronisation eine zeitliche Verschiebung berechnet werden kann, um die beiden Äußerungen zur Deckung zu bringen. Synchronisation ist nötig, weil auf dem Telefon-Übertragungswege eine Zeitverzögerung unbekannter Dauer (bis zu 200 ms) auftreten kann.
Am Ende der Signal-Vorverarbeitung werden die nun amplituden- und zeitangepaßten Merkmalsfolgen der beiden Signale voneinander subtrahiert (die sog. Abstandsberechnung), so daß eine Merkmalsfolge entsteht, welche nur die Unterschiede zwischen den beiden Signalen repräsentiert. Diese Differenz-Merkmalsfolge wird im Folgenden Beobachtungsfolge genannt.
Bei der Klassifikation dient die fertig berechnete Beobachtungsfolge (diese repräsentiert die spektralen und zeitlichen Unterschiede zwischen den beiden Äußerungen) als Eingangsdatensatz für mehrere HMMe. Jedes dieser Hidden-Markov-Modelle modelliert die bedingte Wahrscheinlichkeit, daß die Beobachtungsfolge einem bestimmten Bewertungsmaß (im dargestellten Beispiel fünf verschiedene) zugeordnet werden kann.
Aus diesen sog. Gesamtemissionswahrscheinlichkeiten, die für jedes einzelne Modell berechnet werden, wird anschließend die maximale Wahrscheinlichkeit ermittelt, um so dasjenige Modell zu bestimmen, welches mit seinem Bewertungsmaß am besten zu der betrachteten Äußerung paßt. Mittels eines speziellen Interpolationsverfahrens wird diese Maximum-Suche nicht hart, sondern fließend und mit wesentlich höherer Auflösung als der Anzahl der Modelle durchgeführt.
Fig. 2 zeigt Einzelheiten der Signal-Vorverarbeitung.
Das digitalisierte Sprachsignal (Abtastfrequenz 8 kHz, 16 Bit linear codiert) wird zunächst einer Zeitfensterung (Fensterbreite 25 ms) und dann alle 10 ms einer Kurzzeitspektralanalyse (256 Werte) unterzogen. Der spektrale Informationsgehalt eines solchen Fensters wird im Folgenden Frame genannt, er repräsentiert das für einen Zeitabschnitt von 10 ms als stationär angenommene Sprachsignal. Alle aufeinanderfolgenden Frames einer Äußerung bilden die Merkmalsfolge.
Um die Datenmenge der Spektren zu reduzieren, werden diese mittels eines speziellen, die Eigenschaften des menschlichen Gehörs nachbildenden Algorithmus' geglättet und anschließend abgetastet.
Bei der Spracherkennung ist es üblich, die Glättung der Spektren so stark vorzunehmen, daß die Harmonischen der Grundfrequenz völlig eliminiert werden, d. h. alle spektralen Amplitudenschwankungen mit einer Breite < 100 Hz werden egalisiert.
Für die Sprachqualitätsbewertung ist die Grundfrequenz jedoch ein sehr relevantes, den jeweiligen Sprecher kennzeichnendes Merkmal, welches zumindest in den unteren Frequenzbereichen erhalten bleiben muß.
Daher wird vorgeschlagen, die Glättung nur auf Spektralamplituden bei 300 Hz anzuwenden, so daß die spektralen Parameter und damit die Merkmalsfolge wieder die volle Information über die Grundfrequenz des Sprechers enthalten. Damit kann das bereits für Spracherkennungsapplikationen vorhandene und bewährte Verfahren der Merkmalsextraktion mit nur marginalen Änderungen auch zur Sprachqualitätsbewertung herangezogen werden.
Diese partielle Glättung ist in Fig. 2 illustriert.
Um beim Vergleich der Referenz- und der übertragenen Merkmalsfolge möglichst gute Übereinstimmung zu erzielen, müssen Unterschiede in der Verstärkung der Übertragungsstrecke ausgeglichen werden. Dazu wird für jeden Vergleich das spektrale und zeitliche Leistungsmittel über den jeweils zu vergleichenden Merkmalsfolgenabschnitt der übertragenen Äußerung gebildet und genau auf diese Summe dann normiert.
Zur Ermittlung der zeitlichen Verschiebung wird fortlaufend die Merkmalsfolge der Referenzäußerung mit der aktuellen Merkmalsfolge der übertragenen Äußerung verglichen. Aufgabe der Synchronisation ist es, diejenige Anzahl der Frames Δjsync, um den die beiden Merkmalsfolgen gegeneinander verschoben werden müssen, zu ermitteln, welche die gemittelte Abweichung α(ΔJ) zwischen den Merkmalsfolgen OT der übertragenen Äußerung und OR der Referenzäußerung minimiert:
wobei
Der Term |oT,(j- Δ j) - oR,j| ist dabei ein Maß für die Abweichung des (j - Δj)-ten Frames der Referenzäußerung vom j-ten Frame der übertragenen Äußerung an.
Zur Bestimmung von Δjsync mit Gl. (1) muß die Berechnung der Abweichung α(Δj) für jede mögliche Verzögerung berechnet werden. Das ist mitunter der rechenaufwendigste Teil des gesamten Bewertungsverfahrens.
Um diesen Aufwand zu reduzieren, wird vorgeschlagen, Gl. (2) so abzuwandeln, daß nicht jedes Paar von Frames verglichen wird, sondern nur jedes FC-te.
Der Wert FC < 0 wird Crest(Kamm)-Faktor genannt. Der für die Synchronisation nötige Rechenaufwand sinkt umgekehrt proportional mit FC. Unter der Annahme, daß das Sprachsignal über eine gewisse Zahl von Frames relativ stationär (d. h. ohne größere Änderungen im Spektralbereich) bleibt, wird die Qualität der Synchronisation erst für FC < 5 signifikant schlechter werden.
Die anschließende Abstandsberechnung kann im einfachsten Fall als vektorielle Differenzbildung der einzelnen Frames ausgeführt werden.
Die Klassifikation der Äußerungen mittels HMMen wurde weitgehend den gängigen Verfahren der Spracherkennung entlehnt. Ähnlich wie bei den sog. Einzelworterkennern wird das zu klassifizierende Muster von unterschiedlichen Modellen emittiert (d. h. erzeugt) und danach dasjenige Modell bzw. diejenige Klasse ausgewählt (d. h. klassifiziert), welches die maximale Gesamtemissionswahrscheinlichkeit liefert.
Ein HMM besteht aus einer Anzahl NW von Zuständen z1, z2, . . ., zNW, in denen jeweils die Frames oi mit der zustandsspezifischen Emissionswahrscheinlichkeit θm (oi) = P(oi | zm) beobachtet werden. Zwischen den Zuständen gibt es mögliche Übergänge mit den Zustandsübergangswahrscheinlichkeiten µmn = P(zn | zm).
Im Gegensatz zu den gängigen Spracherkennungsverfahren dient als zu klassifizierendes Muster jedoch nicht die (vorverarbeitete) übertragene Äußerung direkt, sondern nur die Differenz zwischen übertragener und Referenzäußerung. Diese Differenz entspricht der Störung, die die Äußerung während der Übertragung erlitten hatte.
Im Rahmen der Spracherkennung kommen sog. Links-Rechts-Modelle mit linearer Struktur zum Einsatz, da diese der (zeitlich) linearen Struktur der Sprache entsprechen. Bei diesen sog. Links-Rechts-Modellen ist nur ein Übergang von einem Zustand auf sich selbst bzw. auf den nächstfolgenden oder übernächstfolgenden Zustand möglich, also nur immer ein Übergang in einer Richtung von einem Zustand in einen Zustand mit gleichem oder höherem Index.
Für die Sprachqualitätsbewertung ist diese Modellstruktur ungeeignet, da die zu modellierenden Störungen im Normalfall nicht dauernd auftreten, sondern sporadisch und dann möglicherweise in sich wiederholender Form. Es wäre also eine unnötige Verschwendung von Modellparametern, würde man versuchen, die gesamte Äußerung zusammen mit den Störungen zu modellieren. Es wird daher eine zyklische Struktur mit mindestens fünf Zuständen gemäß Fig. 3 vorgeschlagen, die dem repetativen Charakter typischer Mobilfunk-Störungen Rechnung trägt. Übergänge sind jeweils in denselben, in den nächsten und in den übernächsten Zustand möglich. Eventuell kann ein weiterer Übergang zum über-übernächsten Zustand sinnvoll sein, da in der transienten Struktur wesentliche Informationen über die Störung steckt. Einsprünge und Aussprünge sind in/aus jedem Zustand ohne Wahrscheinlichkeitsbewertung möglich.
In Fig. 3 ist dieser Übergang vom letzten Zustand z5 zum ersten Zustand z1 durch µ41 dargestellt und die Möglichkeit des Übergangs auf den zweiten Zustand z2 durch µ42. Durch diese von der linearen Struktur der Spracherkennungssysteme abweichende erfindungsgemäße zyklische Struktur ist es möglich, mit einer wesentlich geringeren Anzahl von Zuständen auszukommen.
Für jede Bewertungsklasse I (z. B. fünf verschiedene) existiert ein HMM-Parametersatz. Jedes der HMMe liefert für die betrachtete Beobachungsfolge O (d. h. für eine übertragene Äußerung) eine bestimmte Gesamtemissionswahrscheinlichkeit P(O | I).
Aufgabe des Klassifikators ist es, die Beobachtungsfolge O auf eine Klasse IK abzubilden. Die einfachste, naheliegende und in der Spracherkennung übliche Strategie beschreibt der sog. Maximum-Likelihood-Klassifikator, der sich für diejenige Klasse IK entscheidet, welche die Gesamtemissionswahrscheinlichkeit P(0 | I) maximiert (X. D. Huang, Y. Ariki, M. A. Jack: Hidden Markov Models for Speech Recognition. Edinburgh University Press, Edinburgh, Schottland, 1990).
Diese "harte" Entscheidung ist bei einem Spracherkennungssystem, welches diskrete Worteinträge aus einem begrenzten Vokabular auswählen muß, sinnvoll.
Bei der Sprachqualitätsbewertung jedoch sind die Übergänge zwischen den Klassen des zu ermittelnden Klassifikationsergebnisses fließend. Es ist somit ein Klassifikator wünschenswert, der auch Klassifikationsergebnisse in den Grenzbereichen der diskreten Klassen auflösen kann.
Der in der folgenden Gl. (5) beschriebene Klassifikator bildet den Mittelwert aus den möglichen Bewertungsmaßen Ii (z. B. I1 = 1, I2 = 2, I3 = 3, I4 = 4, I5 = 5), die mit den zugehörigen Gesamtemissionswahrscheinlichkeiten p(Ii | O) des jeweiligen Modelles i gewichtet wurden:
Damit haben auch diejenigen Klassen Ii, deren zugehörige Modelle nicht die maximale Gesamtemissionswahrscheinlichkeit liefern, noch einen Einfluß auf das Bewertungsmaß IK und dieser Einfluß wird umso größer, je größer deren Gesamtemissionswahrscheinlichkeit P(O | I) ist. Der beschriebene Klassifikator ist somit in der Lage, wesentlich mehr Bewertungen zu liefern, als Modelle vorhanden sind.
Zusätzlich ist über den Exponenten h die Möglichkeit einer nichtlinearen Verzerrung des Verhältnisses der einzelnen Gesamtemissionswahrscheinlichkeiten P(O | I) vorgesehen, der Exponent kann auch als "Entscheidungshärte-Konstante" interpretiert werden.
Bei der Wahl h = 1 gehen alle Gesamtemissionswahrscheinlichkeiten unverzerrt in die Klassifikation ein, h = ∞ entspricht dem "harten" Maximum-Likelihood-Klassifikator nach Gl. (4), und h = 0 liefert grundsätzlich den konstanten Mittelwert aus allen möglichen Bewertungsmaßen Ii.
Den einzelnen Modellen werden für die Auswertung und Anzeige der Sprachqualität entsprechende Bewertungsmaße zugeordnet, im Ausführungsbeispiel nach Fig. 1 mit beispielsweise fünf Modellen. Entsprechend der von der ITU empfohlenen MOS Bewertungsskala könnte dazu jedes Modell ein Bewertungsmaß zwischen I1 = 1 und I5 = 5 repräsentieren, wobei 5 die beste Sprachqualität bedeutet.

Claims (5)

1. Verfahren zum Bewerten der Sprachqualität von Telefonverbindungen durch Vergleich der Original(Referenz)-äußerung mit dem entsprechenden Teil der übertragenen Äußerung,
dadurch gekennzeichnet,
daß
  • a) das digitalisierte Sprachsignal der Referenzäußerung und das digitalisierte Sprachsignal der übertragenen Äußerung einer Kurzzeitspektralanalyse unterzogen wird,
  • b) die aufeinanderfolgenden Kurzzeitspektren (Merkmalsfolgen) geglättet und einer Energienormierung unterzogen werden,
  • c) dann die Merkmalsfolgen von Referenzäußerung und übertragener Äußerung durch Synchronisation zur Deckung gebracht und voneinander subtrahiert werden (Beobachtungsfolgen), und schließlich
  • d) die durch Subtraktion gewonnenen Beobachtungsfolgen mittels mehrerer Hidden- Markov-Modelle klassifiziert werden und dasjenige Modell mit der maximalen Gesamtemissionswahrscheinlichkeit bestimmt und als Bewertungsergebnis ausgegeben wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Hidden-Markov-Modelle jeweils Übergänge vom letzten Zustand zum ersten und zweiten Zustand aufweisen.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die maximale Gesamtemissionswahrscheinlichkeit IK nach der Beziehung
berechnet wird, wobei Ii die einzelnen Bewertungsmaße sind, P(O | Ii) die Gesamtemissionswahrscheinlichkeit der Beobachungsfolge O zu einem bestimmten Bewertungsmaß Ii ist und h ein die Härte der Entscheidung beeinflussender Faktor.
4. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die Glättung der Kurzzeitspektren nur bei Spektralamplituden angewendet wird, welche über 300 Hz auftreten.
5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß zur Synchronisation der Merkmalsfolgen nur jede n-te, insbesondere nur jede zweite bis fünfte Merkmalsfolge von Referenzäußerung und übertragener Äußerung miteinander verglichen werden.
DE1999115648 1999-04-07 1999-04-07 Verfahren zum Bewerten der Sprachqualität von Telefonverbindungen Withdrawn DE19915648A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE1999115648 DE19915648A1 (de) 1999-04-07 1999-04-07 Verfahren zum Bewerten der Sprachqualität von Telefonverbindungen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE1999115648 DE19915648A1 (de) 1999-04-07 1999-04-07 Verfahren zum Bewerten der Sprachqualität von Telefonverbindungen

Publications (1)

Publication Number Publication Date
DE19915648A1 true DE19915648A1 (de) 2000-10-12

Family

ID=7903761

Family Applications (1)

Application Number Title Priority Date Filing Date
DE1999115648 Withdrawn DE19915648A1 (de) 1999-04-07 1999-04-07 Verfahren zum Bewerten der Sprachqualität von Telefonverbindungen

Country Status (1)

Country Link
DE (1) DE19915648A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2737267B1 (de) 2011-07-25 2015-09-09 Valeo Systèmes Thermiques Zylinder zum speichern eines kühlmittels und wärmetauscher mit einem solchen zylinder

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3708002A1 (de) * 1987-03-12 1988-09-22 Telefonbau & Normalzeit Gmbh Messverfahren zum beurteilen der guete von sprachcodierern und/oder uebertragungsstrecken
EP0481107A1 (de) * 1990-10-16 1992-04-22 International Business Machines Corporation Sprachsyntheseeinrichtung nach dem phonetischen Hidden-Markov-Modell
DE4324292C1 (de) * 1993-07-21 1995-02-02 Detecon Gmbh Verfahren zur Ermittlung einer die Qualität einer digitalen Sprachübertragung kennzeichnenden Größe
DE19500494C2 (de) * 1995-01-10 1997-01-23 Siemens Ag Merkmalsextraktionsverfahren für ein Sprachsignal
EP0866442A2 (de) * 1997-03-20 1998-09-23 AT&T Corp. Kombination von nichtlinearer Frequenzverzerrung und spektraler Formung in einem Markov basierten Spracherkenner

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3708002A1 (de) * 1987-03-12 1988-09-22 Telefonbau & Normalzeit Gmbh Messverfahren zum beurteilen der guete von sprachcodierern und/oder uebertragungsstrecken
EP0481107A1 (de) * 1990-10-16 1992-04-22 International Business Machines Corporation Sprachsyntheseeinrichtung nach dem phonetischen Hidden-Markov-Modell
DE4324292C1 (de) * 1993-07-21 1995-02-02 Detecon Gmbh Verfahren zur Ermittlung einer die Qualität einer digitalen Sprachübertragung kennzeichnenden Größe
DE19500494C2 (de) * 1995-01-10 1997-01-23 Siemens Ag Merkmalsextraktionsverfahren für ein Sprachsignal
EP0866442A2 (de) * 1997-03-20 1998-09-23 AT&T Corp. Kombination von nichtlinearer Frequenzverzerrung und spektraler Formung in einem Markov basierten Spracherkenner

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2737267B1 (de) 2011-07-25 2015-09-09 Valeo Systèmes Thermiques Zylinder zum speichern eines kühlmittels und wärmetauscher mit einem solchen zylinder

Similar Documents

Publication Publication Date Title
DE69433254T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE69722980T2 (de) Aufzeichnung von Sprachdaten mit Segmenten von akustisch verschiedenen Umgebungen
DE60302407T2 (de) Umgebungs- und sprecheradaptierte Spracherkennung
DE3236832C2 (de) Verfahren und Gerät zur Sprachanalyse
DE60111329T2 (de) Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung
DE69627580T2 (de) Verfahren zur Rauschverminderung in einem Sprachsignal
DE3236834C2 (de) Verfahren und Gerät zur Sprachanalyse
DE69831991T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE69831288T2 (de) An Umgebungsgeräusche angepasste Sprachverarbeitung
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE69938374T2 (de) Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle
DE10030105A1 (de) Spracherkennungseinrichtung
DE60204504T2 (de) Schlüsselworterkennung in einem verrauschten Signal
DE69819438T2 (de) Verfahren zur Spracherkennung
DE2626793A1 (de) Verfahren zur bewertung stimmhafter und stimmloser zustaende eines sprachsignals
EP1193688A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
DE69635141T2 (de) Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung
EP0815553B1 (de) Verfahren zur erkennung einer signalpause zwischen zwei mustern, welche in einem zeitvarianten mess-signal vorhanden sind
EP1273003A1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE60107072T2 (de) Robuste merkmale für die erkennung von verrauschten sprachsignalen
EP1193689A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
DE19920501A1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit textbasierter Sprachsynthese
EP0285222A2 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
DE69628603T2 (de) System zur Musteranpassung mittels einer Baumstruktur
DE102010040553A1 (de) Spracherkennungsverfahren

Legal Events

Date Code Title Description
OM8 Search report available as to paragraph 43 lit. 1 sentence 1 patent law
8110 Request for examination paragraph 44
8139 Disposal/non-payment of the annual fee