DE60006995T2 - Nicht-beeinflussende beurteilung der sprachqualität - Google Patents

Nicht-beeinflussende beurteilung der sprachqualität Download PDF

Info

Publication number
DE60006995T2
DE60006995T2 DE60006995T DE60006995T DE60006995T2 DE 60006995 T2 DE60006995 T2 DE 60006995T2 DE 60006995 T DE60006995 T DE 60006995T DE 60006995 T DE60006995 T DE 60006995T DE 60006995 T2 DE60006995 T2 DE 60006995T2
Authority
DE
Germany
Prior art keywords
signal
speech
analysis
parameters
identify
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60006995T
Other languages
English (en)
Other versions
DE60006995D1 (de
Inventor
Philip Ipswich GRAY
Peter Michael Tuddenham HOLLIER
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of DE60006995D1 publication Critical patent/DE60006995D1/de
Application granted granted Critical
Publication of DE60006995T2 publication Critical patent/DE60006995T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Machine Translation (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Monitoring And Testing Of Exchanges (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)

Description

  • Diese Erfindung bezieht sich auf nicht-beeinflussende Beurteilung der Sprachqualität mit Modellen des Sprechapparates, insbesondere zum Prüfen von Telekommunikationssystemen und -ausrüstung.
  • Die Kunden können nun einen Telekommunikationsdiensteanbieter nach Preis und Qualität der Dienste auswählen. Die Entscheidung ist nicht länger durch ein Monopol festgelegt oder durch begrenzte Technologie beschränkt. Ein Spektrum von Diensten ist mit verschiedenen Kosten und Qualitäten der Dienste verfügbar. Die Diensteanbieter benötigen die Fähigkeit, die Wahrnehmung der Qualität des Kunden vorherzusagen, sodass Netzwerke optimiert und gewartet werden können. Traditionell werden Netzwerke durch lineare Beurteilungsverfahren, Signale auf der Basis von Tönen und durch einfache Messgrößen aus dem Ingenieurbereich charakterisiert, wie etwa das Signal-Rausch-Verhältnis. Wenn die Netzwerke komplexer werden und nichtlineare Elemente wie etwa Hallunterdrücker und Kodierer für Sprachkompression enthalten, besteht eine Forderung nach einem Beurteilungssystem, das eine engere Beziehung zur menschlichen Wahrnehmung von Signalqualität aufweist. Diese Rolle fiel typischerweise teuren und zeitaufwendigen subjektiven Tests mit Testpersonen zu. Diese Tests werden zur Inbetriebnahme neuer Netzwerkelemente, während des Entwurfs neuer Kodierungsalgorithmen und zum Testen verschiedener Netzwerktopologien eingesetzt.
  • Die neuesten Fortschritte der Modellierung von Wahrnehmung haben zum Aufbau von objektiven Gehörmodellen geführt, die die wahrgenommene Sprachqualität von Telefonie aus der Perspektive eines Hörers vorhersagen können. Die Beurteilungsmethoden erfordern einen bekannten Teststimulus, um die Netzwerkverbindung anzuregen und dann einen Vergleich bezüglich der Wahrnehmung zwischen einer Referenzversion des bekannten Teststimulus und einer von dem zu testenden System verschlechterten Version desselben Stimulus zu verwenden, um ein Maß für die Qualität der verschlechterten Version, wie sie von einem menschlichen Hörer wahrgenommen würde, zur Verfügung zu stellen.
  • 1 zeigt das Prinzip des BT Laboratories Perceptual Analysis Measurement System (PAMS), das in den internationalen Patentanmeldungen WO94/00922, WO95/01011 und WO95/15035 veröffentlicht ist. In diesem System umfasst das Referenzsignal 11 einen sprachähnlichen Teststimulus, der verwendet wird, um die zu prüfende Verbindung 10 anzuregen und ein verschlechtertes Signal 12 zu erzeugen. Die zwei Signale werden dann in dem Analyseprozess 1 verglichen, um ein Ergebnis 18 zu erzeugen, das den subjektiven Einfluss auf die Verschlechterung des Signals 12 anzeigt, wenn es mit dem Referenzsignal 11 verglichen wird.
  • Solche Beurteilungsmethoden sind als „beeinflussend" bekannt, weil dafür erforderlich ist, die Verbindung 10 aus dem normalen Dienst herauszunehmen, sodass sie mit einem bekannten Teststimulus 11 angeregt werden kann. Das Herausnehmen einer Verbindung aus dem normalen Dienst macht sie für die Kunden nicht mehr verfügbar und ist für den Diensteanbieter teuer. Außerdem könnten die Bedingungen, die Verzerrungen und Fehler erzeugen, in einem Ausmaß der Netzauslastung begründet sein, das nur zu den Spitzenzeiten auftritt. Eine Beurteilung außerhalb der Betriebszeiten könnte deshalb falsche Qualitätsbeurteilungen erzeugen. Dies bedeutet, dass verlässliches beeinflussendes Testen einer Netzwerkverbindung eines Kunden unter Lastbedingungen relativ teuer ist.
  • Im allgemeinen wäre es vorzuziehen, die Sprachqualität an einem bestimmten Punkt des Netzwerkes kontinuierlich zu überwachen. In diesem Fall ist eine „nicht-beeinflussende" Lösung attraktiv, die das Signal im Betrieb nutzt, um Vorhersagen der Qualität zumachen. Mit dieser Information kann der Netzwerkverkehr durch weniger überfüllte Teile des Netzwerkes geleitet werden, wenn die Qualität sinkt.
  • Eine fundamental verschiedene Vorgehensweise ist erforderlich, um ein verschlechtertes Sprachsignal ohne ein Referenzsignal zu analysieren. Der ganze Vorgang findet „stromabwärts" von der zu prüfenden Ausrüstung statt. Nicht-beeinflussender Methoden werden in den internationalen Patentanmeldungen WO96/06495 und WO96/06496 diskutiert. Aktuelle nicht-beeinflussende Ausrüstung zum Beurteilen führt Messungen z. B. von Echo, Verzögerung, Rauschen und Lautstärke durch, um so zu versuchen, die Klarheit der Verbindung vorherzusagen. Die Wahrnehmung der Sprachqualität durch einen Kunden wird jedoch auch durch Verzerrungen und Unregelmäßigkeiten in der Sprachstruktur beeinflusst, die durch solche einfachen Messungen nicht beschrieben werden.
  • Die internationale Patentanmeldung WO97/05730 beschreibt System von diesem allgemeinen Typ, das darauf abzielt, ein Ergebnis zu erzeugen, das anzeigt, wie plausibel es ist, dass der vorbeifließende Strom von Audiodaten von einem menschlichen Lauterzeugungssystem erzeugt wurde. Dieser Vorgang erfordert Mustererkennung, um die spektralen Merkmale von Sprache und Verzerrungen zu unterscheiden, sodass ihr Vorhandensein identifiziert werden kann.
  • Diese Analyseprozesse verwenden spektrale Modelle, obwohl vorher physiologischen Modelle für die Spracherzeugung verwendet worden sind – siehe z. B. die Verwendung von jedem Modelltyp für den jeweiligen Zweck in den internationalen Patentanmeldungen WO96/06496 und WO97/00432. Im Gegensatz zu einem physiologischen Modell sind spektrale Modelle empirisch und haben keine intrinsische Basis, mit der identifiziert werden kann, welche Laute der Sprachapparat erzeugen kann. Die physiologischen Artikulationsmodelle, die bei der Erzeugung von kontinuierlicher Sprache verwendet werden, verwenden jedoch Zwangsbedingungen, die sicherstellen, dass die erzeugte Sprache weich und natürlich klingt. Diese Modelle wären deshalb für einen Beurteilungsprozess ungeeignet, da in solch einem Prozess die erzeugten Parameter auch „unerlaubte" Formen des Sprechapparates darstellen können müssen, die durch die Zwangsbedingungen, die von einem solchen Erzeugungsmodell verwendet werden, normalerweise entfernt würden. Es sind die Bereiche mit Fehlern, oder die verzerrt sind, die die Informationen für eine solche Beurteilung beinhalten; diese in der Stufe der Parametrisierung zu entfernen, würde eine nachfolgende Analyse ihrer Eigenschaften überflüssig machen.
  • Wie in den Ansprüchen 1 bis 15 der vorliegenden Erfindung beansprucht wird, wird ein Verfahren zur Identifizierung von Verzerrungen in einem Signal, das Sprache überträgt, vorgeschlagen, bei dem das Signal nach Parametern untersucht wird, die aus einem Satz von Regeln auf physiologischer Basis unter Verwendung eines parametrischen Modells des menschlichen Sprechapparates abgeleitet sind, um Teile des Signals zu identifizieren, die nicht von einem menschlichen Sprechapparat erzeugt worden sein können. Dies weicht von den oben beschriebenen Systemen nach dem Stand der Technik ab, die Regeln für die empirische Spektralanalyse verwenden, um Sprache von anderen Signalen zu unterscheiden. Der in der Erfindung verwendete Analyseprozess betrachtet statt dessen, ob physiologische Kombinationen existieren, die einen gegebenen Laut erzeugen können, um zu bestimmen, ob es als möglich identifiziert werden soll, dass der Laut von einem menschlichen Sprechapparat erzeugt worden ist.
  • Vorzugsweise umfasst der Analyseprozess den Schritt der Reduzierung eines Sprachflusses auf einen Satz von Parametern, die auf die Typen von Verzerrungen, die beurteilt werden sollen, reagieren.
  • Methoden zur Nachverfolgung der Hohlräume und kontextbasierte Fehlersuche können verwendet werden, um Signalfehler zu identifizieren. Damit können sowohl Anormalitäten in einem Moment als auch sequenzielle Fehler identifiziert werden. Artikulatorische Steuerparameter (Parameter, die aus den Bewegungen der individuellen Muskeln abgeleitet sind, die den Sprechapparat steuern) sind für Anwendungen in der Spracherzeugung extrem nützlich, wo ihre direkte Beziehung zu den Spracherzeugungssystem genutzt werden kann. Sie sind jedoch für die Analyse schwierig zu verwenden, weil die artikulatorischen Steuerparameter starken Zwangsbedingungen unterliegen, um ihre Übereinstimmung mit der Spracherzeugung durch reale Anordnungen des Sprechapparates aufrechtzuerhalten. Es ist deshalb schwierig, fehlerhafte Zustände zu modellieren, die notwendigerweise die Modellierung von Zuständen erfordern, die der Sprechapparat nicht erzeugen kann. Es werden deshalb bevorzugt akustische Röhrenmodelle verwendet. Solche Modelle ermöglichen die Ableitung von Beschreibungsgrößen für den Sprechapparat direkt aus dem Signalverlauf der Sprache, was für das vorliegende Analyseproblem attraktiv ist, da physiologisch unwahrscheinliche Zustände leicht identifiziert werden können.
  • Nun wird eine Ausführung der Erfindung mit Bezug auf die Figuren im Anhang beschrieben, in denen
  • 1 eine schematische Darstellung des beeinflussenden Beurteilungssystems PAMS ist, das schon diskutiert wurde;
  • 2 eine schematische Darstellung des Systems nach der Erfindung ist;
  • 3 die Verwendung einer variablen Fensterlänge darstellt;
  • 4 eine Darstellung der Grenzen einer Schwingung mit der Grundtonhöhe eines ausgesprochenen Sprachereignisses ist;
  • 5 ein vereinfachtes Röhrenmodell mit gleichförmiger Querschnittsfläche darstellt, das in der Erfindung verwendet wird;
  • 6 eine Darstellung des menschlichen Sprechapparates ist; und
  • 7 eine Folge von Querschnittsflächen von Hohlräumen darstellt.
  • Nicht-beeinflussende Beurteilungsprozesse für die Sprachqualität erfordern Parameter mit bestimmten Eigenschaften, die aus dem Sprachfluss extrahiert werden. Sie sollten für die Typen von Verzerrungen empfindlich sein, die in dem zu prüfenden Netzwerk auftreten, sie sollten für alle Sprecher gleichartig arbeiten und sie sollten keine mehrdeutigen Zuordnungen zwischen Sprachereignissen und Parametern erzeugen.
  • 2 zeigt veranschaulichend die Schritte, die von dem Prozess nach der Erfindung ausgeführt werden. Es ist klar, dass diese von einer Software ausgeführt werden können, die einen Rechner für allgemeine Zwecke steuert. Das Signal, das von einem Sprecher 27 erzeugt wird, wird von dem zu prüfenden System 28 verschlechtert. Es wird am Punkt 20 abgetastet und gleichzeitig an den Endnutzer 29 übertragen. Die Parameter und Merkmale, die von diesem Prozess identifiziert werden, werden verwendet, um ein Ergebnis 26 zu erzeugen, die den subjektiven Einfluss der Verschlechterung des Signals 2 im Vergleich zu dem Signal anzeigt, von dem angenommen wird, dass es von der Quelle 27 an das zu prüfende System 28 geliefert wurde.
  • Das verschlechterte Signal 2 wird zuerst abgetastet (Schritt 20), und dann werden verschiedene einzelne Prozesse mit den abgetasteten Werten ausgeführt.
  • Ein Hauptproblem bei nicht-beeinflussender Beurteilung von Sprachqualität ist das Fehlen von Informationen bezüglich der Eigenschaften des Sprechers. Im Labor ist es möglich, sprecherspezifische Algorithmen mit nahezu perfekten Fähigkeiten in den Fehlersuche zu erzeugen. Dies funktioniert sogar ohne Verwendung einer Referenz gut, weil in der Entwicklung zuvor bekanntes Wissen über den Sprecher verwendet wurde. In der realen Anwendung ist der Betrieb mit vielen Sprechern erforderlich, und die Unterschiede zwischen einzelnen Sprechern können signifikante Verringerungen der Leistungsfähigkeit hervorrufen.
  • Der Prozess nach der vorliegenden Erfindung kompensiert diesen Fehlertyp, indem die Merkmale von Sprechern sowohl in die Parametrisierungsstufe als auch in die Beurteilungsphase des Algorithmus eingebunden werden. Die Merkmale des Sprechers werden auf die begrenzt, die aus dem Signalverlauf der Sprache selbst abgeleitet werden können, die aber noch zu Verbesserungen der Leistungsfähigkeit führen.
  • Es wird ein Modell verwendet, bei dem die gesamte Form des menschlichen Sprechapparates für jede Schwingung in der Grundtonhöhe beschrieben wird. Bei diesem Vorgehen wird angenommen, dass die zu analysierende Sprache gesprochen ist (das heißt, dass die Stimmbänder vibrieren, zum Beispiel bei Vokallauten), sodass der anregende Stimulus als Impuls angenommen werden kann. Die stimmlichen Merkmale des einzelnen Sprechers 27 werden zuerst identifiziert (Prozess 21). diese Merkmale, sind für den Sprecher 27 invariant, wie etwa die durchschnittliche Grundfrequenz f0 der Stimme, die von der Länge des Sprechapparates abhängt. Dieser Prozess 21 wird wie folgt ausgeführt. Er verwendet einen Abschnitt der Sprache in der Größenordnung von 10 Sekunden, um den Sprecher zu charakterisieren, indem er Informationen über die Werte von Grundfrequenz und der dritten Formanten (dritte Harmonische) extrahiert. Diese Werte werden nur für die gesprochenen Abschnitte des Sprachsignals berechnet. Der Mittelwert und die Standardabweichung der Grundfrequenz werden später während der Identifikation der Schwingungen der Grundtonhöhe verwendet. Der Mittelwert der dritten Formanten wird verwendet, um Länge des Sprechapparates zu schätzen.
  • Die Anzahl der Röhren, die verwendet werden, um die Querschnittsflächen zu berechnen, wird auf die Länge des Sprechapparates des Sprechers bezogen, die (als Ableitung von einem angenommenen Wert von 17 Zentimeter) den Informationen über die Positionen der Formanten im Sprachsignalverlauf entsprechend gemessen wird. Durch die Verwendung der dritten Formanten, die im allgemeinen innerhalb der Bandbreitenbegrenzung der Telefonie vorhanden ist, ist es möglich, die Anzahl der Röhren zu ändern, um das äquivalente verlustfreie Röhrenmodell zu erstellen.
  • Die geeignete Anzahl von Röhrenabschnitten ist durch die nächste ganze Zahl zu Nt gegeben, wobei Nt = 2lfs/cwobei l = Länge des Sprechapparates, fs = Abtastfrequenz, c = Schallgeschwindigkeit (330 m/s).
  • Unter der Annahme einer Abtastfrequenz von 16 kHz für den durchschnittlichen Sprecher mit einer Länge des Sprechapparates von 17 cm und einer durchschnittlichen Frequenz der dritten Formanten von 2500 Hz führt dies zu 16 Querschnittsflächen, die erforderlich sind, um das Röhrenmodell zu erstellen. Mit einer direkten Proportionalität zwischen der durchschnittlichen Frequenz der dritten Formanten eines Sprechers und der Länge des Sprechapparates ist es möglich, den Wert l in der obigen Gleichung zu schätzen. Der Schätzwert lm wird aus lm/17 = 2500/dberechnet, wobei d der Durchschnittswert der dritten Formanten ist.
  • Für einen weiblichen Sprecher mit einer durchschnittlichen Frequenz der dritten Formanten von 3 kHz ergibt dies eine geschätzte Länge des Sprechapparates von 14 cm und eine Anzahl der Röhrenabschnitte Nt von 14.
  • Dieses Verfahren zur Normung der Länge des Sprechapparates reduziert die Variation in den Parametern, die aus dem Sprachfluss extrahiert werden, sodass ein allgemeiner Satz von Regeln zur Fehleridentifikation verwendet werden kann, der nicht durch Variationen zwischen Sprechern beeinflusst wird, wobei von den Variationen hauptsächlich die Grundtonhöhe betroffen ist.
  • Eine Charakterisierung wurde mit einem Abschnitt von 10 Sekunden Länge am Anfang durchgeführt, wobei die identifizierten Parameter (mittlere Grundfrequenz, Standardabweichung und Länge des Sprechapparates) für den Rest des Sprachflusses verwendet werden können, wobei der anfängliche Prozess periodisch wiederholt wird, um Änderungen des Sprechers 27 zu detektieren.
  • Die von dem Signal 2 abgetasteten Werte (Schritt 20) werden als nächstes verwendet, um Sprachparameter aus diesen Merkmalen zu erzeugen. Eine Stufe zur Synchronisation der Grundtonhöhe am Anfang wird ausgeführt (Schritt 22). Diese Stufe erzeugt einen mit der Schwingungsdauer der Grundtonhöhe gekennzeichneten Sprachfluss, der die Extraktion von Parametern aus den gesprochenen Abschnitten des Sprachsignals auf einer variablen Zeitbasis ermöglicht. Dies erlaubt die Synchronisierung mit dem Erzeugungssystem des Sprachsignalverlaufs, nämlich den menschlichen Sprechorganen, was es ermöglicht, Parameter von ganzen Zeiträumen von Grundtonhöhen abzuleiten. Dies wird erreicht, indem die Anzahl der Messwerte in jedem Fenster so ausgewählt wird, dass die Fensterbreite einer Schwingung des Sprachsignals des Sprechers entspricht, wie in 3 gezeigt ist. Wenn also die Sprachsignale des Sprechers in ihrer Grundtonhöhe steigen und fallen, folgt dem die Fensterbreite. Dies reduziert die Abhängigkeit der Parametrisierung von groben physikalischen Eigenschaften der Sprecher, wie etwa ihre durchschnittliche Grundfrequenz. Es sei bemerkt, dass die tatsächliche Abtastrate, die in dem Abtastschritt 20 angewendet wird, konstant bei 16 kHz bleibt – es ist die Anzahl der Messwerte, die jedes Fenster bilden, die variiert wird.
  • Es existieren verschiedene Methoden zur Erzeugung von synchronen Begrenzungen der Schwingungen mit Grundtonhöhe für die Parametrisierung. Die vorliegende Ausführung verwendet einen hybrides zeitliches Spektralverfahren, wie es von den Erfindern in ihrer Veröffentlichung „Constraint-based pitch-cycle identification using a hybrid temporal spectral method" – 105th AES Convention, 1998 beschrieben wurde. Dieser Prozess verwendet die mittlere Grundfrequenz f0 und die Standardabweichung von diesem Wert, um die Suche nach diesen Grenzen einzuschränken.
  • Das Ergebnis dieses Verfahrens, das nicht in Echtzeit arbeitet, kann in 4 betrachtet werden, die die Grenzen der Schwingungen der Grundtonhöhe (markiert als „X") für ein gesprochenes Sprachereignis zeigt. Man kann sehen, dass diese mit den größten Spitzen im Sprachsignals synchronisiert sind, und folglich mit der selben Frequenz wie Grundfrequenz der Stimme des Sprechers auftreten. Die Länge der Schwingungen der Grundtonhöhe variiert, weil sie Änderungen in der Grundtonhöhe der Stimme des Sprechers folgt.
  • Nachdem die zur Grundtonhöhe synchronen Parameter identifiziert wurden, kann nun die Parametrisierung des Sprechapparates durchgeführt werden (Schritt 23). Es ist wichtig, dass keine Zwangsbedingungen während der Parametrisierungsstufen bestehen, die Signalfehler durch Glätten eliminiert oder Signalfehler entfernen, weil sie dann nicht zur Identifizierung in der Fehleridentifizierungsstufe zur Verfügung stehen. Modelle für die Artikulation, die bei der Erzeugung von kontinuierlicher Sprache verwendet werden, verwenden Zwangsbedingungen, um sicherzustellen, dass die erzeugte Sprache weich und natürlich klingt. Die Parameter, die bei einer nicht-beeinflussenden Beurteilung erzeugt werden, müssen unerlaubte Formen des Sprechapparates darstellen können, die normalerweise von den Zwangsbedingungen entfernt würden, wenn ein Modell zur Erzeugung von Sprache benutzt würde. Es sind die Bereiche, die fehlerhaft oder verzerrt sind, die die Informationen für eine solche Beurteilung enthalten, diese in der Parametrisierungsstufe zu entfernen würde eine nachfolgende Analyse ihrer Eigenschaften überflüssig machen.
  • Im Prozess nach der vorliegenden Ausführung werden die Reflexionskoeffizienten zuerst direkt aus dem Sprachsignals über die Periode einer Schwingung der Grundtonhöhe berechnet, diese werden verwendet, um die Größe jeder Änderung der Querschnittsfläche des Modells für den Sprechapparat zu bestimmen, wobei die Anzahl von einzelnen Röhrenelementen verwendet werden, die schon aus den Merkmalen des Sprechers abgeleitet wurden (Schritt 21). die Durchmesser der Röhren, wie in dem Modell benutzt werden sollen, kann dann aus diesen Grenzbedingungen abgeleitet werden (Schritt 23). Eine Illustration dieser Darstellung ist in 5 gezeigt, die ein vereinfachtes Modell mit gleichförmiger Querschnittsfläche eines Sprechapparates zeigt. In diesem Modell ist der Sprechapparat als eine Reihe von zylindrischen Röhren moduliert, die gleiche Länge und individuelle Querschnittsflächen haben, die so gewählt werden, dass sie den verschiedenen Teilen des Sprechapparates entsprechen. Die Anzahl solcher Röhren wurde im Vorverarbeitungsschritt 21 bestimmt. Zum Vergleich ist die wirkliche Form des menschlichen Sprechapparates in 6 dargestellt. Im linken Teil der 6 ist ein Schnitt einer Seitenansicht des unteren Kopfes und die Kehle mit 6 Schnittlinien gezeigt, die von 1 bis 6 nummeriert sind. Im rechten Teil der 6 sind Ansichten gezeigt, die auf diesen Schnittlinien liegen. Die nicht kreisförmige Form des wirklichen Sprechapparates und die Tatsache, dass die wirklichen Übergänge nicht in abrupten Schritten geschehen, resultieren darin, dass höhere Harmonische durch das Röhrenmodell in 5 weniger gut modelliert werden, aber diese beeinflussen die Analyse zum vorliegenden Zweck nicht. Wir können deshalb ein Röhrenmodell mit gleichförmiger Querschnittsfläche verwenden, um den momentanen Zustand des Sprechapparates zu beschreiben.
  • Gewisse Fehler können in einzelnen Parametern des Sprechapparates selbst offensichtlich werden, und können direkt identifiziert werden. Allgemeinere Regeln zur Identifizierung von Fehlern können jedoch aus den Parametern abgeleitet werden, indem diese Bedingungen zusammengefasst werden. Aus diesem Grund wird die Anzahl der Dimensionen in der Beschreibung des Sprechapparates an dieser Stelle sogar weiter reduziert, um eine konstante Anzahl aufrechtzuerhalten (Schritt 24). Verfahren, die Verengungen im Sprechapparat nachverfolgen, bringen während ausgewogener sauberer Sprache große Variationen in den ersten Parametern der Hohlräume, die auf kleinere Unterschiede in der Berechnung des Verengungspunktes zurückführbar sind. Diese Unterschiede sind signifikant genug, dass gewisse Fehler in dem verschlechterten Sprachfluss nicht sichtbar werden.
  • Experimentell wurde gefunden, das die besten Ergebnisse erzeugt werden, wenn der Sprechapparat in drei Regionen aufgeteilt wird: vorderer Hohlraum, hinterer Hohlraum und Kieferöffnung. Die begleitende Tabelle zeigt für jede Anzahl von betrachteten Röhren die Anzahl der Röhrenelemente, die jeden der drei Hohlräume bilden.
  • Figure 00130001
  • Die gesamte Querschnittsfläche in jeder der Untermengen von Röhren wird zusammengefasst, um für jeden Fall die Öffnung des Hohlraums anzugeben.
  • Beispiele der Nachverfolgung von Hohlräumen kann man in 7 sehen, die (im unteren Teil der Figur) die Variation der Fläche in jeder der 3 definierten Hohlräume während des Ablaufs des (englischen) Sprachsignals „He was genuinely sorry to see them go" zeigt, dessen analoge Darstellung in dem oberen Teil der Figur gezeigt ist. Die freien Abschnitte entsprechen nicht gesprochenen Geräuschen und Schweigen, die mit diesem System nicht modelliert werden. Dies liegt daran, dass die Querschnittsflächenparameter nur während Sprechereignissen mit Stimme berechnet werden kann, wie etwa die, die glottale Anregung enthalten, die von der Schwingung der Stimmbänder verursacht wird. Unter diesen Umständen können die Parameter aus dem Sprachsignalverlauf extrahiert werden, der ihren Zustand beschreibt. Der Rest der Ereignisse ist stimmlos und wird von Verengungen an verschiedenen Stellen im Sprechapparat verursacht, was einen turbulenten Luftstrom oder sogar einen kompletten Verschluss verursacht. Der Zustand des Artikulators ist für solche Ereignisse nicht so einfach einzuschätzen.
  • Für die aus den Parametern des Sprechapparates für jedes Fenster der Grundtonhöhe extrahierten Größen der Hohlräume (Schritt 24) wird als nächstes abgeschätzt, ob Verletzungen der Physiologie vorliegen (Schritt 25). Für jede solche Verletzung wird angenommen, dass sie durch die Verschlechterung des Signals 2 bewirkt wurde, und sie verursacht einen zu identifizierenden Fehler. Diese Fehler sind im Ergebnis 26 identifiziert. Die Fehler können in zwei Hauptklassen kategorisiert werden, momentan und sequenziell.
  • Momentane Fehler werden identifiziert, wenn für die Größe eines Hohlraumwertes zu einem gegebenen Zeitpunkt eingeschätzt wird, dass sie eine Form impliziert, die von einem menschlichen Sprechapparat nicht eingenommen werden kann. Ein extremes Beispiel davon ist, dass bestimmte Signalverzerrungen übermäßig groß erscheinende Kieferöffnungen liefern – z. B. 30 cm, und die von einem menschlichen Sprechapparat nicht hätten erzeugt werden können. Es gibt andere subtilere Situationen, die empirisch gefunden wurden, in denen gewisse Kombinationen von Größen von Hohlräumen in menschlicher Sprache nicht auftreten. Jegliche solche physiologisch unmöglichen Konstellationen werden entsprechend als ein Anzeichen für eine Signalverzerrung gekennzeichnet.
  • Einer der am häufigsten vorkommenden Bereiche der Verschlechterung im Sprachfluss in modernen Telefonienetzwerken liegt in der Sprachkodierung. Spezialisierte Kodierungsschemen, speziell für Sprachsignale, können Verzerrungen erzeugen, wenn unrichtige Ausgaben aus dem kodierten Strom von Parametern erzeugt werden. In dieser Situation können die einzelnen Fenster völlig geeignet erscheinen, wenn sie isoliert betrachtet werden, aber wenn die Eigenschaften der angrenzenden Fenster mitberücksichtigt werden, wird ein Fehler in dem verschlechterten Signal sichtlich. Diese Typen von Verzerrungen werden „sequenzielle Fehler" genannt. Sequenzielle Fehler treten ziemlich oft in stark kodierten Sprachflüssen auf. Wenn wegen Fehlkodierung oder Korruption während der Übertragung unrichtige Parameter am Dekoder ankommen, kann der rekonstruierte Sprachfluss ein unerwünschtes Sprachereignis enthalten. Dieses Ereignis kann „erlaubt" sein – das heißt, wenn es isoliert über eine kurze Zeitdauer betrachtet wird, erfordert es keine physiologisch unmögliche momentane Konstellation des Sprechapparates – aber wenn es gehört wird, würde offensichtlich, dass ein Fehler vorlag. Diese Typen von Verzerrungen werden im Fehleridentifikationsschritt identifiziert, indem die Größen der Hohlräume und die Parameter des Sprechapparates in Verbindung mit den Werten der vorhergehenden und nachfolgenden Fenster beurteilt werden, um Folgen von Größen der Hohlräume zu identifizieren, die eine Signalverzerrung anzeigen.
  • Der Prozess der Fehleridentifizierung 25 arbeitet gemäß den vorher festgelegten Regeln, die dazu eingerichtet sind, einzelne Werte von Hohlräumen oder Folgen solcher Werte zu identifizieren, die physiologisch nicht auftreten können. Die Erzeugung einiger Sprachereignisse kann durch mehr als die Konstellation des Sprechapparates geschehen. Dies kann offensichtliche sequenzielle Fehler liefern, wenn der Prozess auf eine Folge reagiert, die ein solches Ereignis enthält und wenn der Prozess eine Konstellation des Sprechapparates wählt, die von der tatsächlich von dem Sprecher benutzten abweicht. Der Prozess ist dazu eingerichtet, jegliche offensichtliche sequenzielle Fehler zu identifizieren, die aus solchen Mehrdeutigkeiten resultieren können, sodass er vermeiden kann, diese als Fehler falsch zu kennzeichnen.

Claims (15)

  1. Verfahren zur Identifizierung von Verzerrungen in einem Sprachsignal, bei dem das Signal entsprechend Parametern analysiert wird, die aus einem Satz von Regeln, die auf der Physiologie basieren, mit einem parametrischen Modell des menschlichen Sprechapparates abgeleitet wurden, um Teile des Signals zu identifizieren, die nicht von einem menschlichen Sprechapparat erzeugt worden sein können.
  2. Verfahren nach Anspruch 1, bei dem die Analyse des Signals die Analyse der momentanen Struktur des parametrischen Modells umfasst.
  3. Verfahren nach Anspruch 1 oder 2, bei dem die Analyse des Signals die Analyse von Folgen von Strukturen des parametrischen Modells umfasst.
  4. Verfahren nach einem der vorhergehenden Ansprüche, bei dem Nachverfolgung der Hohlräume und kontextbasierte Fehlersuche verwendet werden, um Signalfehler zu identifizieren.
  5. Verfahren nach Anspruch 4, bei dem das parametrische Modell eine Reihe von zylindrischen Röhren umfasst, wobei die Abmessungen der Röhren aus Reflexionskoeffizienten abgeleitet werden, die aus der Analyse des Originalsignals bestimmt werden.
  6. Verfahren nach Anspruch 5, wobei die Anzahl der Röhren in der Reihe aus einer vorangehenden Analyse des Signals bestimmt wird, um die vokalen Merkmale zu identifizieren, die für den Sprecher charakteristisch sind, der das Signal erzeugt.
  7. Verfahren nach einem der vorangehenden Ansprüche, bei dem mit der Grundtonhöhe synchronisierte Fenster zur Analyse ausgewählt werden.
  8. Datenträger, der Programmdaten zur Programmierung eines Computers trägt, die, wenn sie in einen Rechner geladen werden, jeden der Schritte des Verfahrens nach irgendeinem der Ansprüche 1 bis 7 ausführen.
  9. Vorrichtung zum Beurteilen der Qualität eines Sprachsignals, mit einer Einrichtung zum Ableiten von Parametern des Signals aus einem Satz von Regeln auf physiologischer Basis mit einem parametrischen Modell des menschlichen Sprechapparates, und zum Identifizieren von Parametern, die anzeigen, ob das Signal von einem menschlichen Sprechapparat erzeugt worden sein kann.
  10. Vorrichtung nach Anspruch 9, mit einer Einrichtung zur Identifizierung der momentanen Struktur des parametrischen Modells.
  11. Vorrichtung nach Anspruch 9 oder 10, mit einer Einrichtung zur Analyse von Folgen von Strukturen des parametrischen Modells.
  12. Vorrichtung nach Anspruch 9, 10 oder 11, in der die Einrichtung zum Ableiten der Parameter eine Einrichtung zum Nachverfolgen von Hohlräumen und eine Einrichtung zur kontextbasierten Fehlersuche enthält.
  13. Vorrichtung nach Anspruch 12, mit einer Einrichtung zur Analyse des Originalsignals, um Reflexionskoeffizienten zu identifizieren, und einer Einrichtung zur Erzeugung eines Modells, um ein parametrisches Modell mit einer Reihe von zylindrischen Röhren zu erzeugen, wobei die Abmessungen der Röhren aus den Reflexionskoeffizienten abgeleitet werden.
  14. Vorrichtung nach Anspruch 13, mit einer Einrichtung zum Durchführen einer vorausgehenden Analyse des Signals, um vokale Merkmale zu identifizieren, die für den Sprecher, der das Signal erzeugt, charakteristisch sind, und in dem die Einrichtung zur Erzeugung des parametrischen Modells dazu eingerichtet ist, die Anzahl von Röhren in der Reihe nach den vokalen Merkmalen auszuwählen.
  15. Vorrichtung nach einem der Ansprüche 9, 10, 11, 12, 13 oder 14, in der die Einrichtung zur Analyse dazu eingerichtet ist, mit der Grundtonhöhe synchronisierte Fenster auszuwählen.
DE60006995T 1999-11-08 2000-10-26 Nicht-beeinflussende beurteilung der sprachqualität Expired - Lifetime DE60006995T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP99308858 1999-11-08
EP99308858 1999-11-08
PCT/GB2000/004145 WO2001035393A1 (en) 1999-11-08 2000-10-26 Non-intrusive speech-quality assessment

Publications (2)

Publication Number Publication Date
DE60006995D1 DE60006995D1 (de) 2004-01-15
DE60006995T2 true DE60006995T2 (de) 2004-10-28

Family

ID=8241721

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60006995T Expired - Lifetime DE60006995T2 (de) 1999-11-08 2000-10-26 Nicht-beeinflussende beurteilung der sprachqualität

Country Status (9)

Country Link
US (1) US8682650B2 (de)
EP (1) EP1228505B1 (de)
JP (1) JP2003514262A (de)
AT (1) ATE255762T1 (de)
AU (1) AU773708B2 (de)
CA (1) CA2388691A1 (de)
DE (1) DE60006995T2 (de)
ES (1) ES2211633T3 (de)
WO (1) WO2001035393A1 (de)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60306884T2 (de) * 2003-01-18 2007-09-06 Psytechnics Ltd. Werkzeug zur nicht invasiven Bestimmung der Qualität eines Sprachsignals
GB2407952B (en) * 2003-11-07 2006-11-29 Psytechnics Ltd Quality assessment tool
DE102004008207B4 (de) 2004-02-19 2006-01-05 Opticom Dipl.-Ing. Michael Keyhl Gmbh Verfahren und Vorrichtung zur Qualitätsbeurteilung eines Audiosignals und Vorrichtung und Verfahren zum Erhalten eines Qualitätsbeurteilungsergebnisses
ATE427624T1 (de) 2005-08-25 2009-04-15 Psytechnics Ltd Erzeugung von prufsequenzen zur sprachgutebeurteilung
WO2007089189A1 (en) * 2006-01-31 2007-08-09 Telefonaktiebolaget Lm Ericsson (Publ). Non-intrusive signal quality assessment
US20070203694A1 (en) * 2006-02-28 2007-08-30 Nortel Networks Limited Single-sided speech quality measurement
WO2010031109A1 (en) * 2008-09-19 2010-03-25 Newsouth Innovations Pty Limited Method of analysing an audio signal
JP5593244B2 (ja) * 2011-01-28 2014-09-17 日本放送協会 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体
US10665252B2 (en) * 2017-05-22 2020-05-26 Ajit Arun Zadgaonkar System and method for estimating properties and physiological conditions of organs by analysing speech samples
US11495244B2 (en) 2018-04-04 2022-11-08 Pindrop Security, Inc. Voice modification detection using physical models of speech production

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4401855A (en) * 1980-11-28 1983-08-30 The Regents Of The University Of California Apparatus for the linear predictive coding of human speech
CA2196554C (en) * 1994-08-18 2000-10-03 Michael Peter Hollier Test method
MX9800434A (es) * 1995-07-27 1998-04-30 British Telecomm Evaluacion de calidad de señal.
US6119083A (en) * 1996-02-29 2000-09-12 British Telecommunications Public Limited Company Training process for the classification of a perceptual signal

Also Published As

Publication number Publication date
US20060224387A1 (en) 2006-10-05
DE60006995D1 (de) 2004-01-15
ES2211633T3 (es) 2004-07-16
AU773708B2 (en) 2004-06-03
EP1228505A1 (de) 2002-08-07
EP1228505B1 (de) 2003-12-03
AU1043301A (en) 2001-06-06
WO2001035393A1 (en) 2001-05-17
JP2003514262A (ja) 2003-04-15
CA2388691A1 (en) 2001-05-17
US8682650B2 (en) 2014-03-25
ATE255762T1 (de) 2003-12-15

Similar Documents

Publication Publication Date Title
DE60122751T2 (de) Verfahren und vorrichtung für die objektive bewertung der sprachqualität ohne referenzsignal
EP1825461B1 (de) Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen
DE69334139T2 (de) Testen von Nachrichtenübertragungsgerät
DE60020865T2 (de) System, Verfahren und Computerprogramm für einen telefonischen Emotionsdetektor mit Rückmeldung an einen Bediener
DE69913262T2 (de) Vorrichtung und verfahren zur anpassung der rauschschwelle zur sprachaktivitätsdetektion in einer nichtstationären geräuschumgebung
DE60031432T2 (de) System, verfahren und hergestellter gegenstand zur detektion von emotionen in sprachsignalen mittels statistischer analyse von sprachsignalparametern
DE69926851T2 (de) Verfahren und Vorrichtung zur Sprachaktivitätsdetektion
DE60014063T2 (de) Vorrichtung und verfahren zur erkennung von gefühlen in der menschlichen stimme
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
EP0840975B1 (de) Signalqualitätsbewertung
EP1386307B2 (de) Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals
DE602005002403T2 (de) Gerät und Programm zur Sprachverarbeitung
DE602004010634T2 (de) Verfahren und system zur sprachqualitätsvorhersage eines audioübertragungssystems
DE69730721T2 (de) Verfahren und vorrichtungen zur geräuschkonditionierung von signalen welche audioinformationen darstellen in komprimierter und digitalisierter form
DE60006995T2 (de) Nicht-beeinflussende beurteilung der sprachqualität
DE112012002524T5 (de) Statistische Verbesserung von Sprachausgabe aus einem Text-To-Speech-Synthesesystem
DE69635141T2 (de) Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung
DE60308336T2 (de) Verfahren und system zur messung der übertragungsqualität eines systems
DE60302478T2 (de) Vorrichtung und Verfahren zur Sprachinformationserkennung unter Verwendung der Analyse myoelektrischer Signale
DE602004007550T2 (de) Verbesserte frequenzbereichs-fehlerverbergung
DE60108104T2 (de) Verfahren zur Sprecheridentifikation
EP3291234B1 (de) Verfahren zum beurteilen einer qualität eines stimmeinsatzes eines sprechenden
DE60222770T2 (de) Verbessertes verfahren zur ermittlung der qualität eines sprachsignals
DE60107072T2 (de) Robuste merkmale für die erkennung von verrauschten sprachsignalen
DE60118922T2 (de) Messung der wahrgenommenen sprachqualität während des betriebs durch messen von objektiver fehlerparamter

Legal Events

Date Code Title Description
8364 No opposition during term of opposition