DE69413880T2

DE69413880T2 - Verfahren zur Bestimmung der Sprachqualität bei Sprachsynthesen

Info

Publication number: DE69413880T2
Application number: DE69413880T
Authority: DE
Inventors: Bertil Se-610 70 Vagnhaerad Lyberg
Original assignee: Telia AB
Current assignee: Telia AB
Priority date: 1993-06-02
Filing date: 1994-05-13
Publication date: 1999-03-18
Anticipated expiration: 2014-05-14
Also published as: ES2123745T3; SE9301886L; DE69413880D1; EP0627727B1; JPH0713594A; US5664050A; SE9301886D0; EP0627727A1

Description

GEBIET DER ERFINDUNG

Die vorliegende Erfindung betrifft ein Verfahren zum Bewerten von Sprachqualität bei der Sprachsynthese. Insbesondere ist die Erfindung für die Verwendung in Ausrüstung vorgesehen, um gesprochene Mitteilungen, insbesondere von Sprachsynthesizern, d. h. Text-zu-Sprache-Wandlern zu empfangen und zu analysieren. Mit Hilfe der Erfindung kann das Erkennungsniveau empfangender Sprache in einem Spracherkennungssystem in Bezug auf die Qualität in eine Reihenfolge eingeordnet werden.

STAND DER TECHNIK

Spracherkennung und Text-zu-Sprache-Wandlung sind Techniken, die an sich bekannt sind.
US 5,127,055 bezieht sich auf Spracherkennung. Eine große Anzahl von Bezugsgrößen, die Stimmausdrücke darstellen, sind gespeichert. Jede Bezugsgröße hat einen damit verknüpften Qualitätswert, der die Wirksamkeit darstellt, mit der ein ankommender Sprachausdruck erkannt wird. Der Benutzer kann Korrekturen vornehmen, die die Genauigkeit bei der Spracherkennung darstellen. Die Qualtitätswerte werden aktualisiert.
US 4,692,941 beschreibt eine bekannte Technik für Text-zu- Sprache-Wandlung.
Die vorliegende Erfindung löst in einer neuen Weise das Problem, Sprachqualität in einem Sprachsynthesizer zu analysieren.
Die vorliegende Erfindung wird durch den vorliegenden Anspruch definiert.

ZUSAMMENFASSUNG DER ERFINDUNG

Die vorliegende Erfindung schafft also ein Verfahren zur Qualitätsbewertung von synthetisierter Sprache, um Sprachqualität bei der Sprachsynthese zu analysieren. Gemäß der Erfindung wird ein Spracherkennungssystem unter Verwendung von Sprache von einer Anzahl von Personen trainiert. Das Spracherkennungssystem empfängt dann synthetische oder natürliche Sprache von Sprachsynthesizern bzw. Personen, zeigt dabei unterschiedliche Sprachqualitäten an und bestimmt ein Niveau der Erkennung jeder empfangenden Sprachqualität. Die Sprachqualität für den Sprachsynthesizer, der bewertet werden soll, wird dadurch bestimmt, daß Sprache von dem Sprachsynthesizer empfangen wird, das Niveau der Erkennung bestimmt wird und der Synthesizer im Vergleich mit den Niveaus der Erkennung vorher empfangender Sprache von den Sprachsynthesizern und Personen in eine Rangfolge eingeordnet wird.
Die Erfindung wird durch die folgenden Patentansprüche definiert.

DETAILLIERTE BESCHREIBUNG EINER BEVORZUGTEN AUSFÜHRUNGSFORM DER ERFINDUNG

Die Erfindung ist für Anwendung bei Spracherkennungssystemen vorgesehen, die gesprochene Mitteilungen insbesondere von Sprachsynthesizern empfangen und analysieren sollen.
Ein Spracherkennungssystem muß zuerst programmiert werden, damit es Sprache erkennen kann. Sprache von einer Anzahl von Personen wird verwendet, um dem Spracherkennungssystem zu lehren, Sprache zu erkennen. Das Niveau der Erkennung für die Sprache von der Programmiergruppe ist als Ergebnis davon 100%. Wenn das Spracherkennungssystem dann mit allgemeiner Sprache verwendet wird, ist es imstande, die empfangende Sprache in sehr hohem Ausmaß zu verstehen.
Um ein Qualitätsmaß empfangender Sprache zuzuordnen, muß das Spracherkennungssystem Sprache von anderen Personen und Sprachsynthesizern empfangen, als diejenigen, die verwendet wurden, um das Spracherkennungssystem zu programmieren. Die Sprachqualität von Sprache von unterschiedlichen Quellen kann unterschiedlichen Sprachqualitätswerten in Abhängigkeit vom damit verknüpften Niveau der Erkennung zugeordnet werden. Dieses kollektive Material kann dann benutzt werden, um die Sprachqualität z. B. in anderen Sprachsynthesizern zu bewerten.
Um die Sprachqualität in einem Sprachsynthesizer zu bewerten, wird Sprache vom Synthesizer zum Spracherkennungssystem gesandt. Dieses analysiert die Sprache und ordnet ein Erkennungsniveau der empfangenden Sprache zu. Dieses Erkennungsniveau kann dann mit Sprache verglichen werden, die vorher durch das Spracherkennungssystem empfangen worden ist, und in Rangfolge eingeordnet werden. Es kann so direkt eine Beurteilung über die Sprachqualität im fraglichen Synthesizer ausgesprochen werden: er ist besser als gewisse vorher getestete Synthesizer und Personen, aber schlechter als andere.
Der Schutzbereich der Erfindung ist nur durch die folgenden Patentansprüche begrenzt.

Übersetzung der Fig. 1/1

Training group Trainingsgruppe
Unkown Unbekannt
Synthetic speech synthetische Sprache
Speech recognition system Spracherkennungssystem
Speech recognition degree Spracherkennungsgrad

Claims

1. Verfahren zur Qualitätsbewertung von synthestisierter Sprache, dadurch gekennzeichnet, daß ein Spracherkennungssystem trainiert wird unter Verwendung von Sprache von einer Anzahl von Personen, daß das Spracherkennungssystem synthetische oder natürliche Sprache von Sprachsynthesizern bzw. Personen, die unterschiedliche Sprachqualität aufweisen, empfängt, daß das Spracherkennungssystem für jede empfangene Sprachqualität ein Erkennungsniveau bestimmt, daß zu bewertende Sprache von einem Sprachsynthesizer durch das Spracherkennungssystem empfangen wird, ein Erkennungsniveau zugeordnet erhält und in eine Rangfolge eingeordnet wird im Vergleich mit den Erkennungsniveaus von früher empfangener Sprache von den Sprachsynthesizern und Personen.