DE69413880T2 - Verfahren zur Bestimmung der Sprachqualität bei Sprachsynthesen - Google Patents

Verfahren zur Bestimmung der Sprachqualität bei Sprachsynthesen

Info

Publication number
DE69413880T2
DE69413880T2 DE69413880T DE69413880T DE69413880T2 DE 69413880 T2 DE69413880 T2 DE 69413880T2 DE 69413880 T DE69413880 T DE 69413880T DE 69413880 T DE69413880 T DE 69413880T DE 69413880 T2 DE69413880 T2 DE 69413880T2
Authority
DE
Germany
Prior art keywords
speech
quality
recognition
recognition system
people
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69413880T
Other languages
English (en)
Other versions
DE69413880D1 (de
Inventor
Bertil Se-610 70 Vagnhaerad Lyberg
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telia AB
Original Assignee
Telia AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telia AB filed Critical Telia AB
Application granted granted Critical
Publication of DE69413880D1 publication Critical patent/DE69413880D1/de
Publication of DE69413880T2 publication Critical patent/DE69413880T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Monitoring And Testing Of Transmission In General (AREA)
  • Machine Translation (AREA)
  • Monitoring And Testing Of Exchanges (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Telephonic Communication Services (AREA)

Description

    GEBIET DER ERFINDUNG
  • Die vorliegende Erfindung betrifft ein Verfahren zum Bewerten von Sprachqualität bei der Sprachsynthese. Insbesondere ist die Erfindung für die Verwendung in Ausrüstung vorgesehen, um gesprochene Mitteilungen, insbesondere von Sprachsynthesizern, d. h. Text-zu-Sprache-Wandlern zu empfangen und zu analysieren. Mit Hilfe der Erfindung kann das Erkennungsniveau empfangender Sprache in einem Spracherkennungssystem in Bezug auf die Qualität in eine Reihenfolge eingeordnet werden.
  • STAND DER TECHNIK
  • Spracherkennung und Text-zu-Sprache-Wandlung sind Techniken, die an sich bekannt sind.
  • US 5,127,055 bezieht sich auf Spracherkennung. Eine große Anzahl von Bezugsgrößen, die Stimmausdrücke darstellen, sind gespeichert. Jede Bezugsgröße hat einen damit verknüpften Qualitätswert, der die Wirksamkeit darstellt, mit der ein ankommender Sprachausdruck erkannt wird. Der Benutzer kann Korrekturen vornehmen, die die Genauigkeit bei der Spracherkennung darstellen. Die Qualtitätswerte werden aktualisiert.
  • US 4,692,941 beschreibt eine bekannte Technik für Text-zu- Sprache-Wandlung.
  • Die vorliegende Erfindung löst in einer neuen Weise das Problem, Sprachqualität in einem Sprachsynthesizer zu analysieren.
  • Die vorliegende Erfindung wird durch den vorliegenden Anspruch definiert.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Die vorliegende Erfindung schafft also ein Verfahren zur Qualitätsbewertung von synthetisierter Sprache, um Sprachqualität bei der Sprachsynthese zu analysieren. Gemäß der Erfindung wird ein Spracherkennungssystem unter Verwendung von Sprache von einer Anzahl von Personen trainiert. Das Spracherkennungssystem empfängt dann synthetische oder natürliche Sprache von Sprachsynthesizern bzw. Personen, zeigt dabei unterschiedliche Sprachqualitäten an und bestimmt ein Niveau der Erkennung jeder empfangenden Sprachqualität. Die Sprachqualität für den Sprachsynthesizer, der bewertet werden soll, wird dadurch bestimmt, daß Sprache von dem Sprachsynthesizer empfangen wird, das Niveau der Erkennung bestimmt wird und der Synthesizer im Vergleich mit den Niveaus der Erkennung vorher empfangender Sprache von den Sprachsynthesizern und Personen in eine Rangfolge eingeordnet wird.
  • Die Erfindung wird durch die folgenden Patentansprüche definiert.
  • DETAILLIERTE BESCHREIBUNG EINER BEVORZUGTEN AUSFÜHRUNGSFORM DER ERFINDUNG
  • Die Erfindung ist für Anwendung bei Spracherkennungssystemen vorgesehen, die gesprochene Mitteilungen insbesondere von Sprachsynthesizern empfangen und analysieren sollen.
  • Ein Spracherkennungssystem muß zuerst programmiert werden, damit es Sprache erkennen kann. Sprache von einer Anzahl von Personen wird verwendet, um dem Spracherkennungssystem zu lehren, Sprache zu erkennen. Das Niveau der Erkennung für die Sprache von der Programmiergruppe ist als Ergebnis davon 100%. Wenn das Spracherkennungssystem dann mit allgemeiner Sprache verwendet wird, ist es imstande, die empfangende Sprache in sehr hohem Ausmaß zu verstehen.
  • Um ein Qualitätsmaß empfangender Sprache zuzuordnen, muß das Spracherkennungssystem Sprache von anderen Personen und Sprachsynthesizern empfangen, als diejenigen, die verwendet wurden, um das Spracherkennungssystem zu programmieren. Die Sprachqualität von Sprache von unterschiedlichen Quellen kann unterschiedlichen Sprachqualitätswerten in Abhängigkeit vom damit verknüpften Niveau der Erkennung zugeordnet werden. Dieses kollektive Material kann dann benutzt werden, um die Sprachqualität z. B. in anderen Sprachsynthesizern zu bewerten.
  • Um die Sprachqualität in einem Sprachsynthesizer zu bewerten, wird Sprache vom Synthesizer zum Spracherkennungssystem gesandt. Dieses analysiert die Sprache und ordnet ein Erkennungsniveau der empfangenden Sprache zu. Dieses Erkennungsniveau kann dann mit Sprache verglichen werden, die vorher durch das Spracherkennungssystem empfangen worden ist, und in Rangfolge eingeordnet werden. Es kann so direkt eine Beurteilung über die Sprachqualität im fraglichen Synthesizer ausgesprochen werden: er ist besser als gewisse vorher getestete Synthesizer und Personen, aber schlechter als andere.
  • Der Schutzbereich der Erfindung ist nur durch die folgenden Patentansprüche begrenzt.
  • Übersetzung der Fig. 1/1
  • Training group Trainingsgruppe
  • Unkown Unbekannt
  • Synthetic speech synthetische Sprache
  • Speech recognition system Spracherkennungssystem
  • Speech recognition degree Spracherkennungsgrad

Claims (1)

1. Verfahren zur Qualitätsbewertung von synthestisierter Sprache, dadurch gekennzeichnet, daß ein Spracherkennungssystem trainiert wird unter Verwendung von Sprache von einer Anzahl von Personen, daß das Spracherkennungssystem synthetische oder natürliche Sprache von Sprachsynthesizern bzw. Personen, die unterschiedliche Sprachqualität aufweisen, empfängt, daß das Spracherkennungssystem für jede empfangene Sprachqualität ein Erkennungsniveau bestimmt, daß zu bewertende Sprache von einem Sprachsynthesizer durch das Spracherkennungssystem empfangen wird, ein Erkennungsniveau zugeordnet erhält und in eine Rangfolge eingeordnet wird im Vergleich mit den Erkennungsniveaus von früher empfangener Sprache von den Sprachsynthesizern und Personen.
DE69413880T 1993-06-02 1994-05-13 Verfahren zur Bestimmung der Sprachqualität bei Sprachsynthesen Expired - Fee Related DE69413880T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
SE9301886A SE9301886L (sv) 1993-06-02 1993-06-02 Förfarande för utvärdering av talkvalitet vid talsyntes

Publications (2)

Publication Number Publication Date
DE69413880D1 DE69413880D1 (de) 1998-11-19
DE69413880T2 true DE69413880T2 (de) 1999-03-18

Family

ID=20390140

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69413880T Expired - Fee Related DE69413880T2 (de) 1993-06-02 1994-05-13 Verfahren zur Bestimmung der Sprachqualität bei Sprachsynthesen

Country Status (6)

Country Link
US (1) US5664050A (de)
EP (1) EP0627727B1 (de)
JP (1) JPH0713594A (de)
DE (1) DE69413880T2 (de)
ES (1) ES2123745T3 (de)
SE (1) SE9301886L (de)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE517836C2 (sv) * 1995-02-14 2002-07-23 Telia Ab Metod och anordning för fastställande av talkvalitet
NL9500512A (nl) * 1995-03-15 1996-10-01 Nederland Ptt Inrichting voor het bepalen van de kwaliteit van een door een signaalbewerkingscircuit te genereren uitgangssignaal, alsmede werkwijze voor het bepalen van de kwaliteit van een door een signaalbewerkingscircuit te genereren uitgangssignaal.
CA2273239C (en) 1996-12-13 2003-06-10 John Gerard Beerends Device and method for signal quality determination
US7130800B1 (en) 2001-09-20 2006-10-31 West Corporation Third party verification system
US7206746B1 (en) 1999-11-09 2007-04-17 West Corporation Third party verification system
US6401066B1 (en) 1999-11-09 2002-06-04 West Teleservices Holding Company Automated third party verification system
US7191133B1 (en) 2001-02-15 2007-03-13 West Corporation Script compliance using speech recognition
US8180643B1 (en) 2001-02-15 2012-05-15 West Corporation Script compliance using speech recognition and compilation and transmission of voice and text records to clients
US7739115B1 (en) 2001-02-15 2010-06-15 West Corporation Script compliance and agent feedback
US7664641B1 (en) 2001-02-15 2010-02-16 West Corporation Script compliance and quality assurance based on speech recognition and duration of interaction
US7966187B1 (en) 2001-02-15 2011-06-21 West Corporation Script compliance and quality assurance using speech recognition
US7403967B1 (en) 2002-06-18 2008-07-22 West Corporation Methods, apparatus, and computer readable media for confirmation and verification of shipping address data associated with a transaction
US7346151B2 (en) * 2003-06-24 2008-03-18 Avaya Technology Corp. Method and apparatus for validating agreement between textual and spoken representations of words
US6930759B2 (en) * 2003-09-23 2005-08-16 Eastman Kodak Company Method and apparatus for exposing a latent watermark on film
TWI294618B (en) * 2006-03-30 2008-03-11 Ind Tech Res Inst Method for speech quality degradation estimation and method for degradation measures calculation and apparatuses thereof
US20080154605A1 (en) * 2006-12-21 2008-06-26 International Business Machines Corporation Adaptive quality adjustments for speech synthesis in a real-time speech processing system based upon load
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法
FR2932920A1 (fr) * 2008-06-19 2009-12-25 Archean Technologies Procede et appareil de mesure de l'intelligibilite d'un dispositif de diffusion sonore
US8447603B2 (en) * 2009-12-16 2013-05-21 International Business Machines Corporation Rating speech naturalness of speech utterances based on a plurality of human testers
US20130080172A1 (en) * 2011-09-22 2013-03-28 General Motors Llc Objective evaluation of synthesized speech attributes
CN109147761B (zh) * 2018-08-09 2022-05-13 北京易诚高科科技发展有限公司 一种基于批量语音识别和tts文本合成的测试方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5359695A (en) * 1984-01-30 1994-10-25 Canon Kabushiki Kaisha Speech perception apparatus
US4692941A (en) * 1984-04-10 1987-09-08 First Byte Real-time text-to-speech conversion system
US4860360A (en) * 1987-04-06 1989-08-22 Gte Laboratories Incorporated Method of evaluating speech
JP2793213B2 (ja) * 1988-12-29 1998-09-03 株式会社東芝 音声認識装置及びこれを用いた電話機
US5127055A (en) * 1988-12-30 1992-06-30 Kurzweil Applied Intelligence, Inc. Speech recognition apparatus & method having dynamic reference pattern adaptation

Also Published As

Publication number Publication date
ES2123745T3 (es) 1999-01-16
SE9301886L (sv) 1994-12-03
DE69413880D1 (de) 1998-11-19
EP0627727B1 (de) 1998-10-14
JPH0713594A (ja) 1995-01-17
US5664050A (en) 1997-09-02
SE9301886D0 (sv) 1993-06-02
EP0627727A1 (de) 1994-12-07

Similar Documents

Publication Publication Date Title
DE69413880T2 (de) Verfahren zur Bestimmung der Sprachqualität bei Sprachsynthesen
DE68914449T2 (de) Sprachgesteuerte bedienung.
DE2753277C2 (de) Verfahren und Einrichtung zur Spracherkennung
DE69329569T2 (de) Digitale Kodierung von Sprachsignalen
DE2953262C2 (de)
DE4397106B4 (de) Schnelles auf einer Baumstruktur basierendes Verfahren zur Vektorquantisierung
DE69009545T2 (de) Verfahren zur Sprachanalyse und -synthese.
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
DE69707876T2 (de) Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung
DE69705830T2 (de) Sprachverarbeitung
DE3884880T2 (de) Billige Spracherkennungseinrichtung und Verfahren.
DE69229124T2 (de) Mehrteiliger expertsystem
DE69636209T2 (de) Vorrichtung zur Sprachkodierung
EP1214703B1 (de) Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese
DE4310190A1 (de) Sprecher-Verifizierungssystem unter Verwendung der Abstandsmessung nächster Nachbarn
DE2820645A1 (de) Vorrichtung und verfahren zur spracherkennung
EP0797185A2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE10306599A1 (de) Benutzeroberfläche, System und Verfahren zur automatischen Benennung von phonischen Symbolen für Sprachsignale zum Korrigieren von Aussprache
DE10018134A1 (de) Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen
DE602004008666T2 (de) Verfolgen von Vokaltraktresonanzen unter Verwendung eines nichtlinearen Prädiktors
DE69521622T2 (de) System und verfahren zur sprachverarbeitung mittels multipuls-analyse
EP1193689A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
DE69908723T2 (de) Verfahren und Vorrichtung zur Sprachsynthese, sowie Speichermedium
DE69128582T2 (de) Methode zur Phonemunterscheidung
DE2021126C3 (de) Spracherkennungs anordnung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee