DE69413880T2 - Verfahren zur Bestimmung der Sprachqualität bei Sprachsynthesen - Google Patents
Verfahren zur Bestimmung der Sprachqualität bei SprachsynthesenInfo
- Publication number
- DE69413880T2 DE69413880T2 DE69413880T DE69413880T DE69413880T2 DE 69413880 T2 DE69413880 T2 DE 69413880T2 DE 69413880 T DE69413880 T DE 69413880T DE 69413880 T DE69413880 T DE 69413880T DE 69413880 T2 DE69413880 T2 DE 69413880T2
- Authority
- DE
- Germany
- Prior art keywords
- speech
- quality
- recognition
- recognition system
- people
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 6
- 230000015572 biosynthetic process Effects 0.000 title description 3
- 238000003786 synthesis reaction Methods 0.000 title description 3
- 238000001303 quality assessment method Methods 0.000 claims 1
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Monitoring And Testing Of Transmission In General (AREA)
- Machine Translation (AREA)
- Monitoring And Testing Of Exchanges (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Telephonic Communication Services (AREA)
Description
- Die vorliegende Erfindung betrifft ein Verfahren zum Bewerten von Sprachqualität bei der Sprachsynthese. Insbesondere ist die Erfindung für die Verwendung in Ausrüstung vorgesehen, um gesprochene Mitteilungen, insbesondere von Sprachsynthesizern, d. h. Text-zu-Sprache-Wandlern zu empfangen und zu analysieren. Mit Hilfe der Erfindung kann das Erkennungsniveau empfangender Sprache in einem Spracherkennungssystem in Bezug auf die Qualität in eine Reihenfolge eingeordnet werden.
- Spracherkennung und Text-zu-Sprache-Wandlung sind Techniken, die an sich bekannt sind.
- US 5,127,055 bezieht sich auf Spracherkennung. Eine große Anzahl von Bezugsgrößen, die Stimmausdrücke darstellen, sind gespeichert. Jede Bezugsgröße hat einen damit verknüpften Qualitätswert, der die Wirksamkeit darstellt, mit der ein ankommender Sprachausdruck erkannt wird. Der Benutzer kann Korrekturen vornehmen, die die Genauigkeit bei der Spracherkennung darstellen. Die Qualtitätswerte werden aktualisiert.
- US 4,692,941 beschreibt eine bekannte Technik für Text-zu- Sprache-Wandlung.
- Die vorliegende Erfindung löst in einer neuen Weise das Problem, Sprachqualität in einem Sprachsynthesizer zu analysieren.
- Die vorliegende Erfindung wird durch den vorliegenden Anspruch definiert.
- Die vorliegende Erfindung schafft also ein Verfahren zur Qualitätsbewertung von synthetisierter Sprache, um Sprachqualität bei der Sprachsynthese zu analysieren. Gemäß der Erfindung wird ein Spracherkennungssystem unter Verwendung von Sprache von einer Anzahl von Personen trainiert. Das Spracherkennungssystem empfängt dann synthetische oder natürliche Sprache von Sprachsynthesizern bzw. Personen, zeigt dabei unterschiedliche Sprachqualitäten an und bestimmt ein Niveau der Erkennung jeder empfangenden Sprachqualität. Die Sprachqualität für den Sprachsynthesizer, der bewertet werden soll, wird dadurch bestimmt, daß Sprache von dem Sprachsynthesizer empfangen wird, das Niveau der Erkennung bestimmt wird und der Synthesizer im Vergleich mit den Niveaus der Erkennung vorher empfangender Sprache von den Sprachsynthesizern und Personen in eine Rangfolge eingeordnet wird.
- Die Erfindung wird durch die folgenden Patentansprüche definiert.
- Die Erfindung ist für Anwendung bei Spracherkennungssystemen vorgesehen, die gesprochene Mitteilungen insbesondere von Sprachsynthesizern empfangen und analysieren sollen.
- Ein Spracherkennungssystem muß zuerst programmiert werden, damit es Sprache erkennen kann. Sprache von einer Anzahl von Personen wird verwendet, um dem Spracherkennungssystem zu lehren, Sprache zu erkennen. Das Niveau der Erkennung für die Sprache von der Programmiergruppe ist als Ergebnis davon 100%. Wenn das Spracherkennungssystem dann mit allgemeiner Sprache verwendet wird, ist es imstande, die empfangende Sprache in sehr hohem Ausmaß zu verstehen.
- Um ein Qualitätsmaß empfangender Sprache zuzuordnen, muß das Spracherkennungssystem Sprache von anderen Personen und Sprachsynthesizern empfangen, als diejenigen, die verwendet wurden, um das Spracherkennungssystem zu programmieren. Die Sprachqualität von Sprache von unterschiedlichen Quellen kann unterschiedlichen Sprachqualitätswerten in Abhängigkeit vom damit verknüpften Niveau der Erkennung zugeordnet werden. Dieses kollektive Material kann dann benutzt werden, um die Sprachqualität z. B. in anderen Sprachsynthesizern zu bewerten.
- Um die Sprachqualität in einem Sprachsynthesizer zu bewerten, wird Sprache vom Synthesizer zum Spracherkennungssystem gesandt. Dieses analysiert die Sprache und ordnet ein Erkennungsniveau der empfangenden Sprache zu. Dieses Erkennungsniveau kann dann mit Sprache verglichen werden, die vorher durch das Spracherkennungssystem empfangen worden ist, und in Rangfolge eingeordnet werden. Es kann so direkt eine Beurteilung über die Sprachqualität im fraglichen Synthesizer ausgesprochen werden: er ist besser als gewisse vorher getestete Synthesizer und Personen, aber schlechter als andere.
- Der Schutzbereich der Erfindung ist nur durch die folgenden Patentansprüche begrenzt.
- Training group Trainingsgruppe
- Unkown Unbekannt
- Synthetic speech synthetische Sprache
- Speech recognition system Spracherkennungssystem
- Speech recognition degree Spracherkennungsgrad
Claims (1)
1. Verfahren zur Qualitätsbewertung von synthestisierter
Sprache, dadurch gekennzeichnet, daß ein
Spracherkennungssystem trainiert wird unter Verwendung von Sprache
von einer Anzahl von Personen, daß das
Spracherkennungssystem synthetische oder natürliche Sprache von
Sprachsynthesizern bzw. Personen, die unterschiedliche
Sprachqualität aufweisen, empfängt, daß das
Spracherkennungssystem für jede empfangene Sprachqualität ein
Erkennungsniveau bestimmt, daß zu bewertende Sprache von einem
Sprachsynthesizer durch das Spracherkennungssystem
empfangen wird, ein Erkennungsniveau zugeordnet erhält und
in eine Rangfolge eingeordnet wird im Vergleich mit den
Erkennungsniveaus von früher empfangener Sprache von den
Sprachsynthesizern und Personen.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SE9301886A SE9301886L (sv) | 1993-06-02 | 1993-06-02 | Förfarande för utvärdering av talkvalitet vid talsyntes |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69413880D1 DE69413880D1 (de) | 1998-11-19 |
DE69413880T2 true DE69413880T2 (de) | 1999-03-18 |
Family
ID=20390140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69413880T Expired - Fee Related DE69413880T2 (de) | 1993-06-02 | 1994-05-13 | Verfahren zur Bestimmung der Sprachqualität bei Sprachsynthesen |
Country Status (6)
Country | Link |
---|---|
US (1) | US5664050A (de) |
EP (1) | EP0627727B1 (de) |
JP (1) | JPH0713594A (de) |
DE (1) | DE69413880T2 (de) |
ES (1) | ES2123745T3 (de) |
SE (1) | SE9301886L (de) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE517836C2 (sv) * | 1995-02-14 | 2002-07-23 | Telia Ab | Metod och anordning för fastställande av talkvalitet |
NL9500512A (nl) * | 1995-03-15 | 1996-10-01 | Nederland Ptt | Inrichting voor het bepalen van de kwaliteit van een door een signaalbewerkingscircuit te genereren uitgangssignaal, alsmede werkwijze voor het bepalen van de kwaliteit van een door een signaalbewerkingscircuit te genereren uitgangssignaal. |
CA2273239C (en) | 1996-12-13 | 2003-06-10 | John Gerard Beerends | Device and method for signal quality determination |
US7130800B1 (en) | 2001-09-20 | 2006-10-31 | West Corporation | Third party verification system |
US7206746B1 (en) | 1999-11-09 | 2007-04-17 | West Corporation | Third party verification system |
US6401066B1 (en) | 1999-11-09 | 2002-06-04 | West Teleservices Holding Company | Automated third party verification system |
US7191133B1 (en) | 2001-02-15 | 2007-03-13 | West Corporation | Script compliance using speech recognition |
US8180643B1 (en) | 2001-02-15 | 2012-05-15 | West Corporation | Script compliance using speech recognition and compilation and transmission of voice and text records to clients |
US7739115B1 (en) | 2001-02-15 | 2010-06-15 | West Corporation | Script compliance and agent feedback |
US7664641B1 (en) | 2001-02-15 | 2010-02-16 | West Corporation | Script compliance and quality assurance based on speech recognition and duration of interaction |
US7966187B1 (en) | 2001-02-15 | 2011-06-21 | West Corporation | Script compliance and quality assurance using speech recognition |
US7403967B1 (en) | 2002-06-18 | 2008-07-22 | West Corporation | Methods, apparatus, and computer readable media for confirmation and verification of shipping address data associated with a transaction |
US7346151B2 (en) * | 2003-06-24 | 2008-03-18 | Avaya Technology Corp. | Method and apparatus for validating agreement between textual and spoken representations of words |
US6930759B2 (en) * | 2003-09-23 | 2005-08-16 | Eastman Kodak Company | Method and apparatus for exposing a latent watermark on film |
TWI294618B (en) * | 2006-03-30 | 2008-03-11 | Ind Tech Res Inst | Method for speech quality degradation estimation and method for degradation measures calculation and apparatuses thereof |
US20080154605A1 (en) * | 2006-12-21 | 2008-06-26 | International Business Machines Corporation | Adaptive quality adjustments for speech synthesis in a real-time speech processing system based upon load |
JP5238205B2 (ja) * | 2007-09-07 | 2013-07-17 | ニュアンス コミュニケーションズ,インコーポレイテッド | 音声合成システム、プログラム及び方法 |
FR2932920A1 (fr) * | 2008-06-19 | 2009-12-25 | Archean Technologies | Procede et appareil de mesure de l'intelligibilite d'un dispositif de diffusion sonore |
US8447603B2 (en) * | 2009-12-16 | 2013-05-21 | International Business Machines Corporation | Rating speech naturalness of speech utterances based on a plurality of human testers |
US20130080172A1 (en) * | 2011-09-22 | 2013-03-28 | General Motors Llc | Objective evaluation of synthesized speech attributes |
CN109147761B (zh) * | 2018-08-09 | 2022-05-13 | 北京易诚高科科技发展有限公司 | 一种基于批量语音识别和tts文本合成的测试方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5359695A (en) * | 1984-01-30 | 1994-10-25 | Canon Kabushiki Kaisha | Speech perception apparatus |
US4692941A (en) * | 1984-04-10 | 1987-09-08 | First Byte | Real-time text-to-speech conversion system |
US4860360A (en) * | 1987-04-06 | 1989-08-22 | Gte Laboratories Incorporated | Method of evaluating speech |
JP2793213B2 (ja) * | 1988-12-29 | 1998-09-03 | 株式会社東芝 | 音声認識装置及びこれを用いた電話機 |
US5127055A (en) * | 1988-12-30 | 1992-06-30 | Kurzweil Applied Intelligence, Inc. | Speech recognition apparatus & method having dynamic reference pattern adaptation |
-
1993
- 1993-06-02 SE SE9301886A patent/SE9301886L/xx not_active Application Discontinuation
-
1994
- 1994-05-13 ES ES94850081T patent/ES2123745T3/es not_active Expired - Lifetime
- 1994-05-13 DE DE69413880T patent/DE69413880T2/de not_active Expired - Fee Related
- 1994-05-13 EP EP94850081A patent/EP0627727B1/de not_active Expired - Lifetime
- 1994-06-01 JP JP6143909A patent/JPH0713594A/ja active Pending
-
1996
- 1996-03-21 US US08/622,039 patent/US5664050A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
ES2123745T3 (es) | 1999-01-16 |
SE9301886L (sv) | 1994-12-03 |
DE69413880D1 (de) | 1998-11-19 |
EP0627727B1 (de) | 1998-10-14 |
JPH0713594A (ja) | 1995-01-17 |
US5664050A (en) | 1997-09-02 |
SE9301886D0 (sv) | 1993-06-02 |
EP0627727A1 (de) | 1994-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69413880T2 (de) | Verfahren zur Bestimmung der Sprachqualität bei Sprachsynthesen | |
DE68914449T2 (de) | Sprachgesteuerte bedienung. | |
DE2753277C2 (de) | Verfahren und Einrichtung zur Spracherkennung | |
DE69329569T2 (de) | Digitale Kodierung von Sprachsignalen | |
DE2953262C2 (de) | ||
DE4397106B4 (de) | Schnelles auf einer Baumstruktur basierendes Verfahren zur Vektorquantisierung | |
DE69009545T2 (de) | Verfahren zur Sprachanalyse und -synthese. | |
DE602005002706T2 (de) | Verfahren und System für die Umsetzung von Text-zu-Sprache | |
DE69707876T2 (de) | Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung | |
DE69705830T2 (de) | Sprachverarbeitung | |
DE3884880T2 (de) | Billige Spracherkennungseinrichtung und Verfahren. | |
DE69229124T2 (de) | Mehrteiliger expertsystem | |
DE69636209T2 (de) | Vorrichtung zur Sprachkodierung | |
EP1214703B1 (de) | Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese | |
DE4310190A1 (de) | Sprecher-Verifizierungssystem unter Verwendung der Abstandsmessung nächster Nachbarn | |
DE2820645A1 (de) | Vorrichtung und verfahren zur spracherkennung | |
EP0797185A2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE10306599A1 (de) | Benutzeroberfläche, System und Verfahren zur automatischen Benennung von phonischen Symbolen für Sprachsignale zum Korrigieren von Aussprache | |
DE10018134A1 (de) | Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen | |
DE602004008666T2 (de) | Verfolgen von Vokaltraktresonanzen unter Verwendung eines nichtlinearen Prädiktors | |
DE69521622T2 (de) | System und verfahren zur sprachverarbeitung mittels multipuls-analyse | |
EP1193689A2 (de) | Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern | |
DE69908723T2 (de) | Verfahren und Vorrichtung zur Sprachsynthese, sowie Speichermedium | |
DE69128582T2 (de) | Methode zur Phonemunterscheidung | |
DE2021126C3 (de) | Spracherkennungs anordnung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |