JPH0713594A - 音声合成において音声の質を評価するための方法 - Google Patents
音声合成において音声の質を評価するための方法Info
- Publication number
- JPH0713594A JPH0713594A JP6143909A JP14390994A JPH0713594A JP H0713594 A JPH0713594 A JP H0713594A JP 6143909 A JP6143909 A JP 6143909A JP 14390994 A JP14390994 A JP 14390994A JP H0713594 A JPH0713594 A JP H0713594A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- voice
- recognition
- received
- quality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 7
- 230000015572 biosynthetic process Effects 0.000 title claims description 4
- 238000003786 synthesis reaction Methods 0.000 title claims description 4
- 238000011156 evaluation Methods 0.000 title description 3
- 241000282414 Homo sapiens Species 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 238000012937 correction Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Monitoring And Testing Of Exchanges (AREA)
- Monitoring And Testing Of Transmission In General (AREA)
Abstract
(57)【要約】
【目的】音声合成装置における音声の質の分析に関する
問題を解決する。 【構成】音声認識システムが多数の人間を用いてプログ
ラムされる。音声認識システムはさらに、それぞれ異な
る音声の質を表す音声合成装置および人間から、合成さ
れた音声または自然の音声を受け取り、受け取った音声
のそれぞれに対する認識レベルを決定する。音声合成装
置からの評価されるべき音声が、前記音声認識システム
によって受け取られ、1つの認識レベルを割り当てら
れ、前に受け取られた音声に対する認識レベルとの比較
によって順位づけられる。
問題を解決する。 【構成】音声認識システムが多数の人間を用いてプログ
ラムされる。音声認識システムはさらに、それぞれ異な
る音声の質を表す音声合成装置および人間から、合成さ
れた音声または自然の音声を受け取り、受け取った音声
のそれぞれに対する認識レベルを決定する。音声合成装
置からの評価されるべき音声が、前記音声認識システム
によって受け取られ、1つの認識レベルを割り当てら
れ、前に受け取られた音声に対する認識レベルとの比較
によって順位づけられる。
Description
【0001】
【発明の分野】本発明は、音声合成において音声の質を
評価するための方法に関する。本発明は、特に、音声合
成装置、すなわちテキスト/音声変換装置から音声メッ
セージを受け取り、分析することができる装置において
使用することを意図している。本発明によれば、音声認
識システムにおいて受け取られた音声の認識レベルがそ
の質によって順位づけられ得る。
評価するための方法に関する。本発明は、特に、音声合
成装置、すなわちテキスト/音声変換装置から音声メッ
セージを受け取り、分析することができる装置において
使用することを意図している。本発明によれば、音声認
識システムにおいて受け取られた音声の認識レベルがそ
の質によって順位づけられ得る。
【0002】
【従来の技術】音声認識およびテキスト/音声変換は、
それ自体既に知られた技術である。米国特許第5,12
7,055号には、参照パターンの適合による音声認識
の方法および装置が記載されている。米国特許第5,1
27,055号に記載の装置によれば、マイクロフォン
のような音声入力装置から、データ処理ユニットに音声
信号が入力される。データ処理ユニットは、入力された
音声信号をディジタル化し、処理し、分析し、入力され
た音声を参照パターン記憶メモリに記憶されている参照
パターンと比較する。データ処理ユニットは、入力され
た音声の同一性に関する最適の評価を行い、その評価を
表す信号をディスプレイ端末装置のような出力装置に送
る。メモリに記憶される参照パターンは音声の発声を表
しており、各参照パターンは、入力される音声を認識す
るに際しての当該パターンの有効性を表す、関係する質
値を有している。またユーザーによって音声認識に対す
る補正操作がなされる。補正操作において、音声が認識
されたときに、最適の候補に対して選択され得るいくつ
かの候補がユーザーに示され、ユーザーは最適の候補以
外のものを削除することによってエラーを補正し得る。
質値は、音声認識の間に、使用される参照パターンの少
なくとも1部分に対して更新される。入力される音声と
正確に一致する発声を伴う参照パターンの質値は増大せ
しめられ、入力される音声と一致しない発声を伴う参照
パターンの質値は減少せしめられる。低い質値をもつ参
照パターンは、一定条件下において削除され得る。認識
補正操作に応答して、音声認識の間に、既に記憶されて
いる参照パターンに新たな参照パターンが加えられ、加
えられた参照パターンは、入力される新たな未知の音声
の認識に際して用いられる。
それ自体既に知られた技術である。米国特許第5,12
7,055号には、参照パターンの適合による音声認識
の方法および装置が記載されている。米国特許第5,1
27,055号に記載の装置によれば、マイクロフォン
のような音声入力装置から、データ処理ユニットに音声
信号が入力される。データ処理ユニットは、入力された
音声信号をディジタル化し、処理し、分析し、入力され
た音声を参照パターン記憶メモリに記憶されている参照
パターンと比較する。データ処理ユニットは、入力され
た音声の同一性に関する最適の評価を行い、その評価を
表す信号をディスプレイ端末装置のような出力装置に送
る。メモリに記憶される参照パターンは音声の発声を表
しており、各参照パターンは、入力される音声を認識す
るに際しての当該パターンの有効性を表す、関係する質
値を有している。またユーザーによって音声認識に対す
る補正操作がなされる。補正操作において、音声が認識
されたときに、最適の候補に対して選択され得るいくつ
かの候補がユーザーに示され、ユーザーは最適の候補以
外のものを削除することによってエラーを補正し得る。
質値は、音声認識の間に、使用される参照パターンの少
なくとも1部分に対して更新される。入力される音声と
正確に一致する発声を伴う参照パターンの質値は増大せ
しめられ、入力される音声と一致しない発声を伴う参照
パターンの質値は減少せしめられる。低い質値をもつ参
照パターンは、一定条件下において削除され得る。認識
補正操作に応答して、音声認識の間に、既に記憶されて
いる参照パターンに新たな参照パターンが加えられ、加
えられた参照パターンは、入力される新たな未知の音声
の認識に際して用いられる。
【0003】米国特許第4,692,941号には、テ
キスト/音声変換装置が記載されている。米国特許第
4,692,941号に記載のテキスト/音声変換装置
によれば、プログラム可能なフレーズメモリ、光学読取
機、キーボードまたはコンピュータのプリンタアウトプ
ット等のテキストソースが、音声に変換されるべきテキ
ストを与える。テキストは、単語および/または数字、
並びに句読点を含む文章からなる通常の形式を備えてい
る。この情報は、発音システムに送られる。発音システ
ムはテキストを分析し、一連の音素コードおよび韻律学
的指標を出力する。これらのコードおよび指標は、音声
発声合成装置に送られ、音声発声合成装置は、一連のデ
ィジタル信号を出力する。これらのディジタル信号は、
ディジタル/アナログコンバータに送られ、ディジタル
/アナログコンバータは、これらの信号を、ラウドスピ
ーカの駆動に適したアナログ音声信号に変換する。
キスト/音声変換装置が記載されている。米国特許第
4,692,941号に記載のテキスト/音声変換装置
によれば、プログラム可能なフレーズメモリ、光学読取
機、キーボードまたはコンピュータのプリンタアウトプ
ット等のテキストソースが、音声に変換されるべきテキ
ストを与える。テキストは、単語および/または数字、
並びに句読点を含む文章からなる通常の形式を備えてい
る。この情報は、発音システムに送られる。発音システ
ムはテキストを分析し、一連の音素コードおよび韻律学
的指標を出力する。これらのコードおよび指標は、音声
発声合成装置に送られ、音声発声合成装置は、一連のデ
ィジタル信号を出力する。これらのディジタル信号は、
ディジタル/アナログコンバータに送られ、ディジタル
/アナログコンバータは、これらの信号を、ラウドスピ
ーカの駆動に適したアナログ音声信号に変換する。
【0004】本発明は、音声合成装置における音声の質
の分析に関する問題を新規な方法によって解決するもの
である。
の分析に関する問題を新規な方法によって解決するもの
である。
【0005】
【発明の要約】上記の課題を解決すべく、本発明によれ
ば、音声認識システムが多数の人間を用いてプログラム
される。音声認識システムはさらに、それぞれ異なる音
声の質を表す音声合成装置および人間から、合成された
音声または自然の音声を受け取り、受け取った音声のそ
れぞれに対する認識レベルを決定する。音声合成装置か
らの評価されるべき音声が音声認識システムによって受
け取られ、1つの認識レベルを割り当てられ、前に受け
取られた音声に対する認識レベルとの比較によって順位
づけられる。
ば、音声認識システムが多数の人間を用いてプログラム
される。音声認識システムはさらに、それぞれ異なる音
声の質を表す音声合成装置および人間から、合成された
音声または自然の音声を受け取り、受け取った音声のそ
れぞれに対する認識レベルを決定する。音声合成装置か
らの評価されるべき音声が音声認識システムによって受
け取られ、1つの認識レベルを割り当てられ、前に受け
取られた音声に対する認識レベルとの比較によって順位
づけられる。
【0006】
【好ましい実施例の詳細な説明】以下、添付図面を参照
しながら本発明の好ましい実施例について説明する。本
発明は、特に音声合成装置から、音声メッセージを受け
取って分析する音声認識システムにおける応用を意図し
ている。
しながら本発明の好ましい実施例について説明する。本
発明は、特に音声合成装置から、音声メッセージを受け
取って分析する音声認識システムにおける応用を意図し
ている。
【0007】音声認識システムは、まず最初、音声を認
識できるようにすべくプログラムされなければならな
い。多数の人間からの音声が、音声認識システムが音声
を認識するようにプログラムするために用いられる。プ
ログラミンググループからの音声に対する認識レベル
は、結果として100%である。その後、音声認識シス
テムが一般的な音声とともに使用されるときには、非常
に高いレベルまで受け取った音声を認識することができ
る。
識できるようにすべくプログラムされなければならな
い。多数の人間からの音声が、音声認識システムが音声
を認識するようにプログラムするために用いられる。プ
ログラミンググループからの音声に対する認識レベル
は、結果として100%である。その後、音声認識シス
テムが一般的な音声とともに使用されるときには、非常
に高いレベルまで受け取った音声を認識することができ
る。
【0008】受け取られた音声に対する質の測定を行う
ために、音声認識システムは、音声認識システムをプロ
グラムするために用いられた音声以外の、人間および音
声合成装置からの音声を受け取らなければならない。異
なるソースから発生せしめられる音声からの音声の質
は、それに関係する認識レベルに依存して一定の音声の
質値を割り当てられ得る。この集合的なデータは、例え
ば別の音声合成装置における音声の質の評価のために使
用され得る。
ために、音声認識システムは、音声認識システムをプロ
グラムするために用いられた音声以外の、人間および音
声合成装置からの音声を受け取らなければならない。異
なるソースから発生せしめられる音声からの音声の質
は、それに関係する認識レベルに依存して一定の音声の
質値を割り当てられ得る。この集合的なデータは、例え
ば別の音声合成装置における音声の質の評価のために使
用され得る。
【0009】音声合成装置において音声の質を評価する
ために、音声は音声合成装置から音声認識システムに送
られる。音声認識システムは音声を分析し、受け取られ
た音声に対して認識レベルを割り当てる。この認識レベ
ルは、その後、音声認識システムによって前に受け取ら
れた音声と比較され、順位づけられ得る。こうして、判
定、すなわち、それが前にテストされた音声合成装置お
よび人間よりも良いが、それ以外のものより悪いという
ような判定が、問題の音声合成装置における音声の質に
関して直接与えられ得る。
ために、音声は音声合成装置から音声認識システムに送
られる。音声認識システムは音声を分析し、受け取られ
た音声に対して認識レベルを割り当てる。この認識レベ
ルは、その後、音声認識システムによって前に受け取ら
れた音声と比較され、順位づけられ得る。こうして、判
定、すなわち、それが前にテストされた音声合成装置お
よび人間よりも良いが、それ以外のものより悪いという
ような判定が、問題の音声合成装置における音声の質に
関して直接与えられ得る。
【図1】本発明の1実施例を説明する概略図である。
Claims (1)
- 【請求項1】 音声合成において音声の質を評価するた
めの方法であって、 音声認識システムが、多数の人間を用いてプログラムさ
れ、それぞれ異なる音声の質を表す音声合成装置および
人間から、合成された音声または自然の音声を受け取
り、前記受け取った音声のそれぞれに対する認識レベル
を決定し、音声合成装置からの評価されるべき音声が前
記音声認識システムによって受け取られた後1つの認識
レベルを割り当てられ、前に受け取られた音声に対する
認識レベルとの比較によって順位づけられることを特徴
とする方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SE9301886-9 | 1993-06-02 | ||
SE9301886A SE9301886L (sv) | 1993-06-02 | 1993-06-02 | Förfarande för utvärdering av talkvalitet vid talsyntes |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0713594A true JPH0713594A (ja) | 1995-01-17 |
Family
ID=20390140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP6143909A Pending JPH0713594A (ja) | 1993-06-02 | 1994-06-01 | 音声合成において音声の質を評価するための方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US5664050A (ja) |
EP (1) | EP0627727B1 (ja) |
JP (1) | JPH0713594A (ja) |
DE (1) | DE69413880T2 (ja) |
ES (1) | ES2123745T3 (ja) |
SE (1) | SE9301886L (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109147761A (zh) * | 2018-08-09 | 2019-01-04 | 北京易诚高科科技发展有限公司 | 一种基于批量语音识别和tts文本合成的测试方法 |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE517836C2 (sv) * | 1995-02-14 | 2002-07-23 | Telia Ab | Metod och anordning för fastställande av talkvalitet |
NL9500512A (nl) * | 1995-03-15 | 1996-10-01 | Nederland Ptt | Inrichting voor het bepalen van de kwaliteit van een door een signaalbewerkingscircuit te genereren uitgangssignaal, alsmede werkwijze voor het bepalen van de kwaliteit van een door een signaalbewerkingscircuit te genereren uitgangssignaal. |
US6594307B1 (en) | 1996-12-13 | 2003-07-15 | Koninklijke Kpn N.V. | Device and method for signal quality determination |
US6401066B1 (en) | 1999-11-09 | 2002-06-04 | West Teleservices Holding Company | Automated third party verification system |
US7206746B1 (en) | 1999-11-09 | 2007-04-17 | West Corporation | Third party verification system |
US7130800B1 (en) | 2001-09-20 | 2006-10-31 | West Corporation | Third party verification system |
US8180643B1 (en) | 2001-02-15 | 2012-05-15 | West Corporation | Script compliance using speech recognition and compilation and transmission of voice and text records to clients |
US7664641B1 (en) | 2001-02-15 | 2010-02-16 | West Corporation | Script compliance and quality assurance based on speech recognition and duration of interaction |
US7966187B1 (en) | 2001-02-15 | 2011-06-21 | West Corporation | Script compliance and quality assurance using speech recognition |
US7191133B1 (en) | 2001-02-15 | 2007-03-13 | West Corporation | Script compliance using speech recognition |
US7739115B1 (en) | 2001-02-15 | 2010-06-15 | West Corporation | Script compliance and agent feedback |
US7403967B1 (en) | 2002-06-18 | 2008-07-22 | West Corporation | Methods, apparatus, and computer readable media for confirmation and verification of shipping address data associated with a transaction |
US7346151B2 (en) * | 2003-06-24 | 2008-03-18 | Avaya Technology Corp. | Method and apparatus for validating agreement between textual and spoken representations of words |
US6930759B2 (en) * | 2003-09-23 | 2005-08-16 | Eastman Kodak Company | Method and apparatus for exposing a latent watermark on film |
TWI294618B (en) * | 2006-03-30 | 2008-03-11 | Ind Tech Res Inst | Method for speech quality degradation estimation and method for degradation measures calculation and apparatuses thereof |
US20080154605A1 (en) * | 2006-12-21 | 2008-06-26 | International Business Machines Corporation | Adaptive quality adjustments for speech synthesis in a real-time speech processing system based upon load |
JP5238205B2 (ja) * | 2007-09-07 | 2013-07-17 | ニュアンス コミュニケーションズ,インコーポレイテッド | 音声合成システム、プログラム及び方法 |
FR2932920A1 (fr) * | 2008-06-19 | 2009-12-25 | Archean Technologies | Procede et appareil de mesure de l'intelligibilite d'un dispositif de diffusion sonore |
US8447603B2 (en) * | 2009-12-16 | 2013-05-21 | International Business Machines Corporation | Rating speech naturalness of speech utterances based on a plurality of human testers |
US20130080172A1 (en) * | 2011-09-22 | 2013-03-28 | General Motors Llc | Objective evaluation of synthesized speech attributes |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5359695A (en) * | 1984-01-30 | 1994-10-25 | Canon Kabushiki Kaisha | Speech perception apparatus |
US4692941A (en) * | 1984-04-10 | 1987-09-08 | First Byte | Real-time text-to-speech conversion system |
US4860360A (en) * | 1987-04-06 | 1989-08-22 | Gte Laboratories Incorporated | Method of evaluating speech |
JP2793213B2 (ja) * | 1988-12-29 | 1998-09-03 | 株式会社東芝 | 音声認識装置及びこれを用いた電話機 |
US5127055A (en) * | 1988-12-30 | 1992-06-30 | Kurzweil Applied Intelligence, Inc. | Speech recognition apparatus & method having dynamic reference pattern adaptation |
-
1993
- 1993-06-02 SE SE9301886A patent/SE9301886L/xx not_active Application Discontinuation
-
1994
- 1994-05-13 ES ES94850081T patent/ES2123745T3/es not_active Expired - Lifetime
- 1994-05-13 EP EP94850081A patent/EP0627727B1/en not_active Expired - Lifetime
- 1994-05-13 DE DE69413880T patent/DE69413880T2/de not_active Expired - Fee Related
- 1994-06-01 JP JP6143909A patent/JPH0713594A/ja active Pending
-
1996
- 1996-03-21 US US08/622,039 patent/US5664050A/en not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109147761A (zh) * | 2018-08-09 | 2019-01-04 | 北京易诚高科科技发展有限公司 | 一种基于批量语音识别和tts文本合成的测试方法 |
Also Published As
Publication number | Publication date |
---|---|
DE69413880D1 (de) | 1998-11-19 |
DE69413880T2 (de) | 1999-03-18 |
EP0627727B1 (en) | 1998-10-14 |
EP0627727A1 (en) | 1994-12-07 |
ES2123745T3 (es) | 1999-01-16 |
US5664050A (en) | 1997-09-02 |
SE9301886L (sv) | 1994-12-03 |
SE9301886D0 (sv) | 1993-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH0713594A (ja) | 音声合成において音声の質を評価するための方法 | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
CA2351988C (en) | Method and system for preselection of suitable units for concatenative speech | |
US6778962B1 (en) | Speech synthesis with prosodic model data and accent type | |
US5949961A (en) | Word syllabification in speech synthesis system | |
US20200082805A1 (en) | System and method for speech synthesis | |
US6553342B1 (en) | Tone based speech recognition | |
EP1213705A2 (en) | Method and apparatus for speech synthesis without prosody modification | |
WO2005034082A1 (en) | Method for synthesizing speech | |
EP0109190A1 (en) | Monosyllable recognition apparatus | |
KR19990008459A (ko) | 개선된 신뢰도의 단어 인식방법 및 단어 인식기 | |
US7054814B2 (en) | Method and apparatus of selecting segments for speech synthesis by way of speech segment recognition | |
US6963834B2 (en) | Method of speech recognition using empirically determined word candidates | |
JP3346671B2 (ja) | 音声素片選択方法および音声合成装置 | |
JP2010117528A (ja) | 声質変化判定装置、声質変化判定方法、声質変化判定プログラム | |
JP3378547B2 (ja) | 音声認識方法及び装置 | |
JPH09179578A (ja) | 単音節認識装置 | |
JP3503862B2 (ja) | 音声認識方法及び音声認識プログラムを格納した記録媒体 | |
JP2003108170A (ja) | 音声合成学習方法および音声合成学習装置 | |
JP2003108180A (ja) | 音声合成方法および音声合成装置 | |
JPH03217900A (ja) | テキスト音声合成装置 | |
KR960001950B1 (ko) | 음성인식방법 및 그 장치 | |
JP2507374B2 (ja) | 音声合成装置 | |
JPH0635913A (ja) | 文章読み上げ装置 | |
JPH08110790A (ja) | 音声認識装置 |