JP2000509157A - 音響要素・データベースを有する音声合成装置 - Google Patents
音響要素・データベースを有する音声合成装置Info
- Publication number
- JP2000509157A JP2000509157A JP9509316A JP50931697A JP2000509157A JP 2000509157 A JP2000509157 A JP 2000509157A JP 9509316 A JP9509316 A JP 9509316A JP 50931697 A JP50931697 A JP 50931697A JP 2000509157 A JP2000509157 A JP 2000509157A
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- area
- trajectory
- cell
- phonetic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
Abstract
Description
Claims (1)
- 【特許請求の範囲】 1. 合成音声を連結するための音響要素を持つ、音響要素・データベースを含む 合成音声を発生する方法であって、該音響要素・データベースが、 音声信号の間隔内に発生する、複数の音標文字のシーケンス内に含まれる、 特定の音標文字のセグメントに対応する、少なくとも一つの音素に対して、 各軌道が、特定の音標文字のセグメントを含む、各音標文字のシーケンスの 少なくとも一部の音響特性を表す場合に、許容領域と交差する異なる音素のシー ケンスに対応する、音標文字のシーケンスの軌道の連結に基づいて、表示空間内 での上記許容領域の相対的な位置を決定する段階と、 上記許容領域に対する時点の近接度に基づいて、対応する軌道に沿った各時 点での音標文字のシーケンスの分離点を識別することによって、音標文字のシー ケンスから、音響要素を形成する段階により形成される方法。 2. 請求の範囲第1項に記載の方法において、音響要素が、選択された音標文字 のシーケンスの一部から形成される場合に、上記許容領域への対応する軌道の近 接度に基づいて、特定の音素のシーケンスに対応する部分を持つ、複数の音標文 字のシーケンスから、少なくとも一つの音標文字のシーケンスを選択する段階を さらに含む方法。 3. 請求の範囲第1項に記載の方法において、音響要素を形成する段階が、上記 許容領域にほぼ最も近いか、またはその内に含まれる対応する軌道に沿った各時 点において、各音標文字のシーケン スの分離点を識別する方法。 4. 請求の範囲第3項に記載の方法において、音響要素を形成する段階が、上記 許容領域にほぼ最も近いか、またはその内に含まれる対応する軌道に沿った各時 点において、各音標文字のシーケンスの分離点を識別する方法。 5. 請求の範囲第1項に記載の方法において、音響要素が、特定の言語に対する 各予測音素のシーケンスに対して形成される方法。 6. 請求の範囲第1項に記載の方法において、軌道が、音標文字のシーケンスの フォルマントに基く方法。 7. 請求の範囲第1項に記載の方法において、上記軌跡が、三つのフォルマント 表現に基き、上記表示空間が、三つのフォルマント空間である方法。 8. 請求の範囲第1項に記載の方法において、表示空間が、複数の隣接するN次 元のセルを含むN次元の空間であり、上記許容領域を決定する段階が、さらに異 なる音素のシーケンスに対応する実質的に最大の数の軌道と交差する、少なくと も一つのセルの領域を決定するために、グリッド・サーチの実行を含む方法。 9. 請求の範囲第1項に記載の方法において、表示空間が、複数の隣接するN次 元のセルを含むN次元の空間であって、上記許容領域を決定する段階が、 各軌道に沿った時点を囲む分解領域内に存在する上記セルの識別と、 上記分解領域内の識別された各セルに対して、上記識別が、そのセルに対す るリスト内に含まれていない場合には、上記軌道に対応する音素のシーケンスの 識別と一緒に、そのセルに対して維 持されているリストの更新と、 そのリスト上の識別の平均の数値より大きい数値を持つ、少なくとも一つの セルに対応する許容領域の決定とを含む方法。 10.請求の範囲第9項に記載の方法において、分解領域内のこれらのセルを識別 する段階が、上記軌道沿いの時点の処理と、対応する分解領域内のセルに関連す るリストの更新とを含む方法。 11.請求の範囲第9項に記載の方法において、上記分解領域および上記許容領域 が、同じ大きさである方法。 12.請求の範囲第1項に記載の方法において、表示空間が、複数の隣接するN次 元のセルを含むN次元の空間であって、上記許容領域を決定する段階が、 各軌道に沿った時点を囲む分解領域内に存在する上記セルの識別と、 上記分解領域内の識別された各セルに対して、上記軌道に対応する音素のシ ーケンスの識別と一緒に、そのセルに対して維持されているリストの更新と、 各セル・リストからの複数の識別の除去と、 そのリスト上の識別の平均の数値より大きい数値を持つ、少なくとも一つの セルに対応する許容領域の決定とを含む方法。 13.請求の範囲第12項に記載の方法において、分解領域内のこれらのセルを識 別する段階が、上記軌道沿いの時点の処理と、対応する分解領域内のセルに関連 するリストの更新とを含む方法。 14.請求の範囲第12項に記載の方法において、上記分解領域および上記許容領 域が、同じ大きさである方法。 15.請求の範囲第1項に記載の方法において、複数の音標文字の シーケンスの少なくとも二つの音標文字のシーケンスが、特定の音素のシーケン スに対応する部分を持ち、さらに、特定の音素のシーケンスに対する音響要素が 、決定した数値に基づいて、上記音標文字のシーケンスの対応する部分の一つか ら形成される場合に、上記許容領域への対応する軌道の近接度に基づいて、音標 文宇のシーケンスの各セクションに対する数値を決定する段階を含む方法。 16.請求の範囲第15項に記載の方法において、数値を決定する段階が、さらに 対応する音標文字のシーケンスの音質の測定値に基く方法。 17.請求の範囲第16項に記載の方法において、上記音質の測定値が、異なる境 界音素に対応する音標文字のシーケンスに対する許容領域への軌道の近接度から 決定される方法。 18.音声信号の間隔内に発生する複数の音標文字のシーケンスに含まれる、特定 の音標文字のセグメントに対応する少なくとも一つの音素に対して、 各軌道が、特定の音標文字のセグメントを含む、各音標文字のシーケンスの 少なくとも一部の音響特性を表す場合に、許容領域と交差する異なる音素のシー ケンスに対応する、音標文字のシーケンスの軌道の連結に基づいて、表示空間内 での上記許容領域の相対的な位置を決定する段階と、 上記許容領域に対する時点の近接度に基づいて、対応する軌道に沿った各時 点での音標文字のシーケンス内の分離点を識別することによって、音標文字のシ ーケンスから音響要素を形成する段階により形成された、合成音声を連結するた めの音響要素を持つ 音響要素・データベースを含む合成音声を発生する装置。 19.請求の範囲第18項に記載の装置において、表示空間が、複数の隣接するN 次元のセルを含むN次元の空間であって、上記許容領域を決定する段階が、各軌 道に沿った時点を囲む分解領域内に存在する上記セルの識別と、 上記分解領域内の識別された各セルに対して、上記識別がそのセルに対する リストに含まれていない場合には、上記軌道に対応する音素のシーケンスの識別 と一緒に、そのセルに対して維持されているリストの更新と、 そのリスト上の識別の平均の数値より大きい数値を持つ、少なくとも一つの セルに対応する許容領域の決定とを含む装置。 20.請求の範囲第19項に記載の装置において、分解領域内のこれらのセルを識 別する段階が、上記軌道沿いの時点の処理と、対応する分解領域内のセルに関連 するリストの更新とを含む装置。 21.請求の範囲第18項に記載の装置において、上記表示空間が、複数の隣接す るN次元のセルを含むN次元の空間であって、上記許容領域を決定する段階が、 各軌道に沿った時点を囲む分解領域内に存在する上記セルの識別と、 上記分解領域内の識別された各セルに対して、上記軌道に対応する音素のシ ーケンスの識別と一緒に、そのセルに対して維持されているリストの更新と、 各セル・リストからの複数の識別の除去と、 そのリスト上の識別の平均の数値より大きい数値を持つ、少なくとも一つの セルに対応する許容領域の決定とを含む装置。 22.請求の範囲第21項に記載の装置において、分解領域内のこれ らのセルを識別する段階が、上記軌道沿いの時点の処理と、対応する分解領域内 のセルに関連するリストの更新とを含む装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/515,887 | 1995-08-16 | ||
US08/515,887 US5751907A (en) | 1995-08-16 | 1995-08-16 | Speech synthesizer having an acoustic element database |
PCT/US1996/012628 WO1997007500A1 (en) | 1995-08-16 | 1996-08-02 | Speech synthesizer having an acoustic element database |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000509157A true JP2000509157A (ja) | 2000-07-18 |
JP3340748B2 JP3340748B2 (ja) | 2002-11-05 |
Family
ID=24053185
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP50931697A Expired - Fee Related JP3340748B2 (ja) | 1995-08-16 | 1996-08-02 | 音響要素・データベースを有する音声合成装置 |
Country Status (10)
Country | Link |
---|---|
US (1) | US5751907A (ja) |
EP (1) | EP0845139B1 (ja) |
JP (1) | JP3340748B2 (ja) |
AU (1) | AU6645096A (ja) |
BR (1) | BR9612624A (ja) |
CA (1) | CA2222582C (ja) |
DE (1) | DE69627865T2 (ja) |
MX (1) | MX9801086A (ja) |
TW (1) | TW305990B (ja) |
WO (1) | WO1997007500A1 (ja) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7251314B2 (en) * | 1994-10-18 | 2007-07-31 | Lucent Technologies | Voice message transfer between a sender and a receiver |
JP3349905B2 (ja) * | 1996-12-10 | 2002-11-25 | 松下電器産業株式会社 | 音声合成方法および装置 |
JP2000075878A (ja) * | 1998-08-31 | 2000-03-14 | Canon Inc | 音声合成装置およびその方法ならびに記憶媒体 |
US6202049B1 (en) | 1999-03-09 | 2001-03-13 | Matsushita Electric Industrial Co., Ltd. | Identification of unit overlap regions for concatenative speech synthesis system |
US6178402B1 (en) * | 1999-04-29 | 2001-01-23 | Motorola, Inc. | Method, apparatus and system for generating acoustic parameters in a text-to-speech system using a neural network |
US7369994B1 (en) | 1999-04-30 | 2008-05-06 | At&T Corp. | Methods and apparatus for rapid acoustic unit selection from a large speech corpus |
US6618699B1 (en) | 1999-08-30 | 2003-09-09 | Lucent Technologies Inc. | Formant tracking based on phoneme information |
US7149690B2 (en) | 1999-09-09 | 2006-12-12 | Lucent Technologies Inc. | Method and apparatus for interactive language instruction |
US6725190B1 (en) * | 1999-11-02 | 2004-04-20 | International Business Machines Corporation | Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US7725307B2 (en) * | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US9076448B2 (en) * | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7050977B1 (en) | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US7400712B2 (en) * | 2001-01-18 | 2008-07-15 | Lucent Technologies Inc. | Network provided information using text-to-speech and speech recognition and text or speech activated network control sequences for complimentary feature access |
US6625576B2 (en) | 2001-01-29 | 2003-09-23 | Lucent Technologies Inc. | Method and apparatus for performing text-to-speech conversion in a client/server environment |
US7010488B2 (en) * | 2002-05-09 | 2006-03-07 | Oregon Health & Science University | System and method for compressing concatenative acoustic inventories for speech synthesis |
US20040030555A1 (en) * | 2002-08-12 | 2004-02-12 | Oregon Health & Science University | System and method for concatenating acoustic contours for speech synthesis |
US7542903B2 (en) | 2004-02-18 | 2009-06-02 | Fuji Xerox Co., Ltd. | Systems and methods for determining predictive models of discourse functions |
US20050187772A1 (en) * | 2004-02-25 | 2005-08-25 | Fuji Xerox Co., Ltd. | Systems and methods for synthesizing speech using discourse function level prosodic features |
JP4878538B2 (ja) * | 2006-10-24 | 2012-02-15 | 株式会社日立製作所 | 音声合成装置 |
US8103506B1 (en) * | 2007-09-20 | 2012-01-24 | United Services Automobile Association | Free text matching system and method |
JP2011180416A (ja) * | 2010-03-02 | 2011-09-15 | Denso Corp | 音声合成装置、音声合成方法およびカーナビゲーションシステム |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3704345A (en) * | 1971-03-19 | 1972-11-28 | Bell Telephone Labor Inc | Conversion of printed text into synthetic speech |
BG24190A1 (en) * | 1976-09-08 | 1978-01-10 | Antonov | Method of synthesis of speech and device for effecting same |
US4692941A (en) * | 1984-04-10 | 1987-09-08 | First Byte | Real-time text-to-speech conversion system |
US4831654A (en) * | 1985-09-09 | 1989-05-16 | Wang Laboratories, Inc. | Apparatus for making and editing dictionary entries in a text to speech conversion system |
WO1987002816A1 (en) * | 1985-10-30 | 1987-05-07 | Central Institute For The Deaf | Speech processing apparatus and methods |
US4820059A (en) * | 1985-10-30 | 1989-04-11 | Central Institute For The Deaf | Speech processing apparatus and methods |
US4829580A (en) * | 1986-03-26 | 1989-05-09 | Telephone And Telegraph Company, At&T Bell Laboratories | Text analysis system with letter sequence recognition and speech stress assignment arrangement |
GB2207027B (en) * | 1987-07-15 | 1992-01-08 | Matsushita Electric Works Ltd | Voice encoding and composing system |
US4979216A (en) * | 1989-02-17 | 1990-12-18 | Malsheen Bathsheba J | Text to speech synthesis system and method using context dependent vowel allophones |
JPH031200A (ja) * | 1989-05-29 | 1991-01-07 | Nec Corp | 規則型音声合成装置 |
US5235669A (en) * | 1990-06-29 | 1993-08-10 | At&T Laboratories | Low-delay code-excited linear-predictive coding of wideband speech at 32 kbits/sec |
US5283833A (en) * | 1991-09-19 | 1994-02-01 | At&T Bell Laboratories | Method and apparatus for speech processing using morphology and rhyming |
JPH05181491A (ja) * | 1991-12-30 | 1993-07-23 | Sony Corp | 音声合成装置 |
US5490234A (en) * | 1993-01-21 | 1996-02-06 | Apple Computer, Inc. | Waveform blending technique for text-to-speech system |
-
1995
- 1995-08-16 US US08/515,887 patent/US5751907A/en not_active Expired - Lifetime
-
1996
- 1996-08-02 BR BR9612624-8A patent/BR9612624A/pt not_active Application Discontinuation
- 1996-08-02 WO PCT/US1996/012628 patent/WO1997007500A1/en active IP Right Grant
- 1996-08-02 MX MX9801086A patent/MX9801086A/es not_active IP Right Cessation
- 1996-08-02 CA CA002222582A patent/CA2222582C/en not_active Expired - Fee Related
- 1996-08-02 AU AU66450/96A patent/AU6645096A/en not_active Abandoned
- 1996-08-02 JP JP50931697A patent/JP3340748B2/ja not_active Expired - Fee Related
- 1996-08-02 EP EP96926228A patent/EP0845139B1/en not_active Expired - Lifetime
- 1996-08-02 DE DE69627865T patent/DE69627865T2/de not_active Expired - Lifetime
- 1996-08-13 TW TW085109787A patent/TW305990B/zh not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
DE69627865D1 (de) | 2003-06-05 |
DE69627865T2 (de) | 2004-02-19 |
AU6645096A (en) | 1997-03-12 |
WO1997007500A1 (en) | 1997-02-27 |
CA2222582C (en) | 2001-09-11 |
CA2222582A1 (en) | 1997-02-27 |
US5751907A (en) | 1998-05-12 |
TW305990B (ja) | 1997-05-21 |
EP0845139A4 (en) | 1999-10-20 |
MX9801086A (es) | 1998-04-30 |
BR9612624A (pt) | 2000-05-23 |
JP3340748B2 (ja) | 2002-11-05 |
EP0845139A1 (en) | 1998-06-03 |
EP0845139B1 (en) | 2003-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2000509157A (ja) | 音響要素・データベースを有する音声合成装置 | |
CA2351842C (en) | Synthesis-based pre-selection of suitable units for concatenative speech | |
EP1138038B1 (en) | Speech synthesis using concatenation of speech waveforms | |
Black et al. | Generating F/sub 0/contours from ToBI labels using linear regression | |
US6778962B1 (en) | Speech synthesis with prosodic model data and accent type | |
US6684187B1 (en) | Method and system for preselection of suitable units for concatenative speech | |
US5905972A (en) | Prosodic databases holding fundamental frequency templates for use in speech synthesis | |
JP3910628B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
EP2462586B1 (en) | A method of speech synthesis | |
JPH10171484A (ja) | 音声合成方法および装置 | |
JP3346671B2 (ja) | 音声素片選択方法および音声合成装置 | |
US20070219799A1 (en) | Text to speech synthesis system using syllables as concatenative units | |
JPH08335096A (ja) | テキスト音声合成装置 | |
JP2004354644A (ja) | 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体 | |
EP1589524B1 (en) | Method and device for speech synthesis | |
Bruce et al. | On the analysis of prosody in interaction | |
EP1640968A1 (en) | Method and device for speech synthesis | |
Leontiev et al. | Improving the Quality of Speech Synthesis Using Semi-Syllabic Synthesis | |
Eady et al. | Pitch assignment rules for speech synthesis by word concatenation | |
EP1501075B1 (en) | Speech synthesis using concatenation of speech waveforms | |
JPH11305787A (ja) | 音声合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080816 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090816 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100816 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110816 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110816 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120816 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120816 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130816 Year of fee payment: 11 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |