JP4328698B2 - 素片セット作成方法および装置 - Google Patents
素片セット作成方法および装置 Download PDFInfo
- Publication number
- JP4328698B2 JP4328698B2 JP2004268714A JP2004268714A JP4328698B2 JP 4328698 B2 JP4328698 B2 JP 4328698B2 JP 2004268714 A JP2004268714 A JP 2004268714A JP 2004268714 A JP2004268714 A JP 2004268714A JP 4328698 B2 JP4328698 B2 JP 4328698B2
- Authority
- JP
- Japan
- Prior art keywords
- segment
- phoneme
- cluster
- clustering
- languages
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
Description
図1は、本実施形態における素片セット作成装置のハードウェア構成を示すブロック図である。この素片セット作成装置は典型的にはパーソナルコンピュータ等のコンピュータシステム(情報処理装置)によって実現されうる。
201は、入力装置105を介して入力されるデータを処理する入力処理部である。
202は、入力処理部201が受理した終了条件を保持する終了条件保持部である。
203は、現在の状況が終了条件を満たすか否かを判定する終了条件判定部である。
204は、更新前の素片セットに対して音韻環境を考慮したクラスタリングを行う音韻環境クラスタリング部である。
205は、音韻環境クラスタリング部205の結果から更新後の素片セットとして用いる代表素片を決定する代表素片決定部である。
206は、更新前の素片セットを保持する更新前素片セット保持部である。
207は、代表素片決定部205で決定された代表素片を新しい素片セットとして更新する素片セット更新部である。
208は、素片セット更新部207で更新された更新後の素片セットを保持する更新後素片セット保持部である。
上述の第1の実施形態は、各クラスタごとに、そのクラスタに属する素片集合からセントロイド素片を生成し(ステップS503)、これを代表素片とするものであった。一方、以下説明する第2の実施形態は、セントロイド素片を生成するかわりに、各クラスタごとに、そのクラスタに含まれる素片集合からそのクラスタに対する適合度が高い代表素片を選択するもの(代表素片選択法)である。
上述した第1および第2の実施形態では、トライフォンモデルに対して音韻環境を考慮したクラスタリングを行っていたが、本発明はこれに限定されるものではなく、更に詳細なクラスタリングを行ってもよい。具体的には、上述の実施形態1,2におけるステップS402の決定木作成において、トライフォンHMM全体に対して決定木を作成するのではなく、トライフォンHMMの各状態ごとに決定木を作成するようにしてもよい。なお、各状態ごとに異なる決定木を用いる場合には、音声素片を分割し、各状態に割り当てる必要がある。各状態への割り当てはいかなる方法を用いてもよいが、簡単には線形伸縮によって割り当てることができる。
上述の各実施形態は、明記はしなかったものの、基本的には素片セットが1話者であることを想定したものであった。しかし、本発明はこれに限らず、複数話者からなる素片セットに対しても適用が可能である。ただしこの場合には、音韻環境として話者を考慮する必要がある。具体的には、ステップS401において、話者依存のトライフォンモデルを作成し、音韻環境質問セット404に話者に関する質問を加え、ステップS402で話者情報も含んだ決定木を作成する。
上述した第4の実施形態では、音韻環境として話者を考慮することによって、複数話者の素片セットに対しても本発明を適用できることを示した。
上述の各実施形態は、明記はしなかったものの、基本的には素片セットが1言語であることを想定したものであった。しかし、本発明はこれに限らず、複数言語からなる素片セットに対しても適用が可能である。
上述の実施形態では、各クラスタに属する素片集合からセントロイド素片を生成する、あるいは、素片集合の中からクラスタに対する適合度が高い代表素片を選択する、ことによって代表素片を決定していた。すなわち、これらの方法においては、各クラスタ内の素片集合もしくはクラスタ統計量のみを用いて代表素片が決定されており、各クラスタが接続し得るクラスタ群もしくはそのクラスタ群に属する素片集合群に対する適合度が考慮されていない。しかし、これについては、以下の2通りの方法によって考慮することが可能となる。
これまで説明してきた各実施形態では、音韻環境にはトライフォンもしくは話者に関する情報を用いて説明したが、本発明はこれに限らず、他にも、音素や音節に関するもの(ダイフォンなど)、話者の性別(男性、女性)に関するもの、話者の年齢層(子供、学生、成人、高齢者など)に関するもの、話者の声質(明るい、暗いなど)に関するもの、話者の方言(関東方言、関西方言など)や言語(日本語、英語など)に関するもの、素片の韻律的特徴(基本周波数、継続時間長、パワーなど)に関するもの、素片の品質(SN比など)に関するもの、素片を収録した際の環境(収録場所やマイクロフォンなど)に関するものの任意の組み合わせに対しても適用可能である。
以上、本発明の実施形態を詳述したが、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。
Claims (3)
- 複数言語に対応可能な音声合成に使用される音声素片の集合である素片セットを作成する素片セット作成方法であって、
前記複数言語の言語別に定義された音素ラベルのセットを、前記複数言語に共通の音素ラベルのセットに変換するとともに、前記複数言語の言語別に定義された韻律ラベルのセットを、前記複数言語に共通の韻律ラベルのセットに変換する変換ステップと、
前記複数言語に共通の音素ラベル及び韻律ラベルを用いて記述された音韻環境と素片データの格納場所を示すアドレス情報と素片データとがそれぞれ対応付けられて記憶されている第1の素片セットに対して、前記音韻環境を考慮した決定木によるクラスタリングを行うクラスタリングステップと、
前記クラスタリングステップで得られた各クラスタごとに、そのクラスタに属する素片集合を用いてセントロイド素片を代表素片として生成する生成ステップであって、前記素片集合のピッチ周期数が最も多いもののうち素片の時間長が最も長いものをセントロイド素片のためのテンプレートとして選択し、前記クラスタに属する各素片を前記テンプレートのピッチ周期数及びピッチ周期長となるように変形し、変形された各素片とテンプレートとして選択された素片の各サンプルの平均を求めることによってセントロイド素片を生成する生成ステップと、
各クラスタごとに、そのクラスタ内の各音韻環境に対するアドレス情報を前記代表素片の格納場所を示すアドレス情報に変更するとともに、前記代表素片以外の素片データを前記第1の素片セットから削除することにより、前記第1の素片セットよりも素片数が削減された第2の素片セットを作成する作成ステップと、
を有することを特徴とする素片セット作成方法。 - 複数言語に対応可能な音声合成に使用される音声素片の集合である素片セットを作成する素片セット作成装置であって、
前記複数言語の言語別に定義された音素ラベルのセットを、前記複数言語に共通の音素ラベルのセットに変換するとともに、前記複数言語の言語別に定義された韻律ラベルのセットを、前記複数言語に共通の韻律ラベルのセットに変換する変換手段と、
前記複数言語に共通の音素ラベル及び韻律ラベルを用いて記述された音韻環境と素片データの格納場所を示すアドレス情報と素片データとがそれぞれ対応付けられて記憶されている第1の素片セットに対して、前記音韻環境を考慮した決定木によるクラスタリングを行うクラスタリング手段と、
前記クラスタリング手段で得られた各クラスタごとに、そのクラスタに属する素片集合を用いてセントロイド素片を代表素片として生成する生成手段であって、前記素片集合のピッチ周期数が最も多いもののうち素片の時間長が最も長いものをセントロイド素片のためのテンプレートとして選択し、前記クラスタに属する各素片を前記テンプレートのピッチ周期数及びピッチ周期長となるように変形し、変形された各素片とテンプレートとして選択された素片の各サンプルの平均を求めることによってセントロイド素片を生成する生成手段と、
各クラスタごとに、そのクラスタ内の各音韻環境に対するアドレス情報を前記代表素片の格納場所を示すアドレス情報に変更するとともに、前記代表素片以外の素片データを前記第1の素片セットから削除することにより、前記第1の素片セットよりも素片数が削減された第2の素片セットを作成する作成手段と、
を有することを特徴とする素片セット作成装置。 - 請求項1に記載の素片セット作成方法をコンピュータに実行させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004268714A JP4328698B2 (ja) | 2004-09-15 | 2004-09-15 | 素片セット作成方法および装置 |
US11/225,178 US7603278B2 (en) | 2004-09-15 | 2005-09-14 | Segment set creating method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004268714A JP4328698B2 (ja) | 2004-09-15 | 2004-09-15 | 素片セット作成方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006084715A JP2006084715A (ja) | 2006-03-30 |
JP4328698B2 true JP4328698B2 (ja) | 2009-09-09 |
Family
ID=36100358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004268714A Expired - Fee Related JP4328698B2 (ja) | 2004-09-15 | 2004-09-15 | 素片セット作成方法および装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7603278B2 (ja) |
JP (1) | JP4328698B2 (ja) |
Families Citing this family (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10223934B2 (en) | 2004-09-16 | 2019-03-05 | Lena Foundation | Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback |
US9355651B2 (en) | 2004-09-16 | 2016-05-31 | Lena Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
US9240188B2 (en) | 2004-09-16 | 2016-01-19 | Lena Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
US8412528B2 (en) * | 2005-06-21 | 2013-04-02 | Nuance Communications, Inc. | Back-end database reorganization for application-specific concatenative text-to-speech systems |
JP2007286198A (ja) * | 2006-04-13 | 2007-11-01 | Toyota Motor Corp | 音声合成出力装置 |
JP4241762B2 (ja) | 2006-05-18 | 2009-03-18 | 株式会社東芝 | 音声合成装置、その方法、及びプログラム |
US8386232B2 (en) * | 2006-06-01 | 2013-02-26 | Yahoo! Inc. | Predicting results for input data based on a model generated from clusters |
JP4878538B2 (ja) * | 2006-10-24 | 2012-02-15 | 株式会社日立製作所 | 音声合成装置 |
US20100167244A1 (en) * | 2007-01-08 | 2010-07-01 | Wei-Chou Su | Language teaching system of orientation phonetic symbols |
US20080195381A1 (en) * | 2007-02-09 | 2008-08-14 | Microsoft Corporation | Line Spectrum pair density modeling for speech applications |
WO2008102710A1 (ja) * | 2007-02-20 | 2008-08-28 | Nec Corporation | 音声合成装置及び方法とプログラム |
US9251782B2 (en) | 2007-03-21 | 2016-02-02 | Vivotext Ltd. | System and method for concatenate speech samples within an optimal crossing point |
BRPI0808289A2 (pt) * | 2007-03-21 | 2015-06-16 | Vivotext Ltd | "biblioteca de amostras de fala para transformar texto em falta e métodos e instrumentos para gerar e utilizar o mesmo" |
US20100311021A1 (en) * | 2007-10-03 | 2010-12-09 | Diane Joan Abello | Method of education and educational aids |
WO2009069596A1 (ja) * | 2007-11-28 | 2009-06-04 | Nec Corporation | 音声合成装置、音声合成方法及び音声合成プログラム |
JP5198046B2 (ja) * | 2007-12-07 | 2013-05-15 | 株式会社東芝 | 音声処理装置及びそのプログラム |
JP2009186820A (ja) * | 2008-02-07 | 2009-08-20 | Hitachi Ltd | 音声処理システム、音声処理プログラム及び音声処理方法 |
GB2458461A (en) * | 2008-03-17 | 2009-09-23 | Kai Yu | Spoken language learning system |
CN101727904B (zh) * | 2008-10-31 | 2013-04-24 | 国际商业机器公司 | 语音翻译方法和装置 |
US20100125459A1 (en) * | 2008-11-18 | 2010-05-20 | Nuance Communications, Inc. | Stochastic phoneme and accent generation using accent class |
WO2011059800A1 (en) * | 2009-10-29 | 2011-05-19 | Gadi Benmark Markovitch | System for conditioning a child to learn any language without an accent |
JP5320363B2 (ja) * | 2010-03-26 | 2013-10-23 | 株式会社東芝 | 音声編集方法、装置及び音声合成方法 |
JP5449022B2 (ja) * | 2010-05-14 | 2014-03-19 | 日本電信電話株式会社 | 音声素片データベース作成装置、代替音声モデル作成装置、音声素片データベース作成方法、代替音声モデル作成方法、プログラム |
US20110288860A1 (en) | 2010-05-20 | 2011-11-24 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair |
US9053697B2 (en) | 2010-06-01 | 2015-06-09 | Qualcomm Incorporated | Systems, methods, devices, apparatus, and computer program products for audio equalization |
US8731931B2 (en) * | 2010-06-18 | 2014-05-20 | At&T Intellectual Property I, L.P. | System and method for unit selection text-to-speech using a modified Viterbi approach |
JP5411837B2 (ja) * | 2010-11-26 | 2014-02-12 | 日本電信電話株式会社 | 音響モデル作成装置、音響モデル作成方法、及びそのプログラム |
US9037458B2 (en) | 2011-02-23 | 2015-05-19 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for spatially selective audio augmentation |
US20130006633A1 (en) * | 2011-07-01 | 2013-01-03 | Qualcomm Incorporated | Learning speech models for mobile device users |
US8751236B1 (en) * | 2013-10-23 | 2014-06-10 | Google Inc. | Devices and methods for speech unit reduction in text-to-speech synthesis systems |
JP6596924B2 (ja) * | 2014-05-29 | 2019-10-30 | 日本電気株式会社 | 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム |
US9792907B2 (en) | 2015-11-24 | 2017-10-17 | Intel IP Corporation | Low resource key phrase detection for wake on voice |
US9972313B2 (en) * | 2016-03-01 | 2018-05-15 | Intel Corporation | Intermediate scoring and rejection loopback for improved key phrase detection |
US10043521B2 (en) | 2016-07-01 | 2018-08-07 | Intel IP Corporation | User defined key phrase detection by user dependent sequence modeling |
US10083689B2 (en) * | 2016-12-23 | 2018-09-25 | Intel Corporation | Linear scoring for low power wake on voice |
US10872598B2 (en) * | 2017-02-24 | 2020-12-22 | Baidu Usa Llc | Systems and methods for real-time neural text-to-speech |
US10896669B2 (en) | 2017-05-19 | 2021-01-19 | Baidu Usa Llc | Systems and methods for multi-speaker neural text-to-speech |
WO2019113477A1 (en) | 2017-12-07 | 2019-06-13 | Lena Foundation | Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness |
US10714122B2 (en) | 2018-06-06 | 2020-07-14 | Intel Corporation | Speech classification of audio for wake on voice |
US10650807B2 (en) | 2018-09-18 | 2020-05-12 | Intel Corporation | Method and system of neural network keyphrase detection |
US11127394B2 (en) | 2019-03-29 | 2021-09-21 | Intel Corporation | Method and system of high accuracy keyphrase detection for low resource devices |
CN110085209B (zh) * | 2019-04-11 | 2021-07-23 | 广州多益网络股份有限公司 | 一种音色筛选方法及装置 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4214125A (en) * | 1977-01-21 | 1980-07-22 | Forrest S. Mozer | Method and apparatus for speech synthesizing |
CA1261472A (en) * | 1985-09-26 | 1989-09-26 | Yoshinao Shiraki | Reference speech pattern generating method |
JP2583074B2 (ja) | 1987-09-18 | 1997-02-19 | 日本電信電話株式会社 | 音声合成方法 |
US5689618A (en) * | 1991-02-19 | 1997-11-18 | Bright Star Technology, Inc. | Advanced tools for speech synchronized animation |
US5278942A (en) * | 1991-12-05 | 1994-01-11 | International Business Machines Corporation | Speech coding apparatus having speaker dependent prototypes generated from nonuser reference data |
JP2782147B2 (ja) * | 1993-03-10 | 1998-07-30 | 日本電信電話株式会社 | 波形編集型音声合成装置 |
JPH08263520A (ja) | 1995-03-24 | 1996-10-11 | N T T Data Tsushin Kk | 音声ファイル構成方式及び方法 |
JP3275940B2 (ja) | 1995-09-26 | 2002-04-22 | 日本電信電話株式会社 | 音声合成用合成単位作成方法 |
US6240384B1 (en) * | 1995-12-04 | 2001-05-29 | Kabushiki Kaisha Toshiba | Speech synthesis method |
JPH09281993A (ja) | 1996-04-11 | 1997-10-31 | Matsushita Electric Ind Co Ltd | 発音記号生成装置 |
JP3884856B2 (ja) | 1998-03-09 | 2007-02-21 | キヤノン株式会社 | 音声合成用データ作成装置、音声合成装置及びそれらの方法、コンピュータ可読メモリ |
US6411932B1 (en) * | 1998-06-12 | 2002-06-25 | Texas Instruments Incorporated | Rule-based learning of word pronunciations from training corpora |
US6036496A (en) * | 1998-10-07 | 2000-03-14 | Scientific Learning Corporation | Universal screen for language learning impaired subjects |
US6912499B1 (en) * | 1999-08-31 | 2005-06-28 | Nortel Networks Limited | Method and apparatus for training a multilingual speech model set |
JP2001092481A (ja) | 1999-09-24 | 2001-04-06 | Sanyo Electric Co Ltd | 規則音声合成方法 |
JP4632384B2 (ja) | 2000-03-31 | 2011-02-16 | キヤノン株式会社 | 音声情報処理装置及びその方法と記憶媒体 |
DE10042944C2 (de) * | 2000-08-31 | 2003-03-13 | Siemens Ag | Graphem-Phonem-Konvertierung |
US7043431B2 (en) * | 2001-08-31 | 2006-05-09 | Nokia Corporation | Multilingual speech recognition system using text derived recognition models |
US6985861B2 (en) * | 2001-12-12 | 2006-01-10 | Hewlett-Packard Development Company, L.P. | Systems and methods for combining subword recognition and whole word recognition of a spoken input |
JP4064748B2 (ja) | 2002-07-22 | 2008-03-19 | アルパイン株式会社 | 音声発生装置、音声発生方法及びナビゲーション装置 |
JP2004252316A (ja) | 2003-02-21 | 2004-09-09 | Canon Inc | 情報処理装置および情報処理方法ならびにプログラム、記憶媒体 |
-
2004
- 2004-09-15 JP JP2004268714A patent/JP4328698B2/ja not_active Expired - Fee Related
-
2005
- 2005-09-14 US US11/225,178 patent/US7603278B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20060069566A1 (en) | 2006-03-30 |
US7603278B2 (en) | 2009-10-13 |
JP2006084715A (ja) | 2006-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4328698B2 (ja) | 素片セット作成方法および装置 | |
US8571871B1 (en) | Methods and systems for adaptation of synthetic speech in an environment | |
US20230058658A1 (en) | Text-to-speech (tts) processing | |
Tokuda et al. | An HMM-based speech synthesis system applied to English | |
US7418389B2 (en) | Defining atom units between phone and syllable for TTS systems | |
US20200410981A1 (en) | Text-to-speech (tts) processing | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
US9484012B2 (en) | Speech synthesis dictionary generation apparatus, speech synthesis dictionary generation method and computer program product | |
JP3910628B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
CN1167307A (zh) | 用于语音合成的运行时声频单元选择方法和系统 | |
JP2002530703A (ja) | 音声波形の連結を用いる音声合成 | |
WO2012164835A1 (ja) | 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム | |
Panda et al. | An efficient model for text-to-speech synthesis in Indian languages | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP2016151736A (ja) | 音声加工装置、及びプログラム | |
JP4247289B1 (ja) | 音声合成装置、音声合成方法およびそのプログラム | |
JP3281281B2 (ja) | 音声合成方法及び装置 | |
JP6523423B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP2011197124A (ja) | データ作成システム及びプログラム | |
EP1589524B1 (en) | Method and device for speech synthesis | |
JP3091426B2 (ja) | 自然発話音声波形信号接続型音声合成装置 | |
JP6137708B2 (ja) | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP6314828B2 (ja) | 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム | |
EP1640968A1 (en) | Method and device for speech synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080925 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081010 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090310 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090605 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090615 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120619 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120619 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130619 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |