JP4512846B2 - 音声素片選択装置および音声合成装置 - Google Patents
音声素片選択装置および音声合成装置 Download PDFInfo
- Publication number
- JP4512846B2 JP4512846B2 JP2004232297A JP2004232297A JP4512846B2 JP 4512846 B2 JP4512846 B2 JP 4512846B2 JP 2004232297 A JP2004232297 A JP 2004232297A JP 2004232297 A JP2004232297 A JP 2004232297A JP 4512846 B2 JP4512846 B2 JP 4512846B2
- Authority
- JP
- Japan
- Prior art keywords
- node
- speech
- speech unit
- search
- root node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
T.トダ他2名「知覚的評価に基づく、波形接続型音声合成における素片選択のための統合コスト関数の最適化」、EUROSPEECH予稿集、ジュネーブ、スイス、pp.297−300、2003年9月(T. Toda, H. Kawai, and M. Tsuzaki, "Optimizing Integrated Cost Function for Segment Selection in Concatenative Speech Synthesis Based on Perceptual Evaluations", Proc. EUROSPEECH, Geneva, Switzerland, pp. 297-300, Sep. 2003.) 戸田 智基、 河井 恒、津崎 実、「波形接続型音声合成における知覚的評価に基づく素片選択サブコスト関数の最適化」、信学技報、SP2003-81、pp.43−48、2003年8月 阿部匡伸、匂坂芳典、梅田哲夫、桑原尚夫:「研究用日本語音声データベース利用解説書(連続音声データ編)」、 TR-I-0166、 ATR 自動翻訳電話研究所、1990。
図1に、本実施の形態に係る音声合成装置36の概略ブロック図を示す。図1を参照して、この音声合成装置36は、音声合成の目標となるテキストを含む入力32を受け、それに対する音声波形からなる出力38を得るものであって、入力32を受け、音素、基本周波数、音声の継続時間長、各音声素片のMFCC(Mel Frequency Cepstrum Coefficient)のセントロイドなどを含む合成器指令を生成するためのテキスト処理部64と、多数の音声素片を記憶する音声素片データベース(DB)62と、テキスト処理部64から合成器指令を受け、後述するコスト計算と、深さ制限をしたビームサーチとによって、短遅延で合成器指令に適した音声素片系列を選択するための素片選択部66と、素片選択部66が選択した音声素片系列にしたがって音声素片DB62から音声素片を抽出し、合成器指令にしたがって加工および接続し出力38を生成するための接続部68とを含む。
第1の実施の形態では、探索木の探索に深さ制限を課したビームサーチを採用した。しかし、本発明はそのような実施の形態には限定されない。ビームサーチではなく、同じように深さ制限を課したDP(動的プログラミング)サーチを採用することもできる。第2の実施の形態に係る音声合成装置は深さ制限を課したDPサーチを採用したものである。
深さ制限を課したビームサーチおよびDPサーチを評価するために、ビーム幅および深さ制限を様々に変えて累積コストを算出した。この評価で合成に使用した発話コーパスは、一人の男性話者による450文の発話を収録したものである。この発話は、非特許文献3に記載の503文コーパスのセットAからセットIまでのものと同じものである。合成目標は、上記した503文コーパスのセットJの53文である。合成目標に関する情報は、同じ話者が発話したセットJの文から抽出した。データベース内の各音声素片は音素に対応する。音声素片の数は、無音をのぞいて23,632である。テスト文に含まれる音声素片の平均数は43.3であった。
Claims (7)
- 合成器指令に応答して、音声素片データベースから前記合成器指令によって定まるコスト関数が所定の条件を充足する音声素片系列を選択するための音声素片選択装置であって、
前記コスト関数は、時刻iにおけるコストが、時刻i−1までのコストと、時刻iにおける音声素片候補の特徴量とによって決定されるように定められ、前記装置は、
合成器指令の入力に応答して、ある時刻における前記音声素片系列を構成する音声素片として選択された音声素片に対応するノードを根ノード、および前記ある時刻より所定の時間だけ後の時刻における音声素片の候補に対応するノードを葉ノードとし、各ノードには、当該ノードに対応する音声素片までの音声素片系列の累積コストの値がそれぞれ関連付けられている、可能な音声素片の系列を表す探索木を決定するための手段と、
前記探索木が決定されたことに応答して、前記ある時刻および前記所定の時間だけ後の時刻に関連して予め定められる深さ制限を課したサーチ手法にしたがって、前記探索木をサーチすることにより、前記コストが所定の条件を充足する音声素片を選択して出力するとともに、前記探索木を更新するための探索手段とを含む、音声素片選択装置。 - 前記探索手段は、
前記葉ノードのうち、前記累積コストの値が所定の条件を充足するノードを決定するための葉ノード決定手段と、
前記根ノードの子ノードのうち、前記根ノードから前記所定の条件を充足するノードへの経路とは別の経路上に存在する子ノード、および前記別の経路上に存在する子ノードから分岐する全てのノードを前記探索木から削除するための第1のノード削除手段と、
前記根ノードから前記所定の条件を充足するノードへの経路上に存在する、前記根ノードの子ノードに対応する音声素片を、前記音声素片系列の、前記ある時刻に続く時刻における音声素片として選択し出力するための音声素片選択手段と、
前記根ノードから前記所定の条件を充足するノードへの経路上に存在する、前記根ノードの子ノードを新たな根ノードとして選択し、古い前記根ノードを前記探索木から削除するための根ノード選択手段と、
前記新たな根ノードから到達可能な前記葉ノードのうち、葉ノード数に対する所定の限定を充足するものと、前記新たな根ノードと、前記新たな根ノードから前記所定の限定を充足する葉ノードまでの経路上のノードとを残し、それ以外のノードを前記探索木から削除するための第2のノード削除手段と、
前記ある時刻から所定時間後の時刻における根ノードとして、前記新たな根ノードを前記葉ノード決定手段に与えるための手段とを含む、請求項1に記載の音声素片選択装置。 - 前記葉ノード決定手段は、前記葉ノードのうち、前記累積コストの値が最小のノードを決定するための手段を含む、請求項2に記載の音声素片選択装置。
- 前記第2のノード削除手段は、
前記新たな根ノードから到達可能な前記葉ノードのうち、対応する累積コストが小さいものから順に、かつ対応する音声素片が互いに異なる、予め定める上限個数以下の複数の葉ノードを決定するための手段と、
前記予め定める上限個数以下の複数の葉ノードと、前記新たな根ノードから前記予め定める上限個数以下の葉ノードまでの経路上のノードとを残し、それ以外のノードを前記探索木から削除するための手段を含む、請求項2に記載の音声素片選択装置。 - 前記探索手段は、予め定める深さ制限を課した、所定ビーム幅のDP(Dynamic Programming)サーチ手法にしたがって、前記探索木をサーチし更新することにより、逐次的に音声素片を選択して前記音声素片系列を出力するための手段を含む、請求項1に記載の音声素片選択装置。
- コンピュータにより実行されると、当該コンピュータを請求項1〜請求項5のいずれかに記載の音声素片選択装置として動作させる、コンピュータプログラム。
- 入力される合成目標のテキストを処理し、音声合成のための合成器指令を生成するためのテキスト処理手段と、
複数の音声素片を格納した音声素片データベースと、
前記テキスト処理手段が出力する前記合成器指令を入力として受けるように接続され、当該合成器指令に合致した音声素片を前記音声素片データベースから読み出すことにより音声素片系列を出力する、請求項1〜請求項5のいずれかに記載の音声素片選択装置と、
前記音声素片選択装置により出力された音声素片系列にしたがって前記音声素片データベースに記憶されている音声素片を順に接続することにより、前記合成目標のテキストに対応する音声波形を合成するための接続手段とを含む、音声合成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004232297A JP4512846B2 (ja) | 2004-08-09 | 2004-08-09 | 音声素片選択装置および音声合成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004232297A JP4512846B2 (ja) | 2004-08-09 | 2004-08-09 | 音声素片選択装置および音声合成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006047916A JP2006047916A (ja) | 2006-02-16 |
JP4512846B2 true JP4512846B2 (ja) | 2010-07-28 |
Family
ID=36026512
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004232297A Active JP4512846B2 (ja) | 2004-08-09 | 2004-08-09 | 音声素片選択装置および音声合成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4512846B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114925659B (zh) * | 2022-05-18 | 2023-04-28 | 电子科技大学 | 动态宽度最大化解码方法、文本生成方法及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1097290A (ja) * | 1996-09-24 | 1998-04-14 | Sanyo Electric Co Ltd | 音声合成装置 |
JP2000516749A (ja) * | 1997-06-26 | 2000-12-12 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 語構成源テキストを語構成目標テキストに翻訳する機械構成の方法及び装置 |
JP2001242884A (ja) * | 2000-02-28 | 2001-09-07 | Sony Corp | 音声認識装置および音声認識方法、並びに記録媒体 |
JP2002530703A (ja) * | 1998-11-13 | 2002-09-17 | ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ | 音声波形の連結を用いる音声合成 |
-
2004
- 2004-08-09 JP JP2004232297A patent/JP4512846B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1097290A (ja) * | 1996-09-24 | 1998-04-14 | Sanyo Electric Co Ltd | 音声合成装置 |
JP2000516749A (ja) * | 1997-06-26 | 2000-12-12 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 語構成源テキストを語構成目標テキストに翻訳する機械構成の方法及び装置 |
JP2002530703A (ja) * | 1998-11-13 | 2002-09-17 | ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ | 音声波形の連結を用いる音声合成 |
JP2001242884A (ja) * | 2000-02-28 | 2001-09-07 | Sony Corp | 音声認識装置および音声認識方法、並びに記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP2006047916A (ja) | 2006-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6266634B1 (en) | Method and apparatus for generating deterministic approximate weighted finite-state automata | |
US9275631B2 (en) | Speech synthesis system, speech synthesis program product, and speech synthesis method | |
US7869999B2 (en) | Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis | |
US5983180A (en) | Recognition of sequential data using finite state sequence models organized in a tree structure | |
US8412528B2 (en) | Back-end database reorganization for application-specific concatenative text-to-speech systems | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
JP2009169418A (ja) | フラグメントを使用した大規模なリストにおける音声認識 | |
JPH07219578A (ja) | 音声認識方法 | |
JP4406440B2 (ja) | 音声合成装置、音声合成方法及びプログラム | |
JPWO2008102710A1 (ja) | 音声合成装置及び方法とプログラム | |
JP4298672B2 (ja) | 混合分布hmmの状態の出力確率計算方法および装置 | |
JP4512846B2 (ja) | 音声素片選択装置および音声合成装置 | |
JP2008241970A (ja) | 話者適応装置、話者適応方法及び話者適応プログラム | |
JP4292191B2 (ja) | 素片接続型音声合成装置及びコンピュータプログラム | |
JP4586386B2 (ja) | 素片接続型音声合成装置及び方法 | |
JP6235922B2 (ja) | 重み付き有限状態オートマトン作成装置、記号列変換装置、音声認識装置、それらの方法、及びプログラム | |
JP4424024B2 (ja) | 素片接続型音声合成装置及び方法 | |
WO2008056604A1 (fr) | Système de collecte de son, procédé de collecte de son et programme de traitement de collecte | |
JP4478088B2 (ja) | 記号列変換方法、音声認識方法、記号列変換装置とプログラム、記録媒体 | |
US20110196672A1 (en) | Voice recognition device | |
JP5020763B2 (ja) | 音声合成のための決定木を生成する装置、方法及びプログラム | |
JP4167084B2 (ja) | 音声合成方法及び装置、並びに音声合成プログラム | |
JP3104900B2 (ja) | 音声認識方法 | |
JP4882569B2 (ja) | 音声合成装置、方法及びプログラム | |
JP3315565B2 (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070719 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100310 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100330 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100419 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4512846 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130521 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130521 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |