JP5449022B2 - 音声素片データベース作成装置、代替音声モデル作成装置、音声素片データベース作成方法、代替音声モデル作成方法、プログラム - Google Patents
音声素片データベース作成装置、代替音声モデル作成装置、音声素片データベース作成方法、代替音声モデル作成方法、プログラム Download PDFInfo
- Publication number
- JP5449022B2 JP5449022B2 JP2010112373A JP2010112373A JP5449022B2 JP 5449022 B2 JP5449022 B2 JP 5449022B2 JP 2010112373 A JP2010112373 A JP 2010112373A JP 2010112373 A JP2010112373 A JP 2010112373A JP 5449022 B2 JP5449022 B2 JP 5449022B2
- Authority
- JP
- Japan
- Prior art keywords
- diphone
- label
- phone
- missing
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
Claims (9)
- 音素区間長さごとに音素ラベルを付与された音声波形データから音声素片データベースを作成する音声素片データベース作成装置であって、
前記音声波形データを入力とし、任意の隣り合う二つの音素区間のうち先の音素区間の後半部と、後の音素区間の前半部とを連結してダイフォン区間とし、当該先の音素区間の音素ラベルと当該後の音素区間の音素ラベルとを連結してダイフォンラベルとし、当該ダイフォン区間と当該ダイフォンラベルとを対応付けて出力する音素−ダイフォン区間変換部と、
前記音声波形データと前記ダイフォンラベルと前記ダイフォン区間とを入力とし、前記音声波形データをダイフォン区間ごとに、一定のフレーム長ごとに音声パラメータに変換し、ダイフォン区間ごとの音声パラメータの列を音声パラメータ系列とし、当該音声パラメータ系列を当該ダイフォン区間と対応付けて出力する音声パラメータ系列変換部と、
前記音声パラメータ系列と前記ダイフォンラベルと前記ダイフォン区間とを入力とし、ダイフォン区間ごとに、ダイフォン区間に対応付けられた音声パラメータ系列のうちから1以上の音声パラメータを選択して代表パタンとし、当該代表パタンよりなる音声モデルを生成し、当該ダイフォン区間と対応付いたダイフォンラベルと、当該音声モデルとを対応付けて出力する音声モデル生成部と、
前記ダイフォンラベルと、定義済ダイフォンラベルリストとを入力とし、前記定義済ダイフォンラベルリストに存在するが、前記ダイフォンラベルとして入力されていないダイフォンラベルを欠落ダイフォンラベルとして出力する欠落ダイフォンラベル出力部と、
前記音声モデルと前記ダイフォンラベルとを入力とし、前記音声モデルを前半部と後半部に分割して双方をハーフフォンとし、当該分割された音声モデルと対応付いたダイフォンラベルの前半部をハーフフォンラベルとして、当該分割された音声モデルの前半部からなるハーフフォンと対応付けて出力し、当該分割された音声モデルと対応付いたダイフォンラベルの後半部をハーフフォンラベルとして、当該分割された音声モデルの後半部からなるハーフフォンと対応付けて出力するハーフフォン生成部と、
前記ハーフフォンと、前記ハーフフォンラベルとを入力とし、前記入力されたハーフフォンを予め用意された決定木に配置するハーフフォン配置手段と、
前記欠落ダイフォンラベルを記憶する欠落ダイフォンラベルリストと、
前記欠落ダイフォンラベルリストと、前記ハーフフォンを配置した決定木とを入力とし、全ての欠落ダイフォンラベルの前半部および後半部に対して、参照すべき決定木を確定し、それぞれを前半ハーフフォン決定木、後半ハーフフォン決定木として前記欠落ダイフォンラベルに対応付けて出力する決定木確定手段と、
前記欠落ダイフォンラベルリストと、前記前半ハーフフォン決定木と、前記後半ハーフフォン決定木とを入力とし、前記欠落ダイフォンラベルごとに、前記前半ハーフフォン決定木、前記後半ハーフフォン決定木から各1つずつ、半音素前後のコンテキストが合致したリーフノードに含まれるハーフフォンを連結対象として決定し、欠落ダイフォンラベルと対応付けて出力するハーフフォン選択手段と、
前記連結対象となるハーフフォンと、前記欠落ダイフォンラベルリストとを入力とし、前記欠落ダイフォンラベルごとに連結対象となるハーフフォンを連結して、代替音声モデルとして、前記欠落ダイフォンラベルと対応付けて出力するハーフフォン連結手段と、
を備えることを特徴とする音声素片データベース作成装置。 - 請求項1に記載の音声素片データベース作成装置であって、
前記ハーフフォン選択手段は、
任意の欠落ダイフォンラベルの前半部と同一のハーフフォンラベルと対応付いたハーフフォンと、当該欠落ダイフォンラベルの後半部と同一のハーフフォンラベルと対応付いたハーフフォンの、少なくともいずれか一方が複数存在する場合に、前記前半部のハーフフォンと、前記後半部のハーフフォンとのF0ギャップが最小となる組み合わせを当該欠落ダイフォンラベルの連結対象として選択することを特徴とする音声素片データベース作成装置。 - 請求項1に記載の音声素片データベース作成装置であって、
前記ハーフフォン選択手段は、
任意の欠落ダイフォンラベルの前半部と同一のハーフフォンラベルと対応付いたハーフフォンと、当該欠落ダイフォンラベルの後半部と同一のハーフフォンラベルと対応付いたハーフフォンの、少なくともいずれか一方が複数存在する場合に、前記前半部のハーフフォンと、前記後半部のハーフフォンを、予め定義されたF0値域で区切られた2以上のカテゴリに分類し、同一もしくは近接するカテゴリに分類された前記前半部のハーフフォンと前記後半部のハーフフォンとからなる組み合わせを当該欠落ダイフォンラベルの連結対象として選択することを特徴とする音声素片データベース作成装置。 - 請求項1から3の何れかに記載の音声素片データベース作成装置であって、
前記ハーフフォン選択手段は、
任意の欠落ダイフォンラベルの前半部と同一のハーフフォンラベルと対応付いたハーフフォン、もしくは任意の欠落ダイフォンラベルの後半部と同一のハーフフォンラベルと対応付いたハーフフォンが存在しない場合に、予め定義された音素間距離マトリクスが最小となるハーフフォンを、前記存在しないハーフフォンの替わりに当該欠落ダイフォンラベルの連結対象として選択することを特徴とする音声素片データベース作成装置。 - ダイフォンラベルを付与された音声モデルから、代替音声モデルを作成する代替音声モデル作成装置であって、
前記ダイフォンラベルと、定義済ダイフォンラベルリストとを入力とし、前記定義済ダイフォンラベルリストに存在するが、前記ダイフォンラベルとして入力されていないダイフォンラベルを欠落ダイフォンラベルとして出力する欠落ダイフォンラベル出力部と、
前記音声モデルと前記ダイフォンラベルとを入力とし、前記音声モデルを前半部と後半部に分割して双方をハーフフォンとし、当該分割された音声モデルと対応付いたダイフォンラベルの前半部をハーフフォンラベルとして、当該分割された音声モデルの前半部からなるハーフフォンと対応付けて出力し、当該分割された音声モデルと対応付いたダイフォンラベルの後半部をハーフフォンラベルとして、当該分割された音声モデルの後半部からなるハーフフォンと対応付けて出力するハーフフォン生成部と、
前記ハーフフォンと、前記ハーフフォンラベルとを入力とし、前記入力されたハーフフォンを予め用意された決定木に配置するハーフフォン配置手段と、
前記欠落ダイフォンラベルを記憶する欠落ダイフォンラベルリストと、
前記欠落ダイフォンラベルリストと、前記ハーフフォンを配置した決定木とを入力とし、全ての欠落ダイフォンラベルの前半部および後半部に対して、参照すべき決定木を確定し、それぞれを前半ハーフフォン決定木、後半ハーフフォン決定木として前記欠落ダイフォンラベルに対応付けて出力する決定木確定手段と、
前記欠落ダイフォンラベルリストと、前記前半ハーフフォン決定木と、前記後半ハーフフォン決定木とを入力とし、前記欠落ダイフォンラベルごとに、前記前半ハーフフォン決定木、前記後半ハーフフォン決定木から各1つずつ、半音素前後のコンテキストが合致したリーフノードに含まれるハーフフォンを連結対象として決定し、欠落ダイフォンラベルと対応付けて出力するハーフフォン選択手段と、
前記連結対象となるハーフフォンと、前記欠落ダイフォンラベルリストとを入力とし、前記欠落ダイフォンラベルごとに連結対象となるハーフフォンを連結して、代替音声モデルとして、前記欠落ダイフォンラベルと対応付けて出力するハーフフォン連結手段と、
を備えることを特徴とする代替音声モデル作成装置。 - 音素区間長さごとに音素ラベルを付与された音声波形データから音声素片データベースを作成する音声素片データベース作成方法であって、
前記音声波形データを入力とし、任意の隣り合う二つの音素区間のうち先の音素区間の後半部と、後の音素区間の前半部とを連結してダイフォン区間とし、当該先の音素区間の音素ラベルと当該後の音素区間の音素ラベルとを連結してダイフォンラベルとし、当該ダイフォン区間と当該ダイフォンラベルとを対応付けて出力する音素−ダイフォン区間変換ステップと、
前記音声波形データと前記ダイフォンラベルと前記ダイフォン区間とを入力とし、前記音声波形データをダイフォン区間ごとに、一定のフレーム長ごとに音声パラメータに変換してダイフォン区間ごとの音声パラメータの列を音声パラメータ系列とし、当該音声パラメータ系列を当該ダイフォン区間と対応付けて出力する音声パラメータ系列変換ステップと、
前記音声パラメータ系列と前記ダイフォンラベルと前記ダイフォン区間とを入力とし、ダイフォン区間ごとに、ダイフォン区間に対応付けられた音声パラメータ系列のうちから1以上の音声パラメータを選択して代表パタンとし、当該代表パタンよりなる音声モデルを生成し、当該ダイフォン区間と対応付いたダイフォンラベルと、当該音声モデルとを対応付けて出力する音声モデル生成ステップと、
前記ダイフォンラベルと、定義済ダイフォンラベルリストとを入力とし、前記定義済ダイフォンラベルリストに存在するが、前記ダイフォンラベルとして入力されていないダイフォンラベルを欠落ダイフォンラベルとして出力する欠落ダイフォンラベル出力ステップと、
前記音声モデルと前記ダイフォンラベルとを入力とし、前記音声モデルを前半部と後半部に分割して双方をハーフフォンとし、当該分割された音声モデルと対応付いたダイフォンラベルの前半部をハーフフォンラベルとして、当該分割された音声モデルの前半部からなるハーフフォンと対応付けて出力し、当該分割された音声モデルと対応付いたダイフォンラベルの後半部をハーフフォンラベルとして、当該分割された音声モデルの後半部からなるハーフフォンと対応付けて出力するハーフフォン生成ステップと、
前記ハーフフォンと、前記ハーフフォンラベルとを入力とし、前記入力されたハーフフォンを予め用意された決定木に配置するハーフフォン配置ステップと、
前記欠落ダイフォンラベルを記憶する欠落ダイフォンラベルリストと、前記ハーフフォンを配置した決定木とを入力とし、全ての欠落ダイフォンラベルの前半部および後半部に対して、参照すべき決定木を確定し、それぞれを前半ハーフフォン決定木、後半ハーフフォン決定木として前記欠落ダイフォンラベルに対応付けて出力する決定木確定ステップと、
前記欠落ダイフォンラベルリストと、前記前半ハーフフォン決定木と、前記後半ハーフフォン決定木とを入力とし、前記欠落ダイフォンラベルごとに、前記前半ハーフフォン決定木、前記後半ハーフフォン決定木から各1つずつ、半音素前後のコンテキストが合致したリーフノードに含まれるハーフフォンを連結対象として決定し、欠落ダイフォンラベルと対応付けて出力するハーフフォン選択ステップと、
前記連結対象となるハーフフォンと、前記欠落ダイフォンラベルリストとを入力とし、前記欠落ダイフォンラベルごとに連結対象となるハーフフォンを連結して、代替音声モデルとして、前記欠落ダイフォンラベルと対応付けて出力するハーフフォン連結ステップと、
を備えることを特徴とする音声素片データベース作成方法。 - ダイフォンラベルを付与された音声モデルから、代替音声素片データベースを作成する代替音声モデル作成方法であって、
前記ダイフォンラベルと、定義済ダイフォンラベルリストとを入力とし、前記定義済ダイフォンラベルリストに存在するが、前記ダイフォンラベルとして入力されていないダイフォンラベルを欠落ダイフォンラベルとして出力する欠落ダイフォンラベル出力ステップと、
前記音声モデルと前記ダイフォンラベルとを入力とし、前記音声モデルを前半部と後半部に分割して双方をハーフフォンとし、当該分割された音声モデルと対応付いたダイフォンラベルの前半部をハーフフォンラベルとして、当該分割された音声モデルの前半部からなるハーフフォンと対応付けて出力し、当該分割された音声モデルと対応付いたダイフォンラベルの後半部をハーフフォンラベルとして、当該分割された音声モデルの後半部からなるハーフフォンと対応付けて出力するハーフフォン生成ステップと、
前記ハーフフォンと、前記ハーフフォンラベルとを入力とし、前記入力されたハーフフォンを予め用意された決定木に配置するハーフフォン配置ステップと、
前記欠落ダイフォンラベルを記憶する欠落ダイフォンラベルリストと、前記ハーフフォンを配置した決定木とを入力とし、全ての欠落ダイフォンラベルの前半部および後半部に対して、参照すべき決定木を確定し、それぞれを前半ハーフフォン決定木、後半ハーフフォン決定木として前記欠落ダイフォンラベルに対応付けて出力する決定木確定ステップと、
前記欠落ダイフォンラベルリストと、前記前半ハーフフォン決定木と、前記後半ハーフフォン決定木とを入力とし、前記欠落ダイフォンラベルごとに、前記前半ハーフフォン決定木、前記後半ハーフフォン決定木から各1つずつ、半音素前後のコンテキストが合致したリーフノードに含まれるハーフフォンを連結対象として決定し、欠落ダイフォンラベルと対応付けて出力するハーフフォン選択ステップと、
前記連結対象となるハーフフォンと、前記欠落ダイフォンラベルリストとを入力とし、前記欠落ダイフォンラベルごとに連結対象となるハーフフォンを連結して、代替音声モデルとして、前記欠落ダイフォンラベルと対応付けて出力するハーフフォン連結ステップと、
を備えることを特徴とする代替音声モデル作成方法。 - コンピュータを、請求項1から4の何れかに記載の音声素片データベース作成装置として機能させるためのプログラム。
- コンピュータを、請求項5に記載の代替音声モデル作成装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010112373A JP5449022B2 (ja) | 2010-05-14 | 2010-05-14 | 音声素片データベース作成装置、代替音声モデル作成装置、音声素片データベース作成方法、代替音声モデル作成方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010112373A JP5449022B2 (ja) | 2010-05-14 | 2010-05-14 | 音声素片データベース作成装置、代替音声モデル作成装置、音声素片データベース作成方法、代替音声モデル作成方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011242465A JP2011242465A (ja) | 2011-12-01 |
JP5449022B2 true JP5449022B2 (ja) | 2014-03-19 |
Family
ID=45409212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010112373A Expired - Fee Related JP5449022B2 (ja) | 2010-05-14 | 2010-05-14 | 音声素片データベース作成装置、代替音声モデル作成装置、音声素片データベース作成方法、代替音声モデル作成方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5449022B2 (ja) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06167989A (ja) * | 1992-12-01 | 1994-06-14 | N T T Data Tsushin Kk | 音声合成装置 |
JP2000075878A (ja) * | 1998-08-31 | 2000-03-14 | Canon Inc | 音声合成装置およびその方法ならびに記憶媒体 |
JP2003208188A (ja) * | 2002-01-15 | 2003-07-25 | Advanced Telecommunication Research Institute International | 日本語テキスト音声合成方法 |
JP2004252316A (ja) * | 2003-02-21 | 2004-09-09 | Canon Inc | 情報処理装置および情報処理方法ならびにプログラム、記憶媒体 |
JP4328698B2 (ja) * | 2004-09-15 | 2009-09-09 | キヤノン株式会社 | 素片セット作成方法および装置 |
-
2010
- 2010-05-14 JP JP2010112373A patent/JP5449022B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011242465A (ja) | 2011-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11735162B2 (en) | Text-to-speech (TTS) processing | |
US8571871B1 (en) | Methods and systems for adaptation of synthetic speech in an environment | |
US20200410981A1 (en) | Text-to-speech (tts) processing | |
US7603278B2 (en) | Segment set creating method and apparatus | |
JP4025355B2 (ja) | 音声合成装置及び音声合成方法 | |
US7010488B2 (en) | System and method for compressing concatenative acoustic inventories for speech synthesis | |
JP3910628B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
JP6342428B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
US9978359B1 (en) | Iterative text-to-speech with user feedback | |
US20010056347A1 (en) | Feature-domain concatenative speech synthesis | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
US20040030555A1 (en) | System and method for concatenating acoustic contours for speech synthesis | |
US10699695B1 (en) | Text-to-speech (TTS) processing | |
Qian et al. | Improved prosody generation by maximizing joint probability of state and longer units | |
JP2016151736A (ja) | 音声加工装置、及びプログラム | |
JP2017167526A (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
Mullah | A comparative study of different text-to-speech synthesis techniques | |
KR102277205B1 (ko) | 오디오 변환 장치 및 방법 | |
JP5449022B2 (ja) | 音声素片データベース作成装置、代替音声モデル作成装置、音声素片データベース作成方法、代替音声モデル作成方法、プログラム | |
JP6314828B2 (ja) | 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム | |
Wen et al. | Prosody Conversion for Emotional Mandarin Speech Synthesis Using the Tone Nucleus Model. | |
Wang et al. | Emotional voice conversion for mandarin using tone nucleus model–small corpus and high efficiency | |
EP1589524B1 (en) | Method and device for speech synthesis | |
Huang et al. | Hierarchical prosodic pattern selection based on Fujisaki model for natural mandarin speech synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121004 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130610 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130618 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130729 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130822 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131008 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131112 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131217 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131224 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5449022 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |