JP3881970B2 - 知覚試験用音声データセット作成装置、コンピュータプログラム、音声合成用サブコスト関数の最適化装置、及び音声合成装置 - Google Patents
知覚試験用音声データセット作成装置、コンピュータプログラム、音声合成用サブコスト関数の最適化装置、及び音声合成装置 Download PDFInfo
- Publication number
- JP3881970B2 JP3881970B2 JP2003280402A JP2003280402A JP3881970B2 JP 3881970 B2 JP3881970 B2 JP 3881970B2 JP 2003280402 A JP2003280402 A JP 2003280402A JP 2003280402 A JP2003280402 A JP 2003280402A JP 3881970 B2 JP3881970 B2 JP 3881970B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- cost function
- sub
- data
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Description
‐構成‐
以下、本発明の一実施の形態について図を参照して説明する。図1は、本実施の形態に係る音声合成システムの全体構成を示す。図1を参照して、このシステムは、音声コーパス20と、音声コーパス20に含まれる発話音声データと知覚評価とに基づいて、コスト関数24を構成する複数のサブコスト関数と知覚評価とをマッピングし、コスト関数24を決定するためのサブコスト関数決定部22と、サブコスト関数決定部22により決定されたコスト関数24を用いて入力テキスト30に対して音声コーパス20から音素波形素片を選択し接続する事により出力音声波形36を合成するための音声合成装置34とを含む。
以上の構成を持つシステムは以下の様に動作する。予め、図1及び図2に示す音声コーパス20は準備されているものとする。図2を参照して、単位素片置換部40は次の様にして置換後音声コーパス42を作成する。すなわち単位素片置換部40は、音声コーパス20の中の任意の一つの発話音声データを選択し、ターゲットとする。ターゲットに含まれる全ての単位素片について、音声コーパス20中の他の発話音声データに含まれる同じ音素を含む単位素片で置換する事により、単位素片置換後の1又は複数の発話音声データを作成し、置換後音声コーパス42に記憶させる。また、それらの単位素片置換後の発話音声データを特徴量・特徴量統計算出部44にも与える。
Claims (7)
- それぞれ単位波形素片に分離可能な複数の発話音声データを含む音声コーパスから、発話音声データの、所定の複数種類の特徴量の各々について算出されるサブコストを統合して得られるコスト計算によって選択した発話単位を接続して音声を合成する際の、前記複数種類の特徴量のうちの予め定める第1の種類の特徴量と、前記所定の複数種類の特徴量を用いたコスト計算により合成された音声の自然さに対する人間による知覚評価との間のマッピングを行なう際に使用される知覚試験用音声データセットを作成するための知覚試験用音声データセット作成装置であって、
前記音声コーパスに含まれる発話音声データの各々について、任意の単位波形素片を、前記音声コーパスに含まれる発話音声データが持つ、前記任意の単位波形素片と同じ音素を含む単位波形素片で置換する事により、単位波形素片が置換された置換後の発話音声データの集合を作成するための手段と、
前記置換後の発話音声データの各々について、前記複数種類の特徴量を算出するための特徴量算出手段と、
前記特徴量算出手段により算出された前記複数種類の特徴量に基づき、前記第1の種類の特徴量の変動があるしきい値以上であり、かつ前記複数種類の特徴量のうち、前記第1の種類の特徴量以外の特徴量の変動がいずれもあるしきい値未満であるような発話音声データの集合を、前記置換後の発話音声データの集合から抽出するための手段とを含む、知覚試験用音声データセット作成装置。 - 前記置換後の発話音声データの集合を作成するための手段は、
前記音声コーパスに含まれる発話音声データの各々について、
当該発話音声データに含まれる任意の単位波形素片を選択するための手段と、
前記選択するための手段により選択された単位波形素片と同じ音素を含む単位波形素片を含む、別の発話音声データを前記音声コーパスの中で特定するための手段と、
前記特定するための手段により特定された前記別の発話音声データに含まれる、前記選択された単位波形素片と同じ音素を含む単位波形素片で、前記選択された単位波形素片を置換するための手段と、
前記置換するための手段による置換が行なわれた発話音声データを予め定める記憶媒体に記憶させるための手段とを含み、
前記記憶媒体に記憶される発話音声データにより前記知覚試験用音声データセットが形成される、請求項1に記載の知覚試験用音声データセット作成装置。 - コンピュータにより実行されると、当該コンピュータを請求項1又は請求項2に記載の知覚試験用音声データセット作成装置として動作させる、コンピュータプログラム。
- 請求項1又は請求項2に記載の知覚試験用音声データセット作成装置により作成される知覚試験用音声データセットに含まれる発話音声データによる音声と、音声コーパス中の、前記発話音声データを作成する基になった発話音声データによる音声とを対比して被験者に提示し、前記知覚試験用音声データセットに含まれる発話音声データによる音声の自然さに関する被験者による評価点の入力を受けるための手段と、
前記評価点を受けるための手段により得られた評価点を、前記知覚試験用音声データセットに含まれる発話音声データから算出される前記第1の種類の特徴量に対してプロットして得られた点列との間の自乗誤差の和を最小化する様に、前記第1の種類の特徴量から音声の自然さに対する知覚評価へのマッピング関数を最適化するための手段とを含む、音声合成用サブコスト関数の最適化装置。 - コンピュータにより実行されると、請求項4に記載の音声合成用サブコスト関数の最適化装置として当該コンピュータを動作させる、コンピュータプログラム。
- 請求項4に記載の音声合成用サブコスト関数の最適化装置と、
前記サブコスト関数の最適化装置により最適化されるサブコスト関数を含んで定義されるコスト関数を用いて、入力音声テキストの音素に対する波形を音声コーパスから選択し接続する事により出力音声波形を合成するための音声合成手段とを含む、音声合成装置。 - コンピュータにより実行されると、請求項6に記載の音声合成装置として当該コンピュータを動作させる、コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003280402A JP3881970B2 (ja) | 2003-07-25 | 2003-07-25 | 知覚試験用音声データセット作成装置、コンピュータプログラム、音声合成用サブコスト関数の最適化装置、及び音声合成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003280402A JP3881970B2 (ja) | 2003-07-25 | 2003-07-25 | 知覚試験用音声データセット作成装置、コンピュータプログラム、音声合成用サブコスト関数の最適化装置、及び音声合成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005043828A JP2005043828A (ja) | 2005-02-17 |
JP3881970B2 true JP3881970B2 (ja) | 2007-02-14 |
Family
ID=34266241
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003280402A Expired - Lifetime JP3881970B2 (ja) | 2003-07-25 | 2003-07-25 | 知覚試験用音声データセット作成装置、コンピュータプログラム、音声合成用サブコスト関数の最適化装置、及び音声合成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3881970B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5062178B2 (ja) * | 2006-11-06 | 2012-10-31 | 日本電気株式会社 | 音声収録システム、音声収録方法、および収録処理プログラム |
JP5275102B2 (ja) | 2009-03-25 | 2013-08-28 | 株式会社東芝 | 音声合成装置及び音声合成方法 |
-
2003
- 2003-07-25 JP JP2003280402A patent/JP3881970B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2005043828A (ja) | 2005-02-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10347238B2 (en) | Text-based insertion and replacement in audio narration | |
US9905220B2 (en) | Multilingual prosody generation | |
US6684187B1 (en) | Method and system for preselection of suitable units for concatenative speech | |
US4979216A (en) | Text to speech synthesis system and method using context dependent vowel allophones | |
US5740320A (en) | Text-to-speech synthesis by concatenation using or modifying clustered phoneme waveforms on basis of cluster parameter centroids | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
US9196240B2 (en) | Automated text to speech voice development | |
US8380508B2 (en) | Local and remote feedback loop for speech synthesis | |
JP2003150187A (ja) | スムージングフィルタを用いた音声合成システム及びその方法並びにスムージングフィルタ特性制御装置及びその方法 | |
CN103778912A (zh) | 引导式说话人自适应语音合成的系统与方法及程序产品 | |
CN104835493A (zh) | 语音合成字典生成装置和语音合成字典生成方法 | |
EP4266306A1 (en) | A speech processing system and a method of processing a speech signal | |
US20110246200A1 (en) | Pre-saved data compression for tts concatenation cost | |
JP2012141354A (ja) | 音声合成方法、音声合成装置及び音声合成プログラム | |
CN105719640A (zh) | 声音合成装置及声音合成方法 | |
JPWO2016103652A1 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
JP6330069B2 (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
JP4247289B1 (ja) | 音声合成装置、音声合成方法およびそのプログラム | |
JP3881970B2 (ja) | 知覚試験用音声データセット作成装置、コンピュータプログラム、音声合成用サブコスト関数の最適化装置、及び音声合成装置 | |
Zarazaga et al. | Speaker-independent neural formant synthesis | |
JP4424024B2 (ja) | 素片接続型音声合成装置及び方法 | |
JP4150645B2 (ja) | 音声ラベリングエラー検出装置、音声ラベリングエラー検出方法及びプログラム | |
EP1589524B1 (en) | Method and device for speech synthesis | |
JP5245962B2 (ja) | 音声合成装置、音声合成方法、プログラム及び記録媒体 | |
JP3881971B2 (ja) | 声質差評価テーブル作成装置、音声コーパスの声質差評価テーブル作成システム、及び音声合成システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060613 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060801 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060928 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20061024 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061113 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 3881970 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101117 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101117 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111117 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121117 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121117 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131117 Year of fee payment: 7 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |