JP4292191B2 - 素片接続型音声合成装置及びコンピュータプログラム - Google Patents
素片接続型音声合成装置及びコンピュータプログラム Download PDFInfo
- Publication number
- JP4292191B2 JP4292191B2 JP2006057304A JP2006057304A JP4292191B2 JP 4292191 B2 JP4292191 B2 JP 4292191B2 JP 2006057304 A JP2006057304 A JP 2006057304A JP 2006057304 A JP2006057304 A JP 2006057304A JP 4292191 B2 JP4292191 B2 JP 4292191B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- unit
- target
- segment
- synthesis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004590 computer program Methods 0.000 title claims description 7
- 230000015572 biosynthetic process Effects 0.000 claims description 70
- 238000003786 synthesis reaction Methods 0.000 claims description 70
- 238000000034 method Methods 0.000 description 31
- 238000004364 calculation method Methods 0.000 description 27
- 238000012545 processing Methods 0.000 description 26
- 230000008569 process Effects 0.000 description 20
- 238000004458 analytical method Methods 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000010187 selection method Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000003292 diminished effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Description
図1に、本実施の形態に係る音声合成装置30のブロック図を示す。図1を参照して、音声合成装置30は、入力テキスト32が与えられると、当該テキストの出力音声波形34という形で音声合成を行なうためのものである。
(2)分割によって、少なくとも一方のノードの予備選択幅予測値が、分割前の予測値に対して10%以上変化する事
(3)回帰木60の深さが30段を超えない事
図4に示す予測回帰木作成部150は、このクラスタリングを行なうためのものである。図5に、予測回帰木作成部150の機能をコンピュータ及びコンピュータプログラムで実現する場合のコンピュータプログラムの制御構造をフローチャート形式で示す。図5を参照して、この処理では、最初にステップ170で素片選択データ144(図4参照)を準備する。具体的には、素片選択データ144を格納したファイルをオープンする。以後、このファイルから読出された素片選択データ144の個々のデータを「サンプル」と呼ぶ。ステップ174では、質問データを準備する。具体的には、質問データを格納したファイルをオープンする。以後、クラスタリング処理が開始される。
上記した音声合成装置30は以下の様に動作する。音声合成装置30の動作に先立ち、音声合成装置30で使用する回帰木60(図2参照)を作成する必要がある。従って、最初に図4及び図5を参照して回帰木60の動作を説明する。
次のテーブル1に、回帰木60の作成において、様々な制限値Cminを設定した場合のクラスタリングの結果、及びテストセットの予備選択幅を推定した場合の結果を示す。テーブル1において、Nは回帰木60のノード数、「mean」及び「RMSE」はそれぞれ、予測結果の平均値及び二乗平均平方根誤差、(A)は予測誤り率(必要な予備選択幅より小さく予測した割合)、(B)は予測誤り箇所のRMSEである。RMSEの値が全体に大きな値となっているのは、予測値と予備選択順位との差を評価したためである。
32 入力テキスト
34 出力音声波形
40 テキスト処理部
42 合成パラメータ生成部
44 素片選択部
46 波形接続部
48 素片候補数予測部
50 素片候補予備選択部
52 素片DB
100 素片抽出部
102 ターゲットコスト算出部
104 順位比較部
142 素片選択データ作成部
150 予測回帰木作成部
Claims (4)
- 多数の音声素片データを格納した音声素片データベースとともに用いられる素片接続型音声合成装置であって、
合成ターゲットが与えられると、当該合成ターゲットを構成する各ターゲット音素のコンテキストに基づいて、音声合成において各ターゲット音素の合成に用いられるべき候補として予備選択されるべき音声素片データの数を予測するための素片候補数予測手段と、
合成ターゲットが与えられると、当該合成ターゲットを構成する各ターゲット音素について、当該ターゲット音素と前記音声素片データベース中の音声素片データの各々との間に算出されるターゲットコストに基づいて、前記音声素片データベース中から、前記素片候補数予測手段により予測された数と所定の関係にある数の音声素片データを、前記各ターゲットの音声合成のために予備的に選択するための素片候補予備選択手段と、
合成ターゲットを構成する各ターゲット音素について、前記素片候補予備選択手段により予備的に選択された音声素片データの各々との間に算出されるターゲットコスト及び接続コストに基づいて、音声合成に用いるべき音声素片データを選択するための素片選択手段と、
前記素片選択手段により選択された音声素片データの音声波形を前記合成ターゲットに従って接続するための波形接続手段とを含む、音声合成装置。 - 前記素片候補数予測手段は、
各ターゲット音素のコンテキストに基づいて、音声合成において各ターゲット音素の合成に用いられるべき候補として予備選択されるべき音声素片データの数を、予め準備された回帰木を用いて予測するための回帰木による予測手段を含み、
当該回帰木は、一つのルートノードと、複数の葉ノードと、前記ルートノードと前記葉ノードとの間に存在する複数の中間ノードとを含み、
前記ルートノードと前記複数の中間ノードとの各々には、ターゲット音素のコンテキストに関する所定の条件が割当てられており、かつ当該所定の条件が充足されるか否かによって、前記ルートノードと前記複数の中間ノードとの各々から枝分かれする枝のいずれをたどるべきかが予め定められており、
前記複数の葉ノードの各々には、音声素片データの予備選択幅の予測値が割当てられており、
前記回帰木による予測手段は、
あるターゲット音素のコンテキストが与えられると、前記ルートノードから始めて、当該コンテキストが、各ノードでの条件を充足するか否かを判定し、判定結果に従って前記回帰木をたどっていくための判定手段と、
前記判定手段による判定結果に従って前記回帰木をたどって到達した葉ノードに割当てられた予備選択幅の予測値を前記予備選択されるべき音声素片データの数として出力するための手段とを含む、請求項1に記載の音声合成装置。 - コンピュータにより実行されると、当該コンピュータを、請求項1又は請求項2に記載の音声合成装置として動作させる、コンピュータプログラム。
- 多数の音声素片データを格納した音声素片データベースとともに用いられ、合成ターゲットが与えられると、当該合成ターゲットを構成する各ターゲット音素のコンテキストに基づいて、前記音声素片データベースから当該ターゲット音素の音声合成に用いるべき音声素片データの候補を予備選択した後、予備選択された素片候補中から音声合成のための音声素片データを決定する、素片接続型音声合成装置であって、
前記音声素片データベースから音声素片データの候補を予備選択するにあたり、予備選択される候補の数を、各ターゲット音素のコンテキストに基づいて動的に決定する事を特徴とする、素片接続型音声合成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006057304A JP4292191B2 (ja) | 2006-03-03 | 2006-03-03 | 素片接続型音声合成装置及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006057304A JP4292191B2 (ja) | 2006-03-03 | 2006-03-03 | 素片接続型音声合成装置及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007233216A JP2007233216A (ja) | 2007-09-13 |
JP4292191B2 true JP4292191B2 (ja) | 2009-07-08 |
Family
ID=38553847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006057304A Active JP4292191B2 (ja) | 2006-03-03 | 2006-03-03 | 素片接続型音声合成装置及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4292191B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5020763B2 (ja) * | 2007-09-28 | 2012-09-05 | Kddi株式会社 | 音声合成のための決定木を生成する装置、方法及びプログラム |
KR101227716B1 (ko) * | 2007-11-28 | 2013-01-29 | 닛본 덴끼 가부시끼가이샤 | 음성 합성 장치, 음성 합성 방법 및 음성 합성 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 |
WO2014061230A1 (ja) * | 2012-10-16 | 2014-04-24 | 日本電気株式会社 | 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム |
-
2006
- 2006-03-03 JP JP2006057304A patent/JP4292191B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2007233216A (ja) | 2007-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4328698B2 (ja) | 素片セット作成方法および装置 | |
US7590540B2 (en) | Method and system for statistic-based distance definition in text-to-speech conversion | |
US6754626B2 (en) | Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context | |
JP4215418B2 (ja) | 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム | |
Chu et al. | Selecting non-uniform units from a very large corpus for concatenative speech synthesizer | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
JPWO2006134736A1 (ja) | 音声合成装置、音声合成方法およびプログラム | |
WO2012164835A1 (ja) | 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム | |
WO2014183411A1 (en) | Method, apparatus and speech synthesis system for classifying unvoiced and voiced sound | |
CN111599339A (zh) | 具有高自然度的语音拼接合成方法、系统、设备及介质 | |
JP2010139745A (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
JP4292191B2 (ja) | 素片接続型音声合成装置及びコンピュータプログラム | |
US20140257818A1 (en) | System and Method for Unit Selection Text-to-Speech Using A Modified Viterbi Approach | |
JP6806619B2 (ja) | 音声合成システム、音声合成方法、及び音声合成プログラム | |
CN1787072B (zh) | 基于韵律模型和参数选音的语音合成方法 | |
JP6580911B2 (ja) | 音声合成システムならびにその予測モデル学習方法および装置 | |
JP2007004011A (ja) | 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体 | |
KR20100085433A (ko) | 다중 목표운율 이용한 고음질 음성합성 방법 | |
JP2009122381A (ja) | 音声合成装置、音声合成方法およびそのプログラム | |
JP6314828B2 (ja) | 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム | |
JP3505364B2 (ja) | 音声データベースにおける音素片情報最適化方法、及び音素片情報最適化装置 | |
JP6137708B2 (ja) | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP4424023B2 (ja) | 素片接続型音声合成装置 | |
JP2001075585A (ja) | 自然言語処理方法及び前記方法を用いた音声合成装置 | |
JP5755603B2 (ja) | 言語モデル作成装置、言語モデル作成方法、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090302 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090331 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090406 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4292191 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120410 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130410 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130410 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140410 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |