JPH10247097A

JPH10247097A - 自然発話音声波形信号接続型音声合成装置

Info

Publication number: JPH10247097A
Application number: JP9048769A
Authority: JP
Inventors: Ken Fujisawa; 謙藤澤; Toshio Hirai; 俊男平井; Campbell Nick; ニック・キャンベル; Norio Higuchi; 宜男樋口
Original assignee: ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK; ATR Interpreting Telecommunications Research Laboratories
Current assignee: ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK; ATR Interpreting Telecommunications Research Laboratories
Priority date: 1997-03-04
Filing date: 1997-03-04
Publication date: 1998-09-14
Anticipated expiration: 2017-03-04
Also published as: JP3091426B2

Abstract

(57)【要約】【課題】従来例に比較してより自然なイントネーショ
ンで音声合成することができる音声合成装置を提供す
る。【解決手段】重み係数学習部１１は特徴抽出された第
１の音響的特徴パラメータに基づいて、同一の音素種類
の１つの目標音素とそれ以外の音素候補との間の第２の
音響的特徴パラメータにおける音響的距離を計算して線
形回帰分析することにより第２の音響的特徴パラメータ
における寄与度を表わす重み係数ベクトルを決定する。
音声単位選択部１２は入力される音素列に対して、目標
音素と音素候補との間の近似コストを表わす目標コスト
と、隣接して連結されるべき２つの音素候補間の近似コ
ストを表わす連結コストとを含むコストが最小となる音
素候補列を検索してその索引情報を出力し、音声合成部
１３は索引情報に対応する音声波形信号の音声セグメン
トを逐次読み出して連結して音声合成する。ここで、目
標コストにＦ₀パターンの傾きの差を追加する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、自然発話の音声波
形信号の音声セグメントを連結することにより任意の音
素列を音声合成する自然発話音声波形信号接続型音声合
成装置に関する。

【０００２】

【従来の技術】図２は、従来例の音声合成装置のブロッ
ク図である。図２に示すように、学習用話者の信号波形
データに対して例えばＬＰＣ分析を実行し、１６次ケプ
ストラム係数を含む特徴パラメータを抽出する。抽出さ
れた特徴パラメータは、バッファメモリである特徴パラ
メータメモリ６２に記憶された後、当該メモリ６２から
パラメータ時系列生成部５２に入力される。次いで、パ
ラメータ時系列生成部５２は、抽出された特徴パラメー
タに基づいて、時間正規化、及びメモリ６３内の韻律制
御規則を用いたパラメータ時系列の生成処理などの信号
処理を実行することにより、音声合成に必要な、例えば
１６次のケプストラム係数などのパラメータ時系列を生
成して音声合成部５３に出力する。

【０００３】音声合成部５３は公知の音声合成装置であ
って、有声音を発生するためのパルス発生器５３ａと、
無声音を発生するための雑音発生器５３ｂと、フィルタ
係数を変更可能なフィルタ５３ｃとを備え、入力される
パラメータ時系列に基づいて、パルス発生器５３ａによ
って発生される有声音と、雑音発生器５３ｂによって発
生される無声音とを切り換え、かつその振幅を制御し、
さらには、フィルタ５３の伝達関数に対応するフィルタ
係数を変化することにより、音声合成された音声信号を
発生して、スピーカ５４からその音声を出力させる。

【０００４】

【発明が解決しようとする課題】しかしながら、従来例
の音声合成装置では、韻律制御規則を用いた信号処理を
必要とするために、また、処理された特徴パラメータに
基づいて音声合成しているために、声質がきわめて悪い
という問題点があった。

【０００５】この問題点を解決するために、本特許出願
人は、特願平８−１２０１１３号の特許出願（以下、比
較例という。）において、自然発話の音声波形信号のセ
グメントを連結することにより音声合成する音声合成装
置を提案している。しかしながら、当該比較例において
は、より自然なイントネーションで音声合成することが
難しいという問題点があった。

【０００６】本発明の目的は以上の問題点を解決し、韻
律制御規則を使わず、信号処理を実行することなく、任
意の音素列を発声音声に変換することができ、しかも従
来例に比較して自然に近い声質を得ることができ、比較
例に比較してより自然なイントネーションで音声合成す
ることができる音声合成装置を提供することにある。

【０００７】

【課題を解決するための手段】本発明に係る請求項１記
載の自然発話音声波形信号接続型音声合成装置は、自然
発話の音声波形信号の音声セグメントを記憶する第１の
記憶手段と、上記第１の記憶手段によって記憶された音
声波形信号の音声セグメントと、上記音声波形信号に対
応する音素列とに基づいて、上記音声波形信号における
音素毎の索引情報と、上記索引情報によって示された音
素毎の第１の音響的特徴パラメータと、上記索引情報に
よって示された音素毎の第１の韻律的特徴パラメータと
を抽出して出力する音声分析手段と、上記音声分析手段
から出力される索引情報と、上記第１の音響的特徴パラ
メータと、上記第１の韻律的特徴パラメータとを記憶す
る第２の記憶手段と、上記第２の記憶手段によって記憶
された第１の音響的特徴パラメータに基づいて、同一の
音素種類の１つの目標音素とそれ以外の音素候補との間
の第２の音響的特徴パラメータにおける音響的距離を計
算し、計算した音響的距離に基づいて上記第２の音響的
特徴パラメータにおいて線形回帰分析することにより、
各音素候補に関する上記第２の音響的特徴パラメータに
おける寄与度を表わす各目標音素毎の重み係数ベクトル
を決定する重み係数学習手段と、上記重み係数学習手段
によって決定された上記第２の音響的特徴パラメータに
おける各目標音素毎の重み係数ベクトルと、予め与えら
れた、各音素候補に関する第２の韻律的特徴パラメータ
における寄与度を表わす各目標音素毎の重み係数ベクト
ルとを記憶する第３の記憶手段と、上記第３の記憶手段
によって記憶された各目標音素毎の重み係数ベクトル
と、上記第２の記憶手段によって記憶された第１の韻律
的特徴パラメータとに基づいて、入力される自然発話文
の音素列に対して、目標音素と音素候補との間の近似コ
ストを表わす目標コストと、隣接して連結されるべき２
つの音素候補間の近似コストを表わす連結コストとを含
むコストが最小となる、音素候補の組み合わせを検索し
て、検索した音素候補の組み合わせの索引情報を出力す
る音声単位選択手段と、上記音声単位選択手段から出力
される索引情報に基づいて、当該索引情報に対応する音
声波形信号の音声セグメントを上記第１の記憶手段から
逐次読み出して連結して出力することにより、上記入力
された音素列に対応する音声を合成して出力する音声合
成手段とを備え、上記音声単位選択手段は、目標音素の
音声基本周波数Ｆ₀と音素候補の音声基本周波数Ｆ₀との
傾きの差を目標コストに加算することを特徴とする。

【０００８】本発明に係る請求項２記載の自然発話音声
波形信号接続型音声合成装置は、自然発話の音声波形信
号の音声セグメントを記憶する第１の記憶手段と、上記
第１の記憶手段によって記憶された音声波形信号の音声
セグメントと、上記音声波形信号に対応する音素列とに
基づいて、上記音声波形信号における音素毎の索引情報
と、上記索引情報によって示された音素毎の第１の音響
的特徴パラメータと、上記索引情報によって示された音
素毎の第１の韻律的特徴パラメータとを抽出して出力す
る音声分析手段と、上記音声分析手段から出力される索
引情報と、上記第１の音響的特徴パラメータと、上記第
１の韻律的特徴パラメータとを記憶する第２の記憶手段
と、上記第２の記憶手段によって記憶された第１の音響
的特徴パラメータに基づいて、同一の音素種類の１つの
目標音素とそれ以外の音素候補との間の第２の音響的特
徴パラメータにおける音響的距離を計算し、計算した音
響的距離に基づいて上記第２の音響的特徴パラメータに
おいて線形回帰分析することにより、各音素候補に関す
る上記第２の音響的特徴パラメータにおける寄与度を表
わす各目標音素毎の重み係数ベクトルを決定する重み係
数学習手段と、上記重み係数学習手段によって決定され
た上記第２の音響的特徴パラメータにおける各目標音素
毎の重み係数ベクトルと、予め与えられた、各音素候補
に関する第２の韻律的特徴パラメータにおける寄与度を
表わす各目標音素毎の重み係数ベクトルとを記憶する第
３の記憶手段と、上記第３の記憶手段によって記憶され
た各目標音素毎の重み係数ベクトルと、上記第２の記憶
手段によって記憶された第１の韻律的特徴パラメータと
に基づいて、入力される自然発話文の音素列に対して、
目標音素と音素候補との間の近似コストを表わす目標コ
ストと、隣接して連結されるべき２つの音素候補間の近
似コストを表わす連結コストとを含むコストが最小とな
る、音素候補の組み合わせを検索して、検索した音素候
補の組み合わせの索引情報を出力する音声単位選択手段
と、上記音声単位選択手段から出力される索引情報に基
づいて、当該索引情報に対応する音声波形信号の音声セ
グメントを上記第１の記憶手段から逐次読み出して連結
して出力することにより、上記入力された音素列に対応
する音声を合成して出力する音声合成手段とを備え、上
記音声単位選択手段は、目標音素の音声基本周波数Ｆ₀
の中央値と、音素候補の音声基本周波数Ｆ₀の中央値の
差が所定のしきい値以上であるとき、所定のペナルティ
ーコストを目標コストに加算することを特徴とする。

【０００９】本発明に係る請求項３記載の自然発話音声
波形信号接続型音声合成装置は、自然発話の音声波形信
号の音声セグメントを記憶する第１の記憶手段と、上記
第１の記憶手段によって記憶された音声波形信号の音声
セグメントと、上記音声波形信号に対応する音素列とに
基づいて、上記音声波形信号における音素毎の索引情報
と、上記索引情報によって示された音素毎の第１の音響
的特徴パラメータと、上記索引情報によって示された音
素毎の第１の韻律的特徴パラメータとを抽出して出力す
る音声分析手段と、上記音声分析手段から出力される索
引情報と、上記第１の音響的特徴パラメータと、上記第
１の韻律的特徴パラメータとを記憶する第２の記憶手段
と、上記第２の記憶手段によって記憶された第１の音響
的特徴パラメータに基づいて、同一の音素種類の１つの
目標音素とそれ以外の音素候補との間の第２の音響的特
徴パラメータにおける音響的距離を計算し、計算した音
響的距離に基づいて上記第２の音響的特徴パラメータに
おいて線形回帰分析することにより、各音素候補に関す
る上記第２の音響的特徴パラメータにおける寄与度を表
わす各目標音素毎の重み係数ベクトルを決定する重み係
数学習手段と、上記重み係数学習手段によって決定され
た上記第２の音響的特徴パラメータにおける各目標音素
毎の重み係数ベクトルと、予め与えられた、各音素候補
に関する第２の韻律的特徴パラメータにおける寄与度を
表わす各目標音素毎の重み係数ベクトルとを記憶する第
３の記憶手段と、上記第３の記憶手段によって記憶され
た各目標音素毎の重み係数ベクトルと、上記第２の記憶
手段によって記憶された第１の韻律的特徴パラメータと
に基づいて、入力される自然発話文の音素列に対して、
目標音素と音素候補との間の近似コストを表わす目標コ
ストと、隣接して連結されるべき２つの音素候補間の近
似コストを表わす連結コストとを含むコストが最小とな
る、音素候補の組み合わせを検索して、検索した音素候
補の組み合わせの索引情報を出力する音声単位選択手段
と、上記音声単位選択手段から出力される索引情報に基
づいて、当該索引情報に対応する音声波形信号の音声セ
グメントを上記第１の記憶手段から逐次読み出して連結
して出力することにより、上記入力された音素列に対応
する音声を合成して出力する音声合成手段とを備え、上
記音声単位選択手段は、連続する２つの目標音素の音声
基本周波数Ｆ₀の差分と、連続する２つの音素候補の音
声基本周波数Ｆ₀の差分との加算値の絶対値を連結コス
トに加算することを特徴とする。

【００１０】また、請求項４記載の音声合成装置は、請
求項１記載の音声合成装置において、上記音声単位選択
手段は、目標音素の音声基本周波数Ｆ₀の中央値と、音
素候補の音声基本周波数Ｆ₀の中央値の差が所定のしき
い値以上であるとき、所定のペナルティーコストを目標
コストにさらに加算することを特徴とする。

【００１１】さらに、請求項５記載の音声合成装置は、
請求項１又は４記載の音声合成装置において、上記音声
単位選択手段は、連続する２つの目標音素の音声基本周
波数Ｆ₀の差分と、連続する２つの音素候補の音声基本
周波数Ｆ₀の差分との加算値の絶対値を連結コストに加
算することを特徴とする。

【００１２】またさらに、請求項６記載の音声合成装置
は、請求項１乃至５のうちの１つに記載の音声合成装置
において、上記音声単位選択手段は、上記目標コストと
上記連結コストとを含むコストが最良の上位複数Ｎ２個
の音素候補を抽出した後、コストが最小となる音素候補
の組み合わせを検索することを特徴とする。

【００１３】また、請求項７記載の音声合成装置は、請
求項１乃至６のうちの１つに記載の音声合成装置におい
て、上記音声分析手段は、入力される音声波形信号に基
づいて上記音声波形信号に対応する音素列を予測する音
素予測手段を備えたことを特徴とする。

【００１４】さらに、請求項８記載の音声合成装置は、
請求項１乃至７のうちの１つに記載の音声合成装置にお
いて、上記重み係数学習手段は、上記計算した音響的距
離に基づいて、最良の上位複数Ｎ１個の音素候補を抽出
した後、上記第２の音響的特徴パラメータにおいて線形
回帰分析することにより、各音素候補に関する上記第２
の音響的特徴パラメータにおける寄与度を表わす各目標
音素毎の重み係数ベクトルを決定することを特徴とす
る。

【００１５】またさらに、請求項９記載の音声合成装置
は、請求項１乃至８のうちの１つに記載の音声合成装置
において、上記第１の音響的特徴パラメータは、ケプス
トラム係数と、デルタケプストラム係数と、音素ラベル
とを含むことを特徴とする。

【００１６】また、請求項１０記載の音声合成装置は、
請求項１乃至９のうちの１つに記載の音声合成装置にお
いて、上記第１の韻律的特徴パラメータは、音素時間長
と、音声基本周波数Ｆ₀と、パワーとを含むことを特徴
とする。

【００１７】さらに、請求項１１記載の音声合成装置
は、請求項１乃至１０のうちの１つに記載の音声合成装
置において、上記第２の音響的特徴パラメータは、
（ａ）処理すべき当該音素から先行する先行音素の音素
ラベルと、（ｂ）当該音素から後続する後続音素の音素
ラベルと、（ｃ）音素間の接続点におけるケプストラム
距離と、（ｄ）音素間の対数パワーの差の絶対値と、
（ｅ）音素間の音声基本周波数Ｆ₀の差の絶対値とを含
むことを特徴とする。

【００１８】またさらに、請求項１２記載の音声合成装
置は、請求項１乃至１１のうちの１つに記載の音声合成
装置において、上記第２の韻律的特徴パラメータは、
（ａ）処理すべき当該音素から先行する先行音素の第１
の韻律的特徴パラメータと、（ｂ）当該音素から後続す
る後続音素の音素ラベルの第１の韻律的特徴パラメータ
と、（ｃ）当該音素の音素時間長と、（ｄ）当該音素の
音声基本周波数Ｆ₀と、（ｅ）先行音素の音声基本周波
数Ｆ₀と、を含むことを特徴とする。

【００１９】

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。図１は、本発明に係る一
実施形態である自然発話音声波形信号接続型音声合成装
置のブロック図である。例えば図２に示した従来例の音
声合成装置では入力された発声音声に対応するテキスト
抽出から音声波形信号の生成までが一連の処理として行
なわれるのに対して、本実施形態では、大きく分類すれ
ば、次の４つの処理部に分類される。（１）音声波形信号データベースメモリ２１内の音声波
形信号データベースの音声波形信号データの音声分析、
具体的には、音素記号系列の生成、音素のアラインメン
ト、特徴パラメータの抽出を含む処理を実行する音声分
析部１０。（２）最適重み係数を学習しながら決定する重み係数学
習部１１。（３）入力される音素列に基づいて音声単位の選択を実
行して入力音素列に対応する音声波形信号データの索引
情報を出力する音声単位選択部１２。（４）音声単位選択部１２から出力される索引情報に基
づいて音声波形信号データベースメモリ２１内の音声波
形信号データベースをランダムにアクセスして最適とさ
れた各音素候補の音声波形信号を再生してスピーカ１４
に出力する音声合成部１３。

【００２０】具体的には、音声分析部１０は、入力され
る自然発話の音声波形信号の音声セグメントと、上記音
声波形信号に対応する音素列とに基づいて、上記音声波
形信号における音素毎の索引情報と、上記索引情報によ
って示された音素毎の第１の音響的特徴パラメータと、
上記索引情報によって示された音素毎の第１の韻律的特
徴パラメータとを抽出して出力する。特徴パラメータメ
モリ３０は、上記音声分析部１０から出力される索引情
報と、上記第１の音響的特徴パラメータと、上記第１の
韻律的特徴パラメータとを記憶する。次いで、重み係数
学習部１１は、特徴パラメータメモリ３０に記憶された
第１の音響的特徴パラメータに基づいて、同一の音素種
類の１つの目標音素とそれ以外の音素候補との間の第２
の音響的特徴パラメータにおける音響的距離を計算し、
計算した音響的距離に基づいて上記第２の音響的特徴パ
ラメータにおいて線形回帰分析することにより、各音素
候補に関する上記第２の音響的特徴パラメータにおける
寄与度を表わす各目標音素毎の重み係数ベクトルを決定
する。重み係数ベクトルメモリ３１は、重み係数学習部
１１によって決定された上記第２の音響的特徴パラメー
タにおける各目標音素毎の重み係数ベクトルと、予め与
えられた、各音素候補に関する第２の韻律的特徴パラメ
ータにおける寄与度を表わす各目標音素毎の重み係数ベ
クトルとを記憶する。さらに、音声単位選択部１２は、
重み係数ベクトルメモリ３１に記憶された各目標音素毎
の重み係数ベクトルと、特徴パラメータメモリ３０に記
憶された第１の韻律的特徴パラメータとに基づいて、入
力される自然発話文の音素列に対して、目標音素と音素
候補との間の近似コストを表わす目標コストと、隣接し
て連結されるべき２つの音素候補間の近似コストを表わ
す連結コストとを含むコストが最小となる、音素候補の
組み合わせを検索して、検索した音素候補の組み合わせ
の索引情報を出力する。そして、音声合成部１３は、音
声単位選択部１２から出力される索引情報に基づいて、
当該索引情報に対応する音声波形信号の音声セグメント
を音声波形信号データベースメモリ２１から逐次読み出
して連結してスピーカ１４に出力することにより、上記
入力された音素列に対応する音声を合成して出力する。

【００２１】ここで、音声分析部１０の処理は新しい音
声波形信号データベースに対しては必ず一度行なう必要
があり、重み係数学習部１１の処理は、一般に一度の処
理でよく、重み係数学習部１１によって求めた最適重み
係数は異なる音声合成条件に対しても再利用が可能であ
る。さらに、音声単位選択部１２と音声合成部１３の処
理は、音声合成すべき入力音素列が変われば、その都度
実行される。

【００２２】本実施形態の音声合成装置は与えられたレ
ベルの入力に基づいて必要とする、すべての特徴パラメ
ータを予測し、所望の音声の特徴に最も近いサンプル
（すなわち、音素候補の音声波形信号）をメモリ２１内
の音声波形信号データベースの中から選び出す。最低
限、音素ラベルの系列が与えられれば処理は可能である
が、音声基本周波数Ｆ₀や音素時間長が予め与えられて
いれば、さらに高品質の合成音声が得られる。なお、入
力として単語の情報だけが与えられた場合には、例えば
音素隠れマルコフモデル（以下、隠れマルコフモデルを
ＨＭＭという。）などの辞書や規則に基づいて音素系列
を予測する必要がある。また、韻律特徴が与えられなか
った場合には音声波形信号データベース中のいろいろな
環境における音素の既知の特徴を基に標準的な韻律を生
成する。

【００２３】本実施形態では、音声波形信号データベー
スメモリ２１内の録音内容を少なくとも正書法で記述さ
れたテキストデータが例えば、テキストデータベースメ
モリ２２内のテキストデータベースのように存在するな
らば、あらゆる音声波形信号データベースが合成用の音
声波形信号データとして利用可能であるが、出力音声の
品質は録音状態、音声波形信号データベース中の音素の
バランス等に大きく影響を受け、メモリ２１内の音声波
形信号データベースが豊富な内容であれば、より多様な
音声が合成でき、反対に音声波形信号データベースが貧
弱であれば、合成音声は不連続感が強く、ブツブツした
ものになる。

【００２４】次いで、自然な発話音声に対する音素ラベ
ル付けについて説明する。音声単位の選択の善し悪しは
音声波形信号データベース中の音素のラベル付けと検索
の方法に依存する。ここで、好ましい実施例において
は、音声単位は、音素である。まず、録音された音声に
付与された正書法の発話内容を音素系列に変換し、さら
に音声波形信号に割り当てる。韻律的特徴パラメータの
抽出はこれに基づいて行なわれる。音声分析部１０の入
力はメモリ２２内の音素表記を伴ったメモリ２１内の音
声波形信号データであり、出力は特徴ベクトル又は特徴
パラメータである。この特徴ベクトルは音声波形信号デ
ータベース中で音声サンプルを表す基本単位となり、最
適な音声単位の選択に用いられる。

【００２５】音声分析部１０の処理における第１段階に
おいては、正書法で書かれた発話内容が実際の音声波形
信号データでどのように発音されているかを記述するた
めの正書法テキストから音素記号への変換である。次い
で、第２段階においては、韻律的及び音響的特徴を計測
するために各音素の開始及び終了時点を決めるために、
各音素記号を音声波形信号に対応付ける処理である（以
下、当該処理を、音素のアラインメント処理とい
う。）。さらに、第３段階においては、各音素の特徴ベ
クトル又は特徴パラメータを生成することである。この
特徴ベクトルには、必須項目として音素ラベル、メモリ
３０内の音声波形信号データベース中の各ファイルにお
ける当該音素の開始時刻（開始位置）、音声基本周波数
Ｆ₀、音素時間長、パワーの情報が記憶され、さらに、
特徴パラメータのオプションとしてストレス、アクセン
ト型、韻律境界に対する位置、スペクトル傾斜等の情報
が記憶される。以上の特徴パラメータを整理すると、例
えば、次の表１のようになる。

【００２６】

【表１】 ─────────────────────────────────── 索引情報：索引番号（１つのファイルに対して付与）メモリ３０内の音声波形信号データベース中の各ファイルにおける当該音素の開始時刻（開始位置） ─────────────────────────────────── 第１の音響的特徴パラメータ：１２次メルケプストラム係数１２次Δメルケプストラム係数音素ラベル弁別素性：母音性（vocalic）（＋）／非母音性（non-vocalic）（−）子音性（consonantal）（＋）／非子音性（non-consonantal）（−）中断性（interrupted）（＋）／連続性（continuant）（−）抑止性（checked）（＋）／非抑止性（unchecked）（−）粗擦性（strident）（＋）／円熟性（mellow）（−）有声（voiced）（＋）／無声（unvoiced）（−）集約性（compact）（＋）／拡散性（diffuse）（−）低音調性（grave）（＋）／高音調性（acute）（−）変音調性（flat）（＋）／常音調性（plain）（−）嬰音調性（sharp）（＋）／常音調性（plain）（−）緊張性（tense）（＋）／弛緩性（lax）（−）鼻音性（nasal）（＋）／口音性（oral）（−） ─────────────────────────────────── 第１の韻律的特徴パラメータ：音素時間長音声基本周波数Ｆ₀ パワー ───────────────────────────────────

【００２７】上記索引情報内の開始時刻（開始位置）、
第１の音響的特徴パラメータ及び第１の韻律的特徴パラ
メータは、各音素毎に特徴パラメータメモリ３０に記憶
される。ここで、音素ラベルに付与される、例えば１２
個の弁別素性の特徴パラメータは各項目別に（＋）又は
（−）のパラメータ値が与えられる。さらに、音声分析
部１０の出力結果である特徴パラメータの一例を表２に
示す。ここで、索引番号は、音声波形信号データベース
メモリ２１において、例えば複数の文からなる１つのパ
ラグラフ又は１つの文のファイル毎に、索引番号が付与
され、そして、１つの索引番号が付与されたファイル中
の任意の音素の位置を示すために当該ファイル内の開始
時刻から計時された当該音素の開始時刻及びその当該音
素の音素時間長とを付与することにより、当該音素の音
声波形信号の音声セグメントを特定することができる。

【００２８】

【表２】音声分析部１０の出力結果である特徴パラメータの一例索引番号Ｘ０００５ ────────────────────── 音素時間長基本周波数パワー ……… ────────────────────── ＃１２０９０４．０ ……… ｓ１７５９８４．７ ……… ｅｉ９５１０２６．５ ……… ｄｈ３０１１４４．９ ……… ｉｈ７５１４３６．９ ……… ｓ１５０１４０５．７ ……… ｐ８７１３７５．１ ……… ｌ３４１０７４．９ ……… ｉｉ１５０９８６．３ ……… ｚ１４０８７５．８ ……… ＃２５３８７４．０ ……… ───────────────────────

【００２９】表２において、＃はポーズを示す。音声単
位を選択する場合に、音響的及び韻律的な各特徴パラメ
ータがそれぞれの音素でどれだけの寄与をするかを予め
調べておくことが必要であり、第４段階では、このため
に音声波形信号データベース中のすべての音声サンプル
を用いて各特徴パラメータの重み係数を決定する。

【００３０】音声分析部１０における音素記号系列の生
成処理においては、上述した通り、本実施形態では、少
なくとも録音内容が正書法で記述されたものがあれば、
あらゆる音声波形信号データベースが合成用の音声波形
信号データとして利用可能である。入力として単語の情
報だけが与えられた場合には辞書や規則に基づいて音素
系列を予測する必要がある。また、音声分析部１０にお
ける音素のアラインメント処理においては、読み上げ音
声の場合、各単語がそれぞれの標準の発音に近く発音さ
れることが多く、躊躇したり、言い淀んだりすることも
まれである。このような音声波形信号データの場合には
簡単な辞書検索によって音素ラベリングが正しく行なわ
れ、音素アラインメント用の音素ＨＭＭの音素モデルの
学習が可能となる。

【００３１】音素アラインメント用の音素モデルの学習
では完全な音声認識の場合と異なり、学習用の音声波形
信号データとテスト用の音声波形信号データとを完全に
分離する必要はなく、すべての音声波形信号データを用
いて学習を行なうことができる。まず、別の話者用のモ
デルを初期モデルとし、すべての単語について標準発音
か限られた発音変化のみを許し、適切なセグメンテーシ
ョンが行なわれるように、全音声波形信号データを用い
てビタビの学習アルゴリズムを用いて音素のアライメン
トを行ない、特徴パラメータの再推定を行なう。単語間
のポーズは単語間ポーズ生成規則によって処理するが、
単語内にポーズがあってアライメントが失敗した場合に
は人手により修正する必要がある。

【００３２】どういう音素ラベルを音素表記として用い
るかは選択が必要である。もし良く学習されたＨＭＭモ
デルが利用できるような音素セットが存在するなら、そ
れを用いることが有利である。反対に、音声合成装置が
完全な辞書を持っているなら、音声波形信号データベー
スのラベルを完全に辞書と照合する方法も有効である。
我々は、重み係数の学習に対して選択の余地があるか
ら、後で音声合成装置が予測したものと等価なものを音
声波形信号データベースの中から照合できるかどうかを
最も重要な規準とすれば良い。発音の微妙な違いはその
発音の韻律的環境によって自動的に把握されるため、特
に手作業で音素のラベル付けを行なう必要はない。

【００３３】前処理の次の段階として、個々の音素の調
音的な特徴を記述するための韻律特徴パラメータの抽出
を行なう。従来の音声学では、調音位置や調音様式とい
った素性で言語音を分類した。これに対して、ファース
（Ｆｉｒｔｈ）学派のような韻律を考慮した音声学で
は、韻律的文脈の違いから生ずる細かな音質の違いをと
らえるために、明瞭に調音されている箇所や強調が置か
れている箇所を区別する。これらの違いを記述する方法
はいろいろなものがあるが、ここでは以下の２つの方法
を用いる。まず低次のレベルでは、１次元の特徴を求め
るために、パワー、音素時間長の伸び及び音声基本周波
数Ｆ₀を、ある音素について平均した値を用いる。一
方、高次のレベルでは、韻律特徴における上記の違いを
考慮した韻律境界や強調箇所をマークする方法を用い
る。これらの２種類の特徴は相互に密接に関係している
ため一方から他方を予測することができるが、両者は共
に各音素の特徴に強い影響を与えている。

【００３４】音声波形信号データベースを記述するため
の音素セットの規定法に自由度があるのと同様に、韻律
的特徴パラメータの記述方法についても自由度がある
が、これらの選び方は音声合成装置の予測能力に依存す
る。もし音声波形信号データベースが予めラベリングさ
れているなら、音声合成装置の仕事は内部表現から音声
波形信号データベース中の実音声をいかに行なうかを適
切に学習することである。これに対して、もし音声波形
信号データベースが音素のラベル付けがなされていない
なら、どのような特徴パラメータを使えば音声合成装置
が最も適切な音声単位を予測できるかから検討すること
が必要となる。この検討及び最適な特徴パラメータの重
みの決定学習は、各特徴パラメータに対する重み係数を
学習しながら決定する重み係数学習部１１において実行
される。

【００３５】次いで、重み係数学習部１１によって実行
される重み係数学習処理について述べる。与えられた目
標音声の音響的及び韻律的な環境に最適なサンプルを音
声波形信号データベースから選択するために、まずどの
特徴がどれだけ寄与しているかを音素的及び韻律的な環
境の違いによって決める必要がある。これは音素の性質
によって重要な特徴パラメータの種類が変化するため
で、例えば、音声基本周波数Ｆ₀は有声音の選択には極
めて有効であるが、無声音の選択にはほとんど影響がな
い。また、摩擦音の音響的特徴は前後の音素の種類によ
って影響が変わる。最適な音素を選択するためにそれぞ
れの特徴にどれだけの重みを置くかを最適重み決定処
理、すなわち重み係数学習処理で自動的に決定する。

【００３６】重み係数学習部１１によって実行される最
適重み係数の決定処理で、最初に行なわれることは音声
波形信号データベース中で該当するすべての発話サンプ
ルの中から最適なサンプルを選ぶときに使われる特徴を
リストアップすることである。ここでは、調音位置や調
音様式等の音素的特徴と先行音素、当該音素、及び後続
音素の音声基本周波数Ｆ₀、音素時間長、パワー等の韻
律的特徴パラメータ等を用いる。具体的には、詳細後述
する第２の韻律的パラメータを用いる。次いで、第２段
階では各音素毎に、最適な候補を選ぶ際にどの特徴パラ
メータがどれだけ重要かを決定するために、１つの音声
サンプル（又は音素の音声波形信号）に着目し、他のす
べての音素サンプルとの音素時間長の差をも含む音響的
距離を求め、上位Ｎ２個の最良の類似音声サンプル、す
なわちＮ２ベストの音素候補の音声波形信号の音声セグ
メントを選び出す。

【００３７】さらに、第３段階では線形回帰分析を行な
い、それらの類似音声サンプルを用いて種々の音響的及
び韻律的環境におけるそれぞれの特徴パラメータの重要
度を示す重み係数を求める。当該線形回帰分析処理にお
ける韻律的特徴パラメータとして、例えば、次の特徴パ
ラメータ（以下、第２の韻律的特徴パラメータとい
う。）を用いる。（１）処理すべき当該音素から１つだけ先行する先行音
素（以下、先行音素という。）の第１の韻律的特徴パラ
メータ；（２）処理すべき当該音素から１つだけ後続する後続音
素（以下、後続音素という。）の音素ラベルの第１の韻
律的特徴パラメータ；（３）当該音素の音素時間長；（４）当該音素の音声基本周波数Ｆ₀；（５）先行音素の音声基本周波数Ｆ₀；及び、（６）後続音素の音声基本周波数Ｆ₀。ここで、先行音素は、当該音素から１つだけ先行する音
素としているが、これに限らず、複数の音素だけ先行す
る音素を含んでもよい。また、後続音素は、当該音素か
ら１つだけ後続する音素としているが、これに限らず、
複数の音素だけ後続する音素を含んでもよい。さらに、
後続音素の音声基本周波数Ｆ₀を除外してもよい。

【００３８】次いで、自然な音声サンプルの選択を行う
音声単位選択部１２の処理について説明する。従来例の
音声合成装置では目的の発話に対して音素系列を決定
し、さらに韻律制御のためのＦ₀と音素時間長の目標値
が計算された。これに対して、本実施形態では最適の音
声サンプルを適切に選択するために韻律が計算されるだ
けで、直接韻律を制御することは行なわれない。

【００３９】図３は、図１の音声単位選択部１２の処理
の入力は、目的発話の音素系列と、それぞれの音素毎に
求めた各特徴に対する重みベクトル及び音声波形信号デ
ータベース中の全サンプルを表す特徴ベクトルである。
一方、出力は音声波形信号データベース中での音素サン
プルの位置を表す索引情報であって、音声波形信号の音
声セグメントを接続するためのそれぞれの音声単位（具
体的には音素、場合により複数の音素の系列が連続して
選択され、一つの音声単位となることがある）の開始位
置と音声単位時間長を示したものである。

【００４０】最適な音声単位は目的発話との差の近似コ
ストを表す目標コストと、隣接音声単位間での不連続性
の近似コストを表す連結コストの和を最小化するパスと
して求められる。経路探索には公知のビタビの学習アル
ゴリズムが利用される。目的とする目標音声ｔ₁ ⁿ＝（ｔ
₁，…，ｔ_n）に対しては、目標コストと連結コストの和
を最小化することで、各特徴が目的音声に近く、しかも
音声単位間の不連続性が少ない音声波形信号データベー
ス中の音声単位の組合せｕ₁ ⁿ＝（ｕ₁，…，ｕ_n）を選ぶ
ことができ、これらの音声単位の音声波形信号データベ
ース内での位置を示すことにより、任意の発話内容の音
声合成が可能になる。

【００４１】音声単位の選択コストは、図３に示すよう
に、目標コストＣ^t（ｕ_i，ｔ_i）と連結コストＣ^c（ｕ
_i-1，ｕ_i）からなり、目標コストＣ^t（ｕ_i，ｔ_i）は、
音声波形信号データベース中の音声単位（音素候補）ｕ
_iと、合成音声として実現したい音声単位（目標音素）
ｔ_iの間の差の予測値であり、連結コストＣ^c（ｕ_i-1，
ｕ_i）は接続単位（接続する２つの音素）ｕ_i-1とｕ_iと
の間の接続で起こる不連続の予測値である。例えば、本
出願人によって研究実用化された従来のＡＴＲν−Ｔａ
ｌｋ音声合成システムも目標コストと連結コストを最小
化するという点では類似の考え方を取っていたが、韻律
的な特徴パラメータを直接に単位選択に用いるというこ
とは本実施形態の音声合成装置の新しい特徴となってい
る。

【００４２】次いで、コストの計算について述べる。目
標コストは実現したい音声単位の特徴ベクトルと音声波
形信号データベース中から選ばれた候補の音声単位の特
徴ベクトルの各要素の差の重み付き合計であり、各目標
サブコストＣ^t _j（ｔ_i，ｕ_i）の重み係数ｗ^t _jが与えられ
た場合、目標コストＣ^t（ｔ_i，ｕ_i）は次式で計算する
ことができる。

【００４３】

【数１】

【００４４】ここで、特徴ベクトルの各要素の差はｐ個
の目標サブコストＣ^t _j（ｔ_i，ｕ_i）（ただし、ｊは１か
らｐまでの自然数である。）で表され、特徴ベクトルの
次元数ｐは、好ましい実施例においては、２０から３０
の範囲で可変としている。より好ましい実施例において
は、次元数ｐ＝３０であり、目標サブコストＣ^t（ｔ_i，
ｕ_i）及び重み係数ｗ^t _jにおける変数ｊの特徴ベクトル
又は特徴パラメータは、上述の第２の韻律的特徴パラメ
ータである。

【００４５】一方、連結コストＣ^c（ｕ_i-1，ｕ_i）も同
様にｑ個の連結サブコストＣ^c _j（ｕ_i-1，ｕ_i）（ただ
し、ｊは１からｑまでの自然数である。）の重み付き合
計で表される。連結サブコストは接続する音声単位ｕ
_i-1とｕ_iの音響的特徴から決定することができる。好ま
しい実施形態においては、連結サブコストとしては、
（１）音素接続点におけるケプストラム距離、（２）対
数パワーの差の絶対値、（３）音声基本周波数Ｆ₀の差
の絶対値の３種類を用いており、すなわち、ｑ＝３であ
る。これら３種類の音響的特徴パラメータと、先行音素
の音素ラベルと、後続音素の音素ラベルとを、第２の音
響的特徴パラメータという。各連結サブコストＣ^c _j（ｕ
_i-1，ｕ_i）の重みｗ^c _jは予め経験的に（又は実験的に）
与えられ、この場合、連結コストＣ^c（ｕ_i-1，ｕ_i）は
次式で計算することができる。

【００４６】

【数２】

【００４７】もし、音素候補ｕ_i-1とｕ_iが音声波形信号
データベース中の連続する音声単位であった場合には、
接続は自然であり、連結コストは０になる。ここで、好
ましい実施例においては、連結コストは、特徴パラメー
タメモリ３０内の第１の音響的特徴パラメータと第１の
韻律的特徴パラメータに基づいて決定され、連続量であ
る上記３つの第２の音響的特徴パラメータを取り扱うか
ら例えば０から１までの任意のアナログ量をとる一方、
目標コストは、それぞれの先行あるいは後続音素の弁別
素性が一致するか否かなどを示す上記３０個の第２の音
響的特徴パラメータを取り扱うから、例えば０（特徴が
一致しているとき）又は１（特徴が一致していないと
き）のデジタル量で表される要素を含む。そして、Ｎ個
の音声単位の連結コストはそれぞれの音声単位の目標コ
ストと連結コストの和となり、次式で表される。

【００４８】

【数３】

【００４９】このとき、Ｓはポーズを表しており、Ｃ^c
（Ｓ，ｕ₁）及びＣ^c（ｕ_n，Ｓ）はポーズから最初の音
声単位へ及び最後の音声単位からポーズへの接続におけ
る連結コストを表している。この表現からも明らかなよ
うに、本実施形態ではポーズも音声波形信号データベー
ス中の他の音素とまったく同じ扱い方をしている。さら
に上の式をサブコストで直接表現すると次式のようにな
る。

【００５０】

【数４】

【００５１】音声単位選択処理は上式で決まる全体のコ
ストを最小にするような音声単位の組合せ／ｕ₁ ⁿを決定
するためのものである。ここで、日本出願の明細書で
は、オーバーラインを記述することができないために、
オーバーラインの代わりに／を用いる。

【００５２】

【数５】／ｕ₁ ⁿ＝ｍｉｎＣ（ｔ₁ ⁿ，ｕ₁ ⁿ）ｕ₁,ｕ₂,…,ｕ_n

【００５３】上記数５において、関数ｍｉｎは、当該関
数の引数であるＣ（ｔ₁ ⁿ，ｕ₁ ⁿ）を最小にする音素候補
の組み合わせ（すなわち、音素列候補）ｕ₁,ｕ₂,…,ｕ_n
＝／ｕ₁ ⁿを表わす関数である。

【００５４】ところで、比較例の音声合成装置で合成し
た音声のイントネーションの不自然さは、音素単位間で
の音声基本周波数Ｆ₀のギャップや、アクセント核での
不適切な基本周波数パターンを持つ音素単位の選択によ
るものと考えられる。音声基本周波数Ｆ₀のギャップ
は、隣接する音素単位間の音声基本周波数Ｆ₀パターン
の形状や、大きさの差によって生じるため、これらを考
慮する選択規準が必要である。また、適切なアクセント
を表現するには音素単位間の相対的な音声基本周波数Ｆ
₀の大きさを考慮する必要がある。

【００５５】そこで、本実施形態においては、音素単位
間の音声基本周波数Ｆ₀パターンのギャップを減らし、
推定された音声基本周波数Ｆ₀パターンの形状をより忠
実に反映した音素単位が選ばれるよう、音声基本周波数
Ｆ₀に関する以下のコスト関数を追加した。

【００５６】（ａ）音声基本周波数Ｆ₀の傾き（以下、
傾きコストという。）：音声データベース中の音素単位
の音声基本周波数Ｆ₀パターンの傾きを考慮し、実現し
たい所望の音声基本周波数Ｆ₀（以下、目標音声基本周
波数Ｆ₀という。）との傾きとの差を目標コストに追加
する。すなわち、目標音素の音声基本周波数Ｆ₀と音素
候補の音声基本周波数Ｆ₀との傾きの差を目標コストに
加算する。音声基本周波数Ｆ₀パターンの傾きは、音声
データベース中に十分ある母音に対してのみ考慮し、他
の有声音は考慮しないこととする。また、原音声波形か
らの音声基本周波数Ｆ₀の抽出誤りの影響を軽減するた
め、抽出した音声基本周波数Ｆ₀をスムージングしてか
ら回帰分析により傾きを計算した。

【００５７】（ｂ）音声基本周波数Ｆ₀のしきい値（以
下、しきい値コストという。）：目標コスト中の音声基
本周波数Ｆ₀の中央値の差が、所定のしきい値以上であ
れば、例えば２０である所定のペナルティーコストを追
加する。すなわち、目標音素の音声基本周波数Ｆ₀の中
央値と、音素候補の音声基本周波数Ｆ₀の中央値の差が
所定のしきい値以上であるとき、所定のペナルティーコ
ストを目標コストに加算する。

【００５８】（ｃ）音声基本周波数Ｆ₀の差分（以下、
差分コストという。）：連続する２つの音素単位の音声
基本周波数Ｆ₀の差分を、目標音声基本周波数Ｆ₀の差分
に近づけるため、

【数６】｜ｕ’_f0i−ｕ_f0i｜を連結コストに追加する。ここで、

【数７】ｕ’_f0i＝ｕ_f0i-1＋ｔ_f0i−ｔ_f0i-1 とする。ｔ_f0i-1，ｔ_f0iはそれぞれｉ−１，ｉ番目の音
素の目標音声基本周波数Ｆ₀を表し、ｕ_f0i-1，ｕ_f0iは
それぞれｉ−１，ｉ番目の音素単位の音声基本周波数Ｆ
₀を表す。また、ｕ’_f0iはｉ番目の音素の新しい目標音
声基本周波数Ｆ₀である。すなわち、数６及び数７から
次式を得ることができる。

【数８】｜ｕ’_f0i−ｕ_f0i｜＝｜ｕ_f0i-1−ｕ_f0i＋ｔ
_f0i−ｔ_f0i-1−ｕ_f0i｜従って、連続する２つの目標音素の音声基本周波数Ｆ₀
の差分と、連続する２つの音素候補の音声基本周波数Ｆ
₀の差分との加算値の絶対値を連結コストに追加する。

【００５９】以上の３つのコストはそれぞれ単独又は任
意の組み合わせで追加してもよい。

【００６０】図１の重み係数学習部１１における重み係
数の学習処理について以下説明する。目標サブコストの
重みは音響的距離に基づく線形回帰分析を用いて決定す
る。重み係数の学習処理ではすべての音素毎に異なる重
み係数を決めることもできるし、音素カテゴリ（例え
ば、すべての鼻音）毎に重み係数を決めることもでき
る。また、すべての音素について共通の重み係数を決め
ることもできるが、ここでは各音素で別々の重み係数を
用いることとする。以下に線形回帰分析における処理の
流れを示す。

【００６１】＜１＞現在学習を行なっている音素種類
（又は音素カテゴリ）に属する音声波形信号データベー
ス中のすべてのサンプルについて繰り返し以下の４つの
処理（ａ）乃至（ｄ）を実行する。（ａ）取り上げた音声サンプルを目的の発話内容と見な
す。（ｂ）音声波形信号データベース中の同一の音素種類
（カテゴリ）に属する他のすべてのサンプルと当該音声
サンプルとの音響的距離を計算する。（ｃ）目標音素に近いもの上位Ｎ１個（例えば、Ｎ１＝
２０個である。）の最良の音素候補を選び出す。（ｄ）目標音素自身ｔ_iと上記（ｃ）で選んだ上位Ｎ１
個のサンプルについて目標サブコストＣ^t _j（ｔ_i，ｕ_i）
を求める。＜２＞すべての目標音素ｔ_iと上位Ｎ１個の最適サンプ
ルについて音響的距離と目標サブコストＣ^t _j（ｔ_i，
ｕ_i）を求める。＜３＞線形回帰分析を行ない、当該音素種類（カテゴ
リ）に対して、ｐ個の目標サブコストの線形重み係数を
求める。この重み係数を用いて上記コストを計算する。そして、
＜１＞から＜３＞までの処理をすべての音素種類（カテ
ゴリ）について繰り返す。

【００６２】もし仮に目的音素単位の音響的距離が直接
求められた場合に最も近い音声サンプルを選び出すため
にはそれぞれの目標サブコストにどのような重み係数を
かければ良いのかを決定するのが、この重み係数学習部
１１の目的である。本実施形態の利点は音声波形信号デ
ータベース中の音声波形信号の音声セグメントを直接的
に利用できることである。

【００６３】以上のように構成された図１の音声合成装
置において、音声分析部１０と、重み係数学習部１１
と、音声単位選択部１２と、音声合成部１３とは、例え
ば、マイクロプロセッシングユニット（ＭＰＵ）などの
デジタル計算機又は演算制御装置によって構成される一
方、テキストデータベースメモリ２２と、音素ＨＭＭメ
モリ２３と、特徴パラメータメモリ３０と、重み係数ベ
クトルメモリ３１とは例えばハードディスクなどの記憶
装置で構成される。ここで、好ましい実施例において
は、音声波形信号データベースメモリ２１は、ＣＤ−Ｒ
ＯＭの形式の記憶装置である。以下、以上のように構成
された図１の音声合成装置の各処理部１０乃至１３にお
ける処理について説明する。

【００６４】図４は、図１の音声分析部１０によって実
行される音声分析処理のフローチャートである。図４に
おいて、まず、ステップＳ１１で、音声波形信号データ
ベースメモリ２１から自然発話の音声波形信号の信号を
入力してＡ／Ｄ変換してデジタル音声波形信号データに
変換するとともに、当該音声波形信号の音声文を書き下
したテキストデータをテキストデータベースメモリ２２
内のテキストデータベースから入力する。ここで、テキ
ストデータはなくてもよく、ない場合は、音声波形信号
から公知の音声認識装置を用いて音声認識してテキスト
データを得てもよい。なお、Ａ／Ｄ変換した後のデジタ
ル音声波形信号データは、例えば１０ミリ秒毎の音声セ
グメントに分割されている。そして、ステップＳ１２
で、音素列が予測されているか否かが判断され、音素列
が予測されていないときは、ステップＳ１３で例えば音
素ＨＭＭを用いて音素列を予測して記憶した後、ステッ
プＳ１４に進む。ステップＳ１２で音素列が予測されて
いる又は予め与えられている、もしくは手作業で音素ラ
ベルが付与されているときは、直接にステップＳ１４に
進む。

【００６５】ステップＳ１４では、各音素セグメントに
対する、音声波形信号の複数の文又は１つの文からなる
ファイルにおける開始位置と終了位置を記録し、当該フ
ァイルに索引番号を付与する。次いで、ステップＳ１５
では、各音素セグメントに対する上記第１の音響的特徴
パラメータを例えば公知のピッチ抽出法を用いて抽出す
る。そして、ステップＳ１６では、各音素セグメントに
対して音素ラベル付けを実行して、音素ラベルとそれに
対する第１の音響的特徴パラメータを記録する。さら
に、ステップＳ１７では、各音素セグメントに対する第
１の音響的特徴パラメータと、音素ラベルと、音素ラベ
ルに対する上記第１の韻律的特徴パラメータを、ファイ
ルの索引番号と、ファイル内の開始位置と時間長ととも
に、特徴パラメータメモリ３０に記憶する。最後に、ス
テップＳ１８で、各音素セグメントに対して、ファイル
の索引番号とファイル内の開始位置と時間長とを含む索
引情報を付与して、当該索引情報を特徴パラメータメモ
リ３０に記憶して、当該音声分析処理を終了する。

【００６６】図５及び図６は、図１の重み係数学習部１
１によって実行される重み係数学習処理のフローチャー
トである。図５において、まず、ステップＳ２１で、特
徴パラメータメモリ３０から１個の音素種類を選択す
る。次いで、ステップＳ２２で、選択された音素種類と
同一の音素種類を有する音素の第１の音響的特徴パラメ
ータから第２の音響的特徴パラメータを取り出して目標
音素の第２の音響的特徴パラメータとする。そして、ス
テップＳ２３で、同一の音素種類を有する目標音素以外
の残りの音素と、第２の音響的特徴パラメータにおける
目標音素との間の、音響的距離であるユークリッドケプ
ストラム距離と、底を２とする対数音素時間長とを計算
する。ステップＳ２４では、すべての残りの音素につい
てステップＳ２２及びＳ２３の処理をしたか否かが判断
され、処理が完了していないときは、ステップＳ２５で
別の残りの音素を選択してステップＳ２３からの処理を
繰り返す。

【００６７】一方、ステップＳ２４で処理が完了してい
るときは、ステップＳ２６で、ステップＳ２３で得られ
た距離及び時間長に基づいて、上位Ｎ１個の最良の音素
候補を選択する。次いで、ステップＳ２７で選択された
上位Ｎ１個の最良の音素候補について１番目からＮ１番
目までランク付けする。そして、ステップＳ２８で、ラ
ンク付けされたＮ１個の最良の音素候補に対して各距離
から中間値を引いてスケール変換値を計算する。そし
て、ステップＳ２９において、すべての音素種類につい
てステップＳ２２からＳ２８までの処理を完了したか否
かが判断され、完了していないときは、ステップＳ３０
で別の音素種類を選択した後、ステップＳ２２からの処
理を繰り返す。一方、ステップＳ２９で処理が完了して
いるときは、図６のステップＳ３１に進む。

【００６８】図６において、ステップＳ３１では、１個
の音素種類を選択する。次いで、ステップＳ３２では、
選択された音素種類に対して各音素の第２の音響的特徴
パラメータを抽出する。そして、ステップＳ３３で、選
択された音素種類に対するスケール変換値に基づいて線
形回帰分析を行うことにより、各第２の音響的特徴パラ
メータにおけるスケール変換値に対する寄与度を計算
し、計算された寄与度を目標音素毎の重み係数として重
み係数ベクトルメモリ３１に記憶する。また、各第２の
韻律的特徴パラメータにおける寄与度は経験的に（又は
実験的に）予め与えられて、当該寄与度を目標音素毎の
重み係数ベクトルとして重み係数ベクトルメモリ３１に
記憶する。ステップＳ３４では、すべての音素種類につ
いて上記ステップＳ３２及びＳ３３の処理を完了したか
否かが判断され、完了していないときは、ステップＳ３
５で別の音素種類を選択した後、ステップＳ３２からの
処理を繰り返す。一方、ステップＳ３４で処理が完了し
ているときは、当該重み係数学習処理を終了する。

【００６９】図７は、図１の音声単位選択部１２によっ
て実行される音声単位選択処理のフローチャートであ
る。図７において、まず、ステップＳ４１で、入力され
た音素列のうち最初から１個目の音素を選択する。次い
で、ステップＳ４２で、選択された音素と同一の音素種
類を有する音素の重み係数ベクトルを重み係数ベクトル
メモリ３１から読み出し、目標サブコスト及び必要な特
徴パラメータを特徴パラメータメモリ３０から読み出し
てリストアップする。そして、ステップＳ４３ですべて
の音素について処理したか否かが判断され、完了してい
ないときはステップＳ４４で次の音素を選択した後、ス
テップＳ４２の処理を繰り返す。一方、ステップＳ４３
で完了していないときは、ステップＳ４５に進む。

【００７０】ステップＳ４５では、入力された音素列に
対して数４を用いて各音素候補における全体のコストを
計算する。次いで、ステップＳ４６では、計算されたコ
ストに基づいて、上位Ｎ２個の最良の音素候補をそれぞ
れの目標音素に対して選択する。そして、ステップＳ４
７では、数５を用いてビタビサーチにより、全体のコス
トを最小にする音素候補の組み合わせの索引情報と、そ
の各音素の開始時刻と時間長とともに検索した後、音声
合成部１３に出力して、当該音声単位選択処理を終了す
る。

【００７１】さらに、音声合成部１３は、音声単位選択
部１２から出力される索引情報と、その各音素の開始時
刻と時間長とに基づいて、音声波形信号データベースメ
モリ２１に対してアクセスして単位選択された音素候補
のデジタル音声波形信号データを読み出して、逐次Ｄ／
Ａ変換して変換後のアナログ音声信号をスピーカ１４を
介して出力する。これにより、入力された音素列に対応
する音声合成された音声がスピーカ１４から出力され
る。

【００７２】以上説明したように、本実施形態の音声合
成装置においては、出力音声の自然性を最大にするため
に、大規模な自然音声のデータベースを用いて処理を最
小に抑える方法について述べた。本実施形態は４つの処
理部１０乃至１３から構成される。＜音声分析部１０＞正書法の書き起こしテキストを伴っ
た任意の音声波形信号データを入力とし、この音声波形
信号データベース中のすべての音素について、それらの
性質を記述する特徴ベクトルを与える処理部。＜重み係数学習部１１＞音声波形信号データベースの特
徴ベクトルと音声波形信号データベースの原波形を用い
て、目的の音声を合成する場合に最も適するように音声
単位を選ぶための、各特徴パラメータの最適重み係数を
重みベクトルとして決定する処理部。＜音声単位選択部１２＞音声波形信号データベースの全
音素の特徴ベクトルと重みベクトルと目的音声の発話内
容の記述から音声波形信号データベースメモリ２１の索
引情報を作成する処理部。＜音声合成部１３＞作成された索引情報に従って、メモ
リ２１内の音声波形信号データベース中の音声波形信号
データの音声セグメントに飛び飛びにアクセスし、目的
の音声波形信号の音声セグメントを連結しかつＤ／Ａ変
換してスピーカ１４に出力して音声を合成する処理部。

【００７３】本実施形態においては、音声波形信号の圧
縮や音声基本周波数Ｆ₀や音素時間長の修正は不要にな
ったが、代わって音声サンプルを注意深くラベル付け
し、大規模な音声波形信号データベースの中から最適な
ものを選択することが必要となる。本実施形態の音声合
成方法の基本単位は音素であり、これは辞書やテキスト
−音素変換プログラムで生成されるが、同一の音素であ
っても音声波形信号データベース中に音素の十分なバリ
エーションを含んでいることが要求される。音声波形信
号データベースからの音声単位選択処理では目的の韻律
的環境に適合し、しかも接続したときに隣接音声単位間
での不連続性が最も低い音素サンプルの組合せが選ばれ
る。このために、音素毎に各特徴パラメータの最適重み
係数が決定される。

【００７４】

【実施例】以上のように構成された音声合成装置につい
て、以下の如く聴取実験を行った。無作為に選んだ新聞
記事５０文章から比較例及び本実施形態の音声合成装置
で合成音声を作成し、被験者に提示した。アクセント付
与は半自動的に行った。被験者には合成音声の自然性に
ついて、（ａ）イントネーションと（ｂ）連続性及び明
瞭性の評価を、「極めて良い」から「極めて悪い」の５
段階で評価させた。連続性及び明瞭性の評価の際には、
イントネーションを無視するように被験者に指示した。
合成音声は、次の５種類を使用した。（１）比較例の音声合成装置を用いて音声合成した。（２）本実施形態の音声合成装置を用いて、追加のコス
トのうち、傾きコストのみを加算して音声合成した。（３）本実施形態の音声合成装置を用いて、追加のコス
トのうち、しきい値コストのみを加算して音声合成し
た。ここで、予備的検討より、しきい値は、２０Ｈｚに
設定した。（４）本実施形態の音声合成装置を用いて、追加のコス
トのうち、差分コストのみを加算して音声合成した。（５）本実施形態の音声合成装置を用いて、すべての追
加のコストを加算して音声合成した。なお、被験者は、
合成音声を聞きなれていない６名である。

【００７５】イントネーションの評価実験の結果を図８
に示す。図８から明らかなように、今回提案した各コス
トを個別に導入することにより、イントネーションが悪
い及び極めて悪いという評価が２０％程度減少し、逆に
良い／極めてよいという評価が１０％程度増加してい
る。さらに、これらの３つの追加コストを同時に導入し
た聴取実験では、悪い／極めて悪いという評価が比較例
に比較して約半分となっており、考案した選択規準の有
用性が確認できた。

【００７６】次に、連続性及び明瞭性の評価実験の結果
を図９に示す。しきい値コスト、差分コストを個別に導
入した場合、及びすべての追加コストを導入した場合
は、比較例に比較して若干評価が低かった。この原因と
しては、これらの追加コストを追加することにより、比
較例に比較してケプストラムや音韻継続長のコストの影
響が相対的に小さくなり、音素単位の接続個所での不連
続感や不適当な音韻継続長を持つ音素単位の選択が生じ
たためであると考えられる。これに対して傾きコストを
導入した場合、連続性及び明瞭性は比較例に比較してあ
まり劣化がみられなかった。これらのことから、イント
ネーションの自然性向上に寄与し、最も好ましくは、連
続性及び明瞭性に関しても、比較例とほぼ同じ評価を得
た傾きコストのみを導入することが適切であると考えら
れる。

【００７７】以上説明したように、比較例の自然音声波
形信号接続型音声合成装置において、音声波形信号の接
続時に考慮する音素単位の選択規準を改善することによ
り、合成音声のイントネーションの自然性向上を図っ
た。音声基本周波数Ｆ₀パターンの傾き、目標音声基本
周波数Ｆ₀との差に対するしきい値、連続する音素単位
の目標音声基本周波数Ｆ₀の差分を考慮する選択規準を
導入することにより、合成音声のイントネーションの自
然性が向上することを聴取実験より確認した。これらの
うち、音声基本周波数Ｆ₀パターンの傾きのみを考慮し
た場合に合成音声の品質があまり劣化しないことを確認
した。それ以外の方法ではイントネーションの自然性が
向上する。

【００７８】

【発明の効果】以上詳述したように本発明に係る請求項
１記載の自然発話音声波形信号接続型音声合成装置によ
れば、自然発話の音声波形信号の音声セグメントを記憶
する第１の記憶手段と、上記第１の記憶手段によって記
憶された音声波形信号の音声セグメントと、上記音声波
形信号に対応する音素列とに基づいて、上記音声波形信
号における音素毎の索引情報と、上記索引情報によって
示された音素毎の第１の音響的特徴パラメータと、上記
索引情報によって示された音素毎の第１の韻律的特徴パ
ラメータとを抽出して出力する音声分析手段と、上記音
声分析手段から出力される索引情報と、上記第１の音響
的特徴パラメータと、上記第１の韻律的特徴パラメータ
とを記憶する第２の記憶手段と、上記第２の記憶手段に
よって記憶された第１の音響的特徴パラメータに基づい
て、同一の音素種類の１つの目標音素とそれ以外の音素
候補との間の第２の音響的特徴パラメータにおける音響
的距離を計算し、計算した音響的距離に基づいて上記第
２の音響的特徴パラメータにおいて線形回帰分析するこ
とにより、各音素候補に関する上記第２の音響的特徴パ
ラメータにおける寄与度を表わす各目標音素毎の重み係
数ベクトルを決定する重み係数学習手段と、上記重み係
数学習手段によって決定された上記第２の音響的特徴パ
ラメータにおける各目標音素毎の重み係数ベクトルと、
予め与えられた、各音素候補に関する第２の韻律的特徴
パラメータにおける寄与度を表わす各目標音素毎の重み
係数ベクトルとを記憶する第３の記憶手段と、上記第３
の記憶手段によって記憶された各目標音素毎の重み係数
ベクトルと、上記第２の記憶手段によって記憶された第
１の韻律的特徴パラメータとに基づいて、入力される自
然発話文の音素列に対して、目標音素と音素候補との間
の近似コストを表わす目標コストと、隣接して連結され
るべき２つの音素候補間の近似コストを表わす連結コス
トとを含むコストが最小となる、音素候補の組み合わせ
を検索して、検索した音素候補の組み合わせの索引情報
を出力する音声単位選択手段と、上記音声単位選択手段
から出力される索引情報に基づいて、当該索引情報に対
応する音声波形信号の音声セグメントを上記第１の記憶
手段から逐次読み出して連結して出力することにより、
上記入力された音素列に対応する音声を合成して出力す
る音声合成手段とを備え、上記音声単位選択手段は、目
標音素の音声基本周波数Ｆ₀と音素候補の音声基本周波
数Ｆ₀との傾きの差を目標コストに加算する。従って、
韻律制御規則を使わず、信号処理を実行することなく、
任意の音素列を発声音声に変換することができ、しかも
より自然に近い声質を得ることができる。また、比較例
に比較してより自然なイントネーションで音声合成する
ことができる。

【００７９】また、本発明に係る請求項２記載の自然発
話音声波形信号接続型音声合成装置においては、自然発
話の音声波形信号の音声セグメントを記憶する第１の記
憶手段と、上記第１の記憶手段によって記憶された音声
波形信号の音声セグメントと、上記音声波形信号に対応
する音素列とに基づいて、上記音声波形信号における音
素毎の索引情報と、上記索引情報によって示された音素
毎の第１の音響的特徴パラメータと、上記索引情報によ
って示された音素毎の第１の韻律的特徴パラメータとを
抽出して出力する音声分析手段と、上記音声分析手段か
ら出力される索引情報と、上記第１の音響的特徴パラメ
ータと、上記第１の韻律的特徴パラメータとを記憶する
第２の記憶手段と、上記第２の記憶手段によって記憶さ
れた第１の音響的特徴パラメータに基づいて、同一の音
素種類の１つの目標音素とそれ以外の音素候補との間の
第２の音響的特徴パラメータにおける音響的距離を計算
し、計算した音響的距離に基づいて上記第２の音響的特
徴パラメータにおいて線形回帰分析することにより、各
音素候補に関する上記第２の音響的特徴パラメータにお
ける寄与度を表わす各目標音素毎の重み係数ベクトルを
決定する重み係数学習手段と、上記重み係数学習手段に
よって決定された上記第２の音響的特徴パラメータにお
ける各目標音素毎の重み係数ベクトルと、予め与えられ
た、各音素候補に関する第２の韻律的特徴パラメータに
おける寄与度を表わす各目標音素毎の重み係数ベクトル
とを記憶する第３の記憶手段と、上記第３の記憶手段に
よって記憶された各目標音素毎の重み係数ベクトルと、
上記第２の記憶手段によって記憶された第１の韻律的特
徴パラメータとに基づいて、入力される自然発話文の音
素列に対して、目標音素と音素候補との間の近似コスト
を表わす目標コストと、隣接して連結されるべき２つの
音素候補間の近似コストを表わす連結コストとを含むコ
ストが最小となる、音素候補の組み合わせを検索して、
検索した音素候補の組み合わせの索引情報を出力する音
声単位選択手段と、上記音声単位選択手段から出力され
る索引情報に基づいて、当該索引情報に対応する音声波
形信号の音声セグメントを上記第１の記憶手段から逐次
読み出して連結して出力することにより、上記入力され
た音素列に対応する音声を合成して出力する音声合成手
段とを備え、上記音声単位選択手段は、目標音素の音声
基本周波数Ｆ₀の中央値と、音素候補の音声基本周波数
Ｆ₀の中央値の差が所定のしきい値以上であるとき、所
定のペナルティーコストを目標コストに加算する。従っ
て、韻律制御規則を使わず、信号処理を実行することな
く、任意の音素列を発声音声に変換することができ、し
かもより自然に近い声質を得ることができる。また、比
較例に比較してより自然なイントネーションで音声合成
することができる。

【００８０】さらに、本発明に係る請求項３記載の自然
発話音声波形信号接続型音声合成装置においては、自然
発話の音声波形信号の音声セグメントを記憶する第１の
記憶手段と、上記第１の記憶手段によって記憶された音
声波形信号の音声セグメントと、上記音声波形信号に対
応する音素列とに基づいて、上記音声波形信号における
音素毎の索引情報と、上記索引情報によって示された音
素毎の第１の音響的特徴パラメータと、上記索引情報に
よって示された音素毎の第１の韻律的特徴パラメータと
を抽出して出力する音声分析手段と、上記音声分析手段
から出力される索引情報と、上記第１の音響的特徴パラ
メータと、上記第１の韻律的特徴パラメータとを記憶す
る第２の記憶手段と、上記第２の記憶手段によって記憶
された第１の音響的特徴パラメータに基づいて、同一の
音素種類の１つの目標音素とそれ以外の音素候補との間
の第２の音響的特徴パラメータにおける音響的距離を計
算し、計算した音響的距離に基づいて上記第２の音響的
特徴パラメータにおいて線形回帰分析することにより、
各音素候補に関する上記第２の音響的特徴パラメータに
おける寄与度を表わす各目標音素毎の重み係数ベクトル
を決定する重み係数学習手段と、上記重み係数学習手段
によって決定された上記第２の音響的特徴パラメータに
おける各目標音素毎の重み係数ベクトルと、予め与えら
れた、各音素候補に関する第２の韻律的特徴パラメータ
における寄与度を表わす各目標音素毎の重み係数ベクト
ルとを記憶する第３の記憶手段と、上記第３の記憶手段
によって記憶された各目標音素毎の重み係数ベクトル
と、上記第２の記憶手段によって記憶された第１の韻律
的特徴パラメータとに基づいて、入力される自然発話文
の音素列に対して、目標音素と音素候補との間の近似コ
ストを表わす目標コストと、隣接して連結されるべき２
つの音素候補間の近似コストを表わす連結コストとを含
むコストが最小となる、音素候補の組み合わせを検索し
て、検索した音素候補の組み合わせの索引情報を出力す
る音声単位選択手段と、上記音声単位選択手段から出力
される索引情報に基づいて、当該索引情報に対応する音
声波形信号の音声セグメントを上記第１の記憶手段から
逐次読み出して連結して出力することにより、上記入力
された音素列に対応する音声を合成して出力する音声合
成手段とを備え、上記音声単位選択手段は、連続する２
つの目標音素の音声基本周波数Ｆ₀の差分と、連続する
２つの音素候補の音声基本周波数Ｆ₀の差分との加算値
の絶対値を連結コストに加算する。従って、韻律制御規
則を使わず、信号処理を実行することなく、任意の音素
列を発声音声に変換することができ、しかもより自然に
近い声質を得ることができる。また、比較例に比較して
より自然なイントネーションで音声合成することができ
る。

【００８１】また、請求項４記載の音声合成装置におい
ては、請求項１記載の音声合成装置において、上記音声
単位選択手段は、目標音素の音声基本周波数Ｆ₀の中央
値と、音素候補の音声基本周波数Ｆ₀の中央値の差が所
定のしきい値以上であるとき、所定のペナルティーコス
トを目標コストにさらに加算する。従って、韻律制御規
則を使わず、信号処理を実行することなく、任意の音素
列を発声音声に変換することができ、しかもより自然に
近い声質を得ることができる。また、比較例に比較して
より自然なイントネーションで音声合成することができ
る。

【００８２】さらに、請求項５記載の音声合成装置にお
いては、請求項１又は４記載の音声合成装置において、
上記音声単位選択手段は、連続する２つの目標音素の音
声基本周波数Ｆ₀の差分と、連続する２つの音素候補の
音声基本周波数Ｆ₀の差分との加算値の絶対値を連結コ
ストに加算する。従って、韻律制御規則を使わず、信号
処理を実行することなく、任意の音素列を発声音声に変
換することができ、しかもより自然に近い声質を得るこ
とができる。また、比較例に比較してより自然なイント
ネーションで音声合成することができる。

【図面の簡単な説明】

【図１】本発明に係る一実施形態である自然発話音声
波形信号接続型音声合成装置のブロック図である。

【図２】従来例の音声合成装置のブロック図である。

【図３】図１の音声単位選択部によって計算される音
声単位選択コストの定義を示すモデル図である。

【図４】図１の音声分析部によって実行される音声分
析処理のフローチャートである。

【図５】図１の重み係数学習部によって実行される重
み係数学習処理の第１の部分のフローチャートである。

【図６】図１の重み係数学習部によって実行される重
み係数学習処理の第２の部分のフローチャートである。

【図７】図１の音声単位選択部によって実行される音
声単位選択処理のフローチャートである。

【図８】図１の音声合成装置の聴取実験結果であっ
て、イントネーションの評価結果を示すグラフである。

【図９】図１の音声合成装置の聴取実験結果であっ
て、連続性及び明瞭性の評価結果を示すグラフである。

【符号の説明】

１０…音声分析部、１１…重み係数学習部、１２…音声単位選択部、１３…音声合成部、１４…スピーカ、２１…音声波形信号データベースメモリ、２２…テキストデータベースメモリ、２３…音素ＨＭＭメモリ、３０…特徴パラメータメモリ、３１…重み係数ベクトル。

───────────────────────────────────────────────────── フロントページの続き (72)発明者平井俊男京都府相楽郡精華町大字乾谷小字三平谷５番地株式会社エイ・ティ・アール音声翻訳通信研究所内 (72)発明者ニック・キャンベル京都府相楽郡精華町大字乾谷小字三平谷５番地株式会社エイ・ティ・アール音声翻訳通信研究所内 (72)発明者樋口宜男京都府相楽郡精華町大字乾谷小字三平谷５番地株式会社エイ・ティ・アール音声翻訳通信研究所内

Claims

【特許請求の範囲】

【請求項１】自然発話の音声波形信号の音声セグメン
トを記憶する第１の記憶手段と、上記第１の記憶手段によって記憶された音声波形信号の
音声セグメントと、上記音声波形信号に対応する音素列
とに基づいて、上記音声波形信号における音素毎の索引
情報と、上記索引情報によって示された音素毎の第１の
音響的特徴パラメータと、上記索引情報によって示され
た音素毎の第１の韻律的特徴パラメータとを抽出して出
力する音声分析手段と、上記音声分析手段から出力される索引情報と、上記第１
の音響的特徴パラメータと、上記第１の韻律的特徴パラ
メータとを記憶する第２の記憶手段と、上記第２の記憶手段によって記憶された第１の音響的特
徴パラメータに基づいて、同一の音素種類の１つの目標
音素とそれ以外の音素候補との間の第２の音響的特徴パ
ラメータにおける音響的距離を計算し、計算した音響的
距離に基づいて上記第２の音響的特徴パラメータにおい
て線形回帰分析することにより、各音素候補に関する上
記第２の音響的特徴パラメータにおける寄与度を表わす
各目標音素毎の重み係数ベクトルを決定する重み係数学
習手段と、上記重み係数学習手段によって決定された上記第２の音
響的特徴パラメータにおける各目標音素毎の重み係数ベ
クトルと、予め与えられた、各音素候補に関する第２の
韻律的特徴パラメータにおける寄与度を表わす各目標音
素毎の重み係数ベクトルとを記憶する第３の記憶手段
と、上記第３の記憶手段によって記憶された各目標音素毎の
重み係数ベクトルと、上記第２の記憶手段によって記憶
された第１の韻律的特徴パラメータとに基づいて、入力
される自然発話文の音素列に対して、目標音素と音素候
補との間の近似コストを表わす目標コストと、隣接して
連結されるべき２つの音素候補間の近似コストを表わす
連結コストとを含むコストが最小となる、音素候補の組
み合わせを検索して、検索した音素候補の組み合わせの
索引情報を出力する音声単位選択手段と、上記音声単位選択手段から出力される索引情報に基づい
て、当該索引情報に対応する音声波形信号の音声セグメ
ントを上記第１の記憶手段から逐次読み出して連結して
出力することにより、上記入力された音素列に対応する
音声を合成して出力する音声合成手段とを備え、上記音声単位選択手段は、目標音素の音声基本周波数Ｆ
₀と音素候補の音声基本周波数Ｆ₀との傾きの差を目標コ
ストに加算することを特徴とする自然発話音声波形信号
接続型音声合成装置。
【請求項２】自然発話の音声波形信号の音声セグメン
トを記憶する第１の記憶手段と、上記第１の記憶手段によって記憶された音声波形信号の
音声セグメントと、上記音声波形信号に対応する音素列
とに基づいて、上記音声波形信号における音素毎の索引
情報と、上記索引情報によって示された音素毎の第１の
音響的特徴パラメータと、上記索引情報によって示され
た音素毎の第１の韻律的特徴パラメータとを抽出して出
力する音声分析手段と、上記音声分析手段から出力される索引情報と、上記第１
の音響的特徴パラメータと、上記第１の韻律的特徴パラ
メータとを記憶する第２の記憶手段と、上記第２の記憶手段によって記憶された第１の音響的特
徴パラメータに基づいて、同一の音素種類の１つの目標
音素とそれ以外の音素候補との間の第２の音響的特徴パ
ラメータにおける音響的距離を計算し、計算した音響的
距離に基づいて上記第２の音響的特徴パラメータにおい
て線形回帰分析することにより、各音素候補に関する上
記第２の音響的特徴パラメータにおける寄与度を表わす
各目標音素毎の重み係数ベクトルを決定する重み係数学
習手段と、上記重み係数学習手段によって決定された上記第２の音
響的特徴パラメータにおける各目標音素毎の重み係数ベ
クトルと、予め与えられた、各音素候補に関する第２の
韻律的特徴パラメータにおける寄与度を表わす各目標音
素毎の重み係数ベクトルとを記憶する第３の記憶手段
と、上記第３の記憶手段によって記憶された各目標音素毎の
重み係数ベクトルと、上記第２の記憶手段によって記憶
された第１の韻律的特徴パラメータとに基づいて、入力
される自然発話文の音素列に対して、目標音素と音素候
補との間の近似コストを表わす目標コストと、隣接して
連結されるべき２つの音素候補間の近似コストを表わす
連結コストとを含むコストが最小となる、音素候補の組
み合わせを検索して、検索した音素候補の組み合わせの
索引情報を出力する音声単位選択手段と、上記音声単位選択手段から出力される索引情報に基づい
て、当該索引情報に対応する音声波形信号の音声セグメ
ントを上記第１の記憶手段から逐次読み出して連結して
出力することにより、上記入力された音素列に対応する
音声を合成して出力する音声合成手段とを備え、上記音声単位選択手段は、目標音素の音声基本周波数Ｆ
₀の中央値と、音素候補の音声基本周波数Ｆ₀の中央値の
差が所定のしきい値以上であるとき、所定のペナルティ
ーコストを目標コストに加算することを特徴とする自然
発話音声波形信号接続型音声合成装置。
【請求項３】自然発話の音声波形信号の音声セグメン
トを記憶する第１の記憶手段と、上記第１の記憶手段によって記憶された音声波形信号の
音声セグメントと、上記音声波形信号に対応する音素列
とに基づいて、上記音声波形信号における音素毎の索引
情報と、上記索引情報によって示された音素毎の第１の
音響的特徴パラメータと、上記索引情報によって示され
た音素毎の第１の韻律的特徴パラメータとを抽出して出
力する音声分析手段と、上記音声分析手段から出力される索引情報と、上記第１
の音響的特徴パラメータと、上記第１の韻律的特徴パラ
メータとを記憶する第２の記憶手段と、上記第２の記憶手段によって記憶された第１の音響的特
徴パラメータに基づいて、同一の音素種類の１つの目標
音素とそれ以外の音素候補との間の第２の音響的特徴パ
ラメータにおける音響的距離を計算し、計算した音響的
距離に基づいて上記第２の音響的特徴パラメータにおい
て線形回帰分析することにより、各音素候補に関する上
記第２の音響的特徴パラメータにおける寄与度を表わす
各目標音素毎の重み係数ベクトルを決定する重み係数学
習手段と、上記重み係数学習手段によって決定された上記第２の音
響的特徴パラメータにおける各目標音素毎の重み係数ベ
クトルと、予め与えられた、各音素候補に関する第２の
韻律的特徴パラメータにおける寄与度を表わす各目標音
素毎の重み係数ベクトルとを記憶する第３の記憶手段
と、上記第３の記憶手段によって記憶された各目標音素毎の
重み係数ベクトルと、上記第２の記憶手段によって記憶
された第１の韻律的特徴パラメータとに基づいて、入力
される自然発話文の音素列に対して、目標音素と音素候
補との間の近似コストを表わす目標コストと、隣接して
連結されるべき２つの音素候補間の近似コストを表わす
連結コストとを含むコストが最小となる、音素候補の組
み合わせを検索して、検索した音素候補の組み合わせの
索引情報を出力する音声単位選択手段と、上記音声単位選択手段から出力される索引情報に基づい
て、当該索引情報に対応する音声波形信号の音声セグメ
ントを上記第１の記憶手段から逐次読み出して連結して
出力することにより、上記入力された音素列に対応する
音声を合成して出力する音声合成手段とを備え、上記音声単位選択手段は、連続する２つの目標音素の音
声基本周波数Ｆ₀の差分と、連続する２つの音素候補の
音声基本周波数Ｆ₀の差分との加算値の絶対値を連結コ
ストに加算することを特徴とする自然発話音声波形信号
接続型音声合成装置。
【請求項４】上記音声単位選択手段は、目標音素の音
声基本周波数Ｆ₀の中央値と、音素候補の音声基本周波
数Ｆ₀の中央値の差が所定のしきい値以上であるとき、
所定のペナルティーコストを目標コストにさらに加算す
ることを特徴とする請求項１記載の音声合成装置。
【請求項５】上記音声単位選択手段は、連続する２つ
の目標音素の音声基本周波数Ｆ₀の差分と、連続する２
つの音素候補の音声基本周波数Ｆ₀の差分との加算値の
絶対値を連結コストに加算することを特徴とする請求項
１又は４記載の音声合成装置。
【請求項６】上記音声単位選択手段は、上記目標コス
トと上記連結コストとを含むコストが最良の上位複数Ｎ
２個の音素候補を抽出した後、コストが最小となる音素
候補の組み合わせを検索することを特徴とする請求項１
乃至５のうちの１つに記載の音声合成装置。
【請求項７】上記音声分析手段は、入力される音声波
形信号に基づいて上記音声波形信号に対応する音素列を
予測する音素予測手段を備えたことを特徴とする請求項
１乃至６のうちの１つに記載の音声合成装置。
【請求項８】上記重み係数学習手段は、上記計算した
音響的距離に基づいて、最良の上位複数Ｎ１個の音素候
補を抽出した後、上記第２の音響的特徴パラメータにお
いて線形回帰分析することにより、各音素候補に関する
上記第２の音響的特徴パラメータにおける寄与度を表わ
す各目標音素毎の重み係数ベクトルを決定することを特
徴とする請求項１乃至７のうちの１つに記載の音声合成
装置。
【請求項９】上記第１の音響的特徴パラメータは、ケ
プストラム係数と、デルタケプストラム係数と、音素ラ
ベルとを含むことを特徴とする請求項１乃至８のうちの
１つに記載の音声合成装置。
【請求項１０】上記第１の韻律的特徴パラメータは、
音素時間長と、音声基本周波数Ｆ₀と、パワーとを含む
ことを特徴とする請求項１乃至９のうちの１つに記載の
音声合成装置。
【請求項１１】上記第２の音響的特徴パラメータは、
（ａ）処理すべき当該音素から先行する先行音素の音素
ラベルと、（ｂ）当該音素から後続する後続音素の音素
ラベルと、（ｃ）音素間の接続点におけるケプストラム
距離と、（ｄ）音素間の対数パワーの差の絶対値と、
（ｅ）音素間の音声基本周波数Ｆ₀の差の絶対値とを含
むことを特徴とする請求項１乃至１０のうちの１つに記
載の音声合成装置。
【請求項１２】上記第２の韻律的特徴パラメータは、
（ａ）処理すべき当該音素から先行する先行音素の第１
の韻律的特徴パラメータと、（ｂ）当該音素から後続す
る後続音素の音素ラベルの第１の韻律的特徴パラメータ
と、（ｃ）当該音素の音素時間長と、（ｄ）当該音素の
音声基本周波数Ｆ₀と、（ｅ）先行音素の音声基本周波
数Ｆ₀と、を含むことを特徴とする請求項１乃至１１の
うちの１つに記載の音声合成装置。