JPH02281298A

JPH02281298A - ピッチパタン生成処理方法

Info

Publication number: JPH02281298A
Application number: JP1102915A
Authority: JP
Inventors: Kazuo Hakoda; 箱田　和雄; Shinya Nakajima; 信弥中嶌; Tomohisa Hirokawa; 広川　智久
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1989-04-21
Filing date: 1989-04-21
Publication date: 1990-11-16

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】「産業上の利用分野」この発明は、漢字かな混じりの任意の日本語文章を音声
に変換するテキスト合成装置のピッチパタン生成処理方
法に関するものである。

「従来の技術」文章音声の韻律は、入力テキスト文に含まれるテキスト
情報と深いか−わりがある。これまで韻律を規定するピ
ッチパタンの生成手法の多くは、テキスト情報の中でも
文を構成する文節間の係受は距離に着目し、韻律を規定
するピッチパタン、つまり音調結合型と係受は距離との
関係を解析し、その結果に基づいて文章音声ピッチパタ
ンを近似表現する台形点ピッチ近位モデルを使ってピッ
チパタンを生成するものである。しかし、現状のテキス
ト解析技術ではテキスト文を解析して係受は距離を精度
良く抽出できないことから、上記手法をそのままテキス
ト合成装置に導入することはできない。また、上記手法
の多くは、比較的構造が簡単な単文の解析結果に基づい
たものであり、構造が複雑な長文を含む文章に適用する
には考慮されているテキスト情報の種類が少ないなど問
題がある。

一方、はとんどテキスト解析を必要としない簡易なテキ
スト情報から統計的手法を用いてピッチパタンを生成す
る手法が提案されている。この手法は、多変量解析で使
われる線形モデルを用いて、音韻を代表するピッチ値を
直接推定するものである。線形モデルの入力変数には、
テキスト情報としてアクセントや音韻情報、単語内の音
韻位置情報を用いている。この手法は、先に述べた従来
の手法と異なりピッチパタン全体の形状を近似するモデ
ルを使わず直接パラメータの値を推定しているために、
ピッチ値が時間軸方向に不連続になり合成音に歪を発生
し易い。また、構文的情報が使われていないために、文
章特有の複雑なピッチ変化をこの線形モデルで表現でき
ないなどの問題がある。

この発明の目的は上記問題点を解決するものであり、従
来の台形点ピッチ近似モデルを基本としたピッチパタン
生成処理方法に新たに統計的手法を導入し、対象を単文
から文章に拡張し、かつテキスト情報が限定された場合
でも、合成音に自然でかつ安定したイントネーションが
付与できるピッチパタン生成処理方法を提供することに
ある。

［課題を解決するだの手段」この発明によれば入カテキスト文をテキスト解析部で解
析してテキスト情報を得、そのテキスト情報から音調結
合型を音調結合型導出部で決定し、その音調結合型から
、文章音声ピッチパタンを近似表現する台形点ピッチ近
似モデルと、そのモデルの制御パラメータを音調結合型
から決定する規則とを用いて入力テキスト文のピッチパ
タンを生成するピッチパタン生成処理方法において、音
調結合型導出部は文節間の係受は距離のみならず少くと
も係受は関係を含むテキスト情報と音調結合型との関係
を統計的に記述する線形モデルを用いて音調結合型を決
定することを特徴とする。

「実施例」第１図にこの発明の一実施例を示す。端子ｌより漢字か
な混じりの日本語テキスト文が入力されると、テキスト
解析部２において形態素解析や漢字かな変換、アクセン
ト処理が行われ、単語に対する品詞名、隣接する文節間
の係受は関係等のテキスト情報、及び漢字部分に対する
読みや文節アクセントが出力される。音調結合型導出部
３では抽出されたテキスト情報と線形モデルを用いて各
文節境界に対して最適な音調結合型を決定する。

話調成分生成部４では音調結合型に基づいてポーズで区
切られた音声区分（句）単位に台形点ピッチ近似モデル
の話調成分を生成する。アクセン１−成分生成部５では
、文節アクセントと音節数に基づいて台形点ピッチ近似
モデルのアクセント成分の基本形状を作り、その後音調
結合型に基づいてその大きさを決定する。文節結合処理
部６では、文節単位に生成されたアクセント成分を句単
位に結合し、話調成分の上に重畳させる。文末イントネ
ーション生成部７では文末の音節を中心に疑問等のイン
トネーションに対するピンチバタン変形処理を加える。

第２図はこの発明で使用する文章音声ピッチパタンを近
似表現する台形点ピッチ近似モデルである。点線で示さ
れる話調成分は、始点周波数Ｆｓと終点周波数Ｆｅで制
御される。アクセント成分はアクセント形と音節数によ
りその基本形状が決まり、その大きさはストレス量Ｓで
制御される。モデルの制御パラメータＦｓ、　Ｆｅ、　
　Ｓば、文節境界において指定される５種類の音調結合
型から規則により決定される。音調結合型の種類、及び
文節ピッチパタンの結合様式を第３図に示す。大、小ポ
ーズを介した結合では、文節境界に隣接する文節は独立
した句を構成し、その句のＦｓ、　Ｆｅ、及び文節のス
トレス量は通常一定の値が設定される。話調の切れ目を
伴う結合の場合は、文節境界において先行文節の話調成
分がＦｅまで下降した後、ポーズを伴わずに後続の話調
成分がＦｓから始まる。強・弱結合の場合は、隣接する
文節は同一の話調成分上にある。文節のストレス量は句
の左端の文節を基準に以下の式を用いて順次計算される
。

５２＝ＫＸＳ１　　強結合の場合　Ｋ　＜　１．０間詰
合の場合　Ｋ　＞　１．０ここで、Ｓｌは先行する文節のストレス量を、Ｓ２は後
続する文節のストレス量を示す。

この発明では、上記音調結合型をテキス１〜情報から導
出するのに線形モデルを導入する。まっ、文章音声を分
析して音調結合型を抽出した後に、テキスト情報と音調
結合型との関係を線形モデルで以下のように近似表現す
る。

Ｙ−ΣＷｉ−Ｘｉ＋ｅＹ：従属変数−一音調結合型Ｘ；独立変数−一テキス１へ情報ｅ：誤差項Ｗｉ：偏回帰係数５種類の音調結合型は、１　（強結合）、２（弱結合）
、３（話調の切れ目を伴う結合）、４（小ポース）、５
（大ポーズ）の数値が割当てられ数（点化される。

テキスト情報は、林の数量化理論を用いて以下のカテゴ
リ変量で数値表現する。

δ１（ｊ）・・・１サンプルｉがカテゴリｊに属する０
　　　　　　　　　　　属しない音調結合型は、数値化されたテキスト情報から以下の推
定式を用いて予測する。

Ｙ−ΣΣＷｉｋ・　δｉ　（ｊｋ） δｉ　（ｊｋ）　：アイテムｋに対するδｉ（Ｄ偏回帰
係数Ｗｉｋは、音調結合型の予測値と実測値との間で相
関（重相関係数）が最大になるように予め計算されたも
のを使用する。

ここで独立変数に使用するテキスト情報の種類、カテゴ
リ数を第４図に示す。第４図の係受は距離（分離度Ｄ）
は文節境界におし）る統語上の切れ目の深さを近似的に
示す尺度として従来使われているもので、当該文節から
受けの文節にいたる道のり（文節数）で計算される。係
受は関係はこの発明で新たに導入されたものであり、隣
接する文節間の文法的接続関係を示す。句読点は、文節
境界におＬＪる句読点の有り／無しを示す。文節位置は
、文節境界が文の先頭、文中、文末のいづれにあるかを
示す。先行、後続文節調は、各々文節境界に先行する文
節、後続する文節の長さ（音節数）を示す。

第５図は、文章音声を対象にして係受は関係と音調結合
の強さとの関係を調べた結果である。この結果に基づい
て、係受は関係を図に示されるようにＧ１−Ｇ６の６種
類のグループに大分類した。

第６図は、この発明の効果を示すものである。

男声アナランサが発話した文章データ（４０文、３６１
文節）、単文データ（４２文、１９１文節）を用いて、
音調結合型に対し線形モデルを用いて予測を試み、実測
値との間で比較を行ったものである。横軸は使用したテ
キス１〜情報の番号（第４図）を示す。この図より従来
用いられていた係受は距離りに対して、さらに係受は関
係や句読点などの５つのテキスト情報を組合わせること
により、文章音声に対して予測誤差を０．９程度、単文
に対しては０．６以下に抑えられることがわかる。また
、予測された音調結合型から合成音を作成し、試聴した
結果、従来手法の合成音に比べてより自然性に優れてい
ることを確認した。

第７図は、分離度りの計算で、係受＆Ｊの範囲に制約を
設けて分離度りを計算した場合について分離度りと音調
結合型の推定精度との関係を調べたものである。この図
から、係受は解析の範囲を隣接する数文節に限定（Ｄ＜
２）しても、推定精度は変わらないことがわかる。従っ
て第４図において分離度りは文節数が２以上か以下かの
二つのカテゴリとすることができる。現状のテキスト解
析技術でも文節間の係受けは、隣接する数文節に限定す
ればかなりの精度で抽出可能である。

「発明の効果」以上述べたようにこの発明によれば文節間の係受は距離
のみならず少くとも係受は関係を含むテキスト情報と音
調結合型上の関係を統計的に記述する線形モデルを用い
て音調結合型を決定するため、単文のみならす長文の文
章についても音調結合型の推定精度が向上し、しかも係
受は解析の範囲を隣接する数文節に限定しても高い音調
結合型の推定精度が得られる。このように音調結合型を
高く推定できるから自然音声に近いピッチパタンを生成
することができる。

【図面の簡単な説明】

第１図はこの発明によるピッチパタン生成処理方法の実
施例を示ずブｍｌツタ図、第２図は文章音声のピッチパ
タンを近似する台形点ピッチ近似モデルを示す図、第３
図は音調結合型の種類と文節単位にピッチパタンを結合
する時の結合様式を示す図、第４図は線形モデルで用い
るテキスト情報の内容とカテゴリ数を示す図、第５図は
係受は関係の内容とその分類を示す図、第６図は線形モ
デルを用いて音調結合型の推定を行い、テキスト情報の
内容と推定誤差との関係を求めた図、第７図は係受けの
範囲を変えた時の、分離度りと音調結合型の推定誤差と
の関係を示す図である。特許出願人　日本電信電話株式会社

Claims

【特許請求の範囲】

（１）入力テキスト文をテキスト解析部で解析してテキ
スト情報を得、そのテキスト情報から音調結合型を音調
結合型導出部で決定し、その音調結合型から、文章音声
ピッチパタンを近似表現する台形点ピッチ近似モデルと
、そのモデルの制御パラメータを音調結合型から決定す
る規則とを用いて上記入力テキスト文のピッチパタンを
生成するピッチパタン生成処理方法において、上記音調結合型導出部は、文節間の係受け距離のみなら
ず少くとも係受け関係を含むテキスト情報と音調結合型
との関係を統計的に記述する線形モデルを用いて音調結
合型を決定することを特徴とするピッチパタン生成処理
方法。