JPH02281298A - ピッチパタン生成処理方法 - Google Patents

ピッチパタン生成処理方法

Info

Publication number
JPH02281298A
JPH02281298A JP1102915A JP10291589A JPH02281298A JP H02281298 A JPH02281298 A JP H02281298A JP 1102915 A JP1102915 A JP 1102915A JP 10291589 A JP10291589 A JP 10291589A JP H02281298 A JPH02281298 A JP H02281298A
Authority
JP
Japan
Prior art keywords
coupling type
tone
combination type
text information
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1102915A
Other languages
English (en)
Inventor
Kazuo Hakoda
箱田 和雄
Shinya Nakajima
信弥 中嶌
Tomohisa Hirokawa
広川 智久
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP1102915A priority Critical patent/JPH02281298A/ja
Publication of JPH02281298A publication Critical patent/JPH02281298A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 「産業上の利用分野」 この発明は、漢字かな混じりの任意の日本語文章を音声
に変換するテキスト合成装置のピッチパタン生成処理方
法に関するものである。
「従来の技術」 文章音声の韻律は、入力テキスト文に含まれるテキスト
情報と深いか−わりがある。これまで韻律を規定するピ
ッチパタンの生成手法の多くは、テキスト情報の中でも
文を構成する文節間の係受は距離に着目し、韻律を規定
するピッチパタン、つまり音調結合型と係受は距離との
関係を解析し、その結果に基づいて文章音声ピッチパタ
ンを近似表現する台形点ピッチ近位モデルを使ってピッ
チパタンを生成するものである。しかし、現状のテキス
ト解析技術ではテキスト文を解析して係受は距離を精度
良く抽出できないことから、上記手法をそのままテキス
ト合成装置に導入することはできない。また、上記手法
の多くは、比較的構造が簡単な単文の解析結果に基づい
たものであり、構造が複雑な長文を含む文章に適用する
には考慮されているテキスト情報の種類が少ないなど問
題がある。
一方、はとんどテキスト解析を必要としない簡易なテキ
スト情報から統計的手法を用いてピッチパタンを生成す
る手法が提案されている。この手法は、多変量解析で使
われる線形モデルを用いて、音韻を代表するピッチ値を
直接推定するものである。線形モデルの入力変数には、
テキスト情報としてアクセントや音韻情報、単語内の音
韻位置情報を用いている。この手法は、先に述べた従来
の手法と異なりピッチパタン全体の形状を近似するモデ
ルを使わず直接パラメータの値を推定しているために、
ピッチ値が時間軸方向に不連続になり合成音に歪を発生
し易い。また、構文的情報が使われていないために、文
章特有の複雑なピッチ変化をこの線形モデルで表現でき
ないなどの問題がある。
この発明の目的は上記問題点を解決するものであり、従
来の台形点ピッチ近似モデルを基本としたピッチパタン
生成処理方法に新たに統計的手法を導入し、対象を単文
から文章に拡張し、かつテキスト情報が限定された場合
でも、合成音に自然でかつ安定したイントネーションが
付与できるピッチパタン生成処理方法を提供することに
ある。
[課題を解決するだの手段」 この発明によれば入カテキスト文をテキスト解析部で解
析してテキスト情報を得、そのテキスト情報から音調結
合型を音調結合型導出部で決定し、その音調結合型から
、文章音声ピッチパタンを近似表現する台形点ピッチ近
似モデルと、そのモデルの制御パラメータを音調結合型
から決定する規則とを用いて入力テキスト文のピッチパ
タンを生成するピッチパタン生成処理方法において、音
調結合型導出部は文節間の係受は距離のみならず少くと
も係受は関係を含むテキスト情報と音調結合型との関係
を統計的に記述する線形モデルを用いて音調結合型を決
定することを特徴とする。
「実施例」 第1図にこの発明の一実施例を示す。端子lより漢字か
な混じりの日本語テキスト文が入力されると、テキスト
解析部2において形態素解析や漢字かな変換、アクセン
ト処理が行われ、単語に対する品詞名、隣接する文節間
の係受は関係等のテキスト情報、及び漢字部分に対する
読みや文節アクセントが出力される。音調結合型導出部
3では抽出されたテキスト情報と線形モデルを用いて各
文節境界に対して最適な音調結合型を決定する。
話調成分生成部4では音調結合型に基づいてポーズで区
切られた音声区分(句)単位に台形点ピッチ近似モデル
の話調成分を生成する。アクセン1−成分生成部5では
、文節アクセントと音節数に基づいて台形点ピッチ近似
モデルのアクセント成分の基本形状を作り、その後音調
結合型に基づいてその大きさを決定する。文節結合処理
部6では、文節単位に生成されたアクセント成分を句単
位に結合し、話調成分の上に重畳させる。文末イントネ
ーション生成部7では文末の音節を中心に疑問等のイン
トネーションに対するピンチバタン変形処理を加える。
第2図はこの発明で使用する文章音声ピッチパタンを近
似表現する台形点ピッチ近似モデルである。点線で示さ
れる話調成分は、始点周波数Fsと終点周波数Feで制
御される。アクセント成分はアクセント形と音節数によ
りその基本形状が決まり、その大きさはストレス量Sで
制御される。モデルの制御パラメータFs、 Fe、 
 Sば、文節境界において指定される5種類の音調結合
型から規則により決定される。音調結合型の種類、及び
文節ピッチパタンの結合様式を第3図に示す。大、小ポ
ーズを介した結合では、文節境界に隣接する文節は独立
した句を構成し、その句のFs、 Fe、及び文節のス
トレス量は通常一定の値が設定される。話調の切れ目を
伴う結合の場合は、文節境界において先行文節の話調成
分がFeまで下降した後、ポーズを伴わずに後続の話調
成分がFsから始まる。強・弱結合の場合は、隣接する
文節は同一の話調成分上にある。文節のストレス量は句
の左端の文節を基準に以下の式を用いて順次計算される
52=KXS1  強結合の場合 K < 1.0間詰
合の場合 K > 1.0 ここで、Slは先行する文節のストレス量を、S2は後
続する文節のストレス量を示す。
この発明では、上記音調結合型をテキス1〜情報から導
出するのに線形モデルを導入する。まっ、文章音声を分
析して音調結合型を抽出した後に、テキスト情報と音調
結合型との関係を線形モデルで以下のように近似表現す
る。
Y−ΣWi−Xi+e Y:従属変数−一音調結合型 X;独立変数−一テキス1へ情報 e:誤差項 Wi:偏回帰係数 5種類の音調結合型は、1 (強結合)、2(弱結合)
、3(話調の切れ目を伴う結合)、4(小ポース)、5
(大ポーズ)の数値が割当てられ数(点化される。
テキスト情報は、林の数量化理論を用いて以下のカテゴ
リ変量で数値表現する。
δ1(j)・・・1サンプルiがカテゴリjに属する0
           属しない 音調結合型は、数値化されたテキスト情報から以下の推
定式を用いて予測する。
Y−ΣΣWik・ δi (jk) δi (jk) :アイテムkに対するδi(D偏回帰
係数Wikは、音調結合型の予測値と実測値との間で相
関(重相関係数)が最大になるように予め計算されたも
のを使用する。
ここで独立変数に使用するテキスト情報の種類、カテゴ
リ数を第4図に示す。第4図の係受は距離(分離度D)
は文節境界におし)る統語上の切れ目の深さを近似的に
示す尺度として従来使われているもので、当該文節から
受けの文節にいたる道のり(文節数)で計算される。係
受は関係はこの発明で新たに導入されたものであり、隣
接する文節間の文法的接続関係を示す。句読点は、文節
境界におLJる句読点の有り/無しを示す。文節位置は
、文節境界が文の先頭、文中、文末のいづれにあるかを
示す。先行、後続文節調は、各々文節境界に先行する文
節、後続する文節の長さ(音節数)を示す。
第5図は、文章音声を対象にして係受は関係と音調結合
の強さとの関係を調べた結果である。この結果に基づい
て、係受は関係を図に示されるようにG1−G6の6種
類のグループに大分類した。
第6図は、この発明の効果を示すものである。
男声アナランサが発話した文章データ(40文、361
文節)、単文データ(42文、191文節)を用いて、
音調結合型に対し線形モデルを用いて予測を試み、実測
値との間で比較を行ったものである。横軸は使用したテ
キス1〜情報の番号(第4図)を示す。この図より従来
用いられていた係受は距離りに対して、さらに係受は関
係や句読点などの5つのテキスト情報を組合わせること
により、文章音声に対して予測誤差を0.9程度、単文
に対しては0.6以下に抑えられることがわかる。また
、予測された音調結合型から合成音を作成し、試聴した
結果、従来手法の合成音に比べてより自然性に優れてい
ることを確認した。
第7図は、分離度りの計算で、係受&Jの範囲に制約を
設けて分離度りを計算した場合について分離度りと音調
結合型の推定精度との関係を調べたものである。この図
から、係受は解析の範囲を隣接する数文節に限定(D<
2)しても、推定精度は変わらないことがわかる。従っ
て第4図において分離度りは文節数が2以上か以下かの
二つのカテゴリとすることができる。現状のテキスト解
析技術でも文節間の係受けは、隣接する数文節に限定す
ればかなりの精度で抽出可能である。
「発明の効果」 以上述べたようにこの発明によれば文節間の係受は距離
のみならず少くとも係受は関係を含むテキスト情報と音
調結合型上の関係を統計的に記述する線形モデルを用い
て音調結合型を決定するため、単文のみならす長文の文
章についても音調結合型の推定精度が向上し、しかも係
受は解析の範囲を隣接する数文節に限定しても高い音調
結合型の推定精度が得られる。このように音調結合型を
高く推定できるから自然音声に近いピッチパタンを生成
することができる。
【図面の簡単な説明】
第1図はこの発明によるピッチパタン生成処理方法の実
施例を示ずブmlツタ図、第2図は文章音声のピッチパ
タンを近似する台形点ピッチ近似モデルを示す図、第3
図は音調結合型の種類と文節単位にピッチパタンを結合
する時の結合様式を示す図、第4図は線形モデルで用い
るテキスト情報の内容とカテゴリ数を示す図、第5図は
係受は関係の内容とその分類を示す図、第6図は線形モ
デルを用いて音調結合型の推定を行い、テキスト情報の
内容と推定誤差との関係を求めた図、第7図は係受けの
範囲を変えた時の、分離度りと音調結合型の推定誤差と
の関係を示す図である。 特許出願人 日本電信電話株式会社

Claims (1)

    【特許請求の範囲】
  1. (1)入力テキスト文をテキスト解析部で解析してテキ
    スト情報を得、そのテキスト情報から音調結合型を音調
    結合型導出部で決定し、その音調結合型から、文章音声
    ピッチパタンを近似表現する台形点ピッチ近似モデルと
    、そのモデルの制御パラメータを音調結合型から決定す
    る規則とを用いて上記入力テキスト文のピッチパタンを
    生成するピッチパタン生成処理方法において、 上記音調結合型導出部は、文節間の係受け距離のみなら
    ず少くとも係受け関係を含むテキスト情報と音調結合型
    との関係を統計的に記述する線形モデルを用いて音調結
    合型を決定することを特徴とするピッチパタン生成処理
    方法。
JP1102915A 1989-04-21 1989-04-21 ピッチパタン生成処理方法 Pending JPH02281298A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1102915A JPH02281298A (ja) 1989-04-21 1989-04-21 ピッチパタン生成処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1102915A JPH02281298A (ja) 1989-04-21 1989-04-21 ピッチパタン生成処理方法

Publications (1)

Publication Number Publication Date
JPH02281298A true JPH02281298A (ja) 1990-11-16

Family

ID=14340153

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1102915A Pending JPH02281298A (ja) 1989-04-21 1989-04-21 ピッチパタン生成処理方法

Country Status (1)

Country Link
JP (1) JPH02281298A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002149180A (ja) * 2000-11-16 2002-05-24 Matsushita Electric Ind Co Ltd 音声合成装置および音声合成方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002149180A (ja) * 2000-11-16 2002-05-24 Matsushita Electric Ind Co Ltd 音声合成装置および音声合成方法

Similar Documents

Publication Publication Date Title
US7200558B2 (en) Prosody generating device, prosody generating method, and program
US20050119890A1 (en) Speech synthesis apparatus and speech synthesis method
JP2002268660A (ja) テキスト音声合成方法および装置
Yoshimura et al. Incorporating a mixed excitation model and postfilter into HMM‐based text‐to‐speech synthesis
JPH0772900A (ja) 音声合成の感情付与方法
US6970819B1 (en) Speech synthesis device
KR100373329B1 (ko) 음운환경과 묵음구간 길이를 이용한 텍스트/음성변환 장치 및그 방법
JP4684770B2 (ja) 韻律生成装置及び音声合成装置
Fackrell et al. Prosodic variation with text type.
JPH02281298A (ja) ピッチパタン生成処理方法
JP2536169B2 (ja) 規則型音声合成装置
Nishihara et al. Singing voice synthesis based on frame-level sequence-to-sequence models considering vocal timing deviation
JPH03127098A (ja) ピッチパタン生成方法
JPH0580791A (ja) 音声規則合成装置および方法
JP3571925B2 (ja) 音声情報処理装置
Ishi et al. Mora F0 representation for accent type identification in continuous speech and considerations on its relation with perceived pitch values
JPH03119395A (ja) ピッチパタン生成方法
JP3292218B2 (ja) 音声メッセージ作成装置
KR0173340B1 (ko) 텍스트/음성변환기에서 억양패턴 정규화와 신경망 학습을 이용한 억양 생성 방법
JPH0968993A (ja) 音声合成における韻律制御方法
KR100608643B1 (ko) 음성 합성 시스템의 억양 모델링 장치 및 방법
Nitisaroj et al. The Lessac Technologies system for Blizzard Challenge 2010
Zaki et al. Rules based model for automatic synthesis of F0 variation for declarative arabic sentences
JP2755478B2 (ja) テキスト音声合成装置
JPH0756589A (ja) 音声合成方法