JPH03127098A - ピッチパタン生成方法 - Google Patents

ピッチパタン生成方法

Info

Publication number
JPH03127098A
JPH03127098A JP1267583A JP26758389A JPH03127098A JP H03127098 A JPH03127098 A JP H03127098A JP 1267583 A JP1267583 A JP 1267583A JP 26758389 A JP26758389 A JP 26758389A JP H03127098 A JPH03127098 A JP H03127098A
Authority
JP
Japan
Prior art keywords
tone
coupling type
tonal
combination
pitch pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1267583A
Other languages
English (en)
Inventor
Kazuo Hakoda
箱田 和雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP1267583A priority Critical patent/JPH03127098A/ja
Publication of JPH03127098A publication Critical patent/JPH03127098A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 「産業上の利用分野」 二の発明は、漢字かな混じりの任意の日本語文章を音声
に変換するテキスト合成装置におけるピッチパタン生成
方法に関するものである。
「従来の技術」 文章音声の韻律は、入力テキスト文に含まれるテキスト
情報と深い関わりがある。これまで韻律を規定するピッ
チパタンの生成手法の多くは、テキスト情報の中でも文
を構成する文節の係受は構造に着目し、文章音声ピッチ
パタンを近似表現する台形点ピッチ近似モデルを基本と
して、その制御パラメータを規定する音調結合形と係受
は構造との関係を解析し、その結果に基づいてピッチパ
タンを生成するものである。しかし、現状のテキスト解
析技術ではテキスト文を解析して係受は構造を制度良く
抽出できないことから、上記手法をそのままテキスト合
成装置に導入することはできない、また、上記手法の多
くは、比較的構造が簡単な単文の解析結果に基づいたも
のであり、構造が複雑な長文を含む文章に適用するには
考慮されているテキスト情報の種類が少ないなどの問題
がある。
一方、はとんどテキスト解析を必要としない簡易なテキ
スト情報から統計的手法を用いてピ、ンチパタンを生成
する手法が提案されている。この手法は、多変量解析で
使われる線形モデルを用いて、音韻を代表するピッチ値
を直接推定するものである。線形モデルの入力変数には
、テキスト情報としてアクセントや音韻情報、単語内の
音韻位置情報を用いている。この手法は、従来の手法と
異なりピッチパタン全体の形状を近似するモデルを使わ
ず直接パラメータの値を推定しているために、ピッチ値
が時間軸方向に不連続になりを収音に歪みを発生し易い
、また、構文的情報が使われていないために、文章特有
の複雑なピッチ変化をこの線形モデルで表現できないな
どの問題がある。
これらの問題に対処するために、従来の台形点ピッチ近
似モデルを基本としたピッチパタン生成法に新たに統計
的手法を導入し、線形モデルを用いて現状のテキスト解
析技術で抽出可能な係受は関係や句読点等のテキスト情
報から、台形点ピッチ近似モデルの制御パラメータを規
定する音調結合形を決定する手法が提案された(特願平
1−102915号、日本音響学会平成元年度春季研究
発表会講演論文集1.2−7−14)。しかし、この手
法で推定される音調結合形が自然音声から抽出される音
調結合形と一致する割合は随筆文で約4割程度であり、
合成音声のイントネーションを自然音声に近づけるため
にはさらに音調結合形の推定精度を高める必要があった
「課題を解決するための手段」 この発明によれば入力テキスト文を解析してテキスト情
報を抽出し、そのテキスト情報を入力として、テキスト
情報と自然音声から抽出された音調結合形との関係を統
計的に最良近似する線形モデルを用いて音調結合形を決
定し、その決定された音調結合形により台形点ピッチ近
似モデルの制御パラメータを決めてヒツチバタンを生成
するピッチパタン生成方法において、当該音調結合形を
推定するに当たり、先行して推定された1乃至数個の音
調結合形出力結果を入力として加えることを特徴とする
「実施例」 第1図はこの発明の一実施例を示すブロック図である。
端子1より漢字かな混じりの日本語テキスト文が入力さ
れると、テキスト解析部2において形態素解析や漢字か
な変換、アクセント処理が行われ、単語に対する品詞名
、隣接する文節間の係受は関係等のテキスト情報、及び
漢字部分に対する読みや文節アクセントが出力される。
音調結合形導出部3ではテキスト解析部2で抽出された
テキスト情報と音調結合形記憶部4に蓄えられた過去の
音調結合形出力結果の情報とから、線形モデルを用いて
各文節境界に対して最適な音調結合形を決定する。その
決定した出力結果は音調結合形記憶部4に蓄えられる0
話#A戒分生戒部5では音調結合形導出部3で導出され
た音調結合形に基づいてポーズで区切られた音声区分(
句)単位に台形点ピッチ近似モデルの話調成分(傾斜)
を生成する。アクセント成分生成部6では、テキスト解
析部2で得られた文節アクセントと音節数に基ついてア
クセント成分の基本形状を、音調結合形導出部3で導出
された音調結合形の指定に基づいてその大きさを決定す
る0文節結合処理部7では、アクセント成分生成部6で
文節単位に生成されたアクセント成分を句単位に結合し
、話調成分生成部5で生成された話調成分の上に重畳さ
せてピッチパタンを生成する0文末イントネーション生
成部8では文節結合処理部7で生成されたピッチパタン
に対し、必要に応じて文末の音節を中心に疑問等のイン
トネーションに対するピッチパタン変形処理を加える。
第2図はこの発明で使用する文章音声ピッチパタンを近
似表現する台形点ピッチ近似モデルである0点線で示さ
れる話調成分は、始点周波数Fsと終点周波数Feで制
御される。アクセント成分はアクセント形と文節数によ
りその基本形状が決まり、その大きさはストレス量Sで
制御される。
台形点ピッチ近似モデルの制御パラメータFs。
Fe、Sは、文節境界において指定される5種類の音調
結合形から規則により決定される。
音調結合形の種類、及び文節ピッチパタンの結合様式を
第3図に示す。大、小ポーズを介した結合では、文節境
界に隣接する文節は独立した句を構威し、その句のFs
、Fe、及び文節のストレス量は通常一定の値が設定さ
れる。話調の切れ目を伴う結合の場合は、文節境界にお
いて先行文節の話調成分がFeまで下降した後、ポーズ
を伴わずに後続の話調成分がFsから始まる。強・弱結
合の場合は、隣接する文節は同一の話訓戒分上にある0
文節のストレス量は句の左端の文節を基準に以下の式を
用いて順次計算される。
52=KXS1   強結合の場合 K<1.0弱結合
の場合 K>1.0 ここで、Slは先行する文節のストレス量を、S2は後
続する文節のストレス量を示す。
この発明では、テキスト情報と自然音声から抽出された
音調結合形との関係を統計的に最良近似する線形モデル
を用いて音調結合形を決定する。
線形モデルの入力には、テキスト情報と直前までに出力
した数個の音調結合形出力結果を用いる。
まず、文章音声を分析して音調結合形を抽出した後に、
その文章音声のテキスト情報と、その文章音声内で先行
して観測された音調結合形と当該音調結合形との関係を
線形モデルを用いて以下のように近似表現する。
Yi:従属変数−i番目の文節境界における音調結合形 Xj:独立変数−テキスト情報 e:誤差項 Aj、Bj:偏回帰係数 この関係式により音調結合形を演算するために、5種類
の音調結合形は、1(強結合)、2(弱結合)、3(話
調の切れ目を伴う結合)、4(小ポーズ)、5(大ポー
ズ)の数値が割当られ数値化される。またテキスト情報
は、林の数量化理論を用いて以下のカテゴリ変量で数値
表現する。
6m(n)−−−1m番目の文節境界におけるテキスト
情報の内容がカテゴリnに 属する O 属しない このようにすると前記線形モデルを用いて近似表現した
音調結合形は、数値化されたテキスト情報と直前までに
出力された数個の音調結合形出力結果の値とを用いて以
下のように予測される。
(2) 6m(nk)  :テキスト情報のアイテム(項目)k
に対する6m(n) 偏回帰係数An+に、Bkは、学習データを用いて予測
値と実測値との間で相関(重相関係数)が最大になるよ
うに予め計算されたものを使用する。
ここで独立変数に使用するテキスト情報の種類、カテゴ
リ数、及びカテゴリの内容を第4図に示す。
第4図の係受は距離(分離度D)は文節境界における統
語上の切れ目の深さを近似的に示す尺度として従来使わ
れているもので、当該文節から受けの文節にいたる道の
り(文節数)で計算される。
この係受は距離は1〜6以上の6つのカテゴリがあり、
カテゴリが1の場合はn=1で、k=1であり、カテゴ
リが2の場合はn=2.に=1とされる。係受は関係は
この発明で新たに導入されたものであり、隣接する文節
間の文法的接続関係を示す0句読点は、文節境界におけ
る句読点の有り/無しを示す0文節位置は、文節境界が
文の先頭、文中、文末のいずれにあるかを示す。先行、
後続文節長は、各々文節境界に先行する文節、後続する
文節の長さ(音節数)を示す。
第5図は、文章音声を対象にして係受は関係と音調結合
の強さとの関係を調べた結果である。この結果に基づい
て、係受は関係を図に示されるように01〜G6の6種
類のグループ(カテゴリ)に大分類した。つまり、入力
されたテキスト文をテキスト情報に分析し、そのm番目
の文節境界における第4図に示した各テキスト情報の各
カテゴリごとにそのδva (nk)が1かOかを求め
、これらと先行した音調結合形の各値(1,2,・・・
・・・、5のいずれか)とから(2)式を演算し、その
演算結果が、例えば1ならばその音調結合形Yjは強結
合と決定し、2ならば弱結合と決定するようにして音調
結合形Yjを求める。
第6図は、1文節光行した音調結合形Yj−1の当該音
調結合形Yjへの影響を調べるために、分散分析を実施
して因子効果を調べたものである。
分析に用いたデータは、男性アナランサが発話した文章
データ(40文)から視察で抽出した361個の音調結
合形である。因子効果を示すF比の値(計算結果)を見
ると4.4であり、これは、1%の危険率で有意と判定
されるF値(Fo、01)−3,38より大であり、従
って有意と判定される危険率が1%より小であり、つま
り先行した音調結合形Yj−1が当該音調結合形Yjに
対し影響しているということが99%以上の確率で正し
いことを示している。従って、音調結合形の決定には、
少なくとも1文節光行した音調結合形が影響を及ぼして
いることがわかる0以上の結果に基づいて、この発明で
は上述したように線形モデルの入力にテキスト情報の他
に新たに先行して出力された音調結合形の情報を加えた
「発明の効果」 以上述べたようにこの発明によれば、文節間の係受は距
離のみならず少なくとも係受は関係を含むテキスト情報
と音調結合形との関係を統計的に記述するため、単文の
みならず長文の文章についても音調結合形の推定精度が
向上し、かつ音調結合形の決定に深いかかわりを持つ音
調結合形の履歴情報も入力情報として使うことによりさ
らに高い推定精度が得られ、それだけ自然音声に近いピ
ッチパタンを提供することができる。また、現状のテキ
スト解析技術で抽出困難な係受は距離を用いなくても高
い推定精度が得られることから、テキスト合成システム
に十分適用可能である。
【図面の簡単な説明】
第1図はこの発明によるピッチパタン生成方法の実施例
を示すブロック図、第2図は文章音声のピッチパタンを
近似する台形点ピッチ近似モデルを示す図、第3図は音
調結合形の種類と文節単位にピッチパタンを結合する時
の結合様式を示す図、第4図は線形モデルで用いるテキ
スト情報の内容とカテゴリ数とその内容とを示す図、第
5図は係受は関係の内容とその分類を示す図、第6図は
1文節光行した音調結合形の当該音調結合形への因子効
果を調べた図である。

Claims (1)

    【特許請求の範囲】
  1. (1)入力テキスト文を解析して文節間の係受け関係、
    文節の位置・長さ、句読点などのテキスト情報を抽出し
    、そのテキスト情報を入力として、これらのテキスト情
    報と自然音声から抽出される音調結合形との関係を統計
    的に最良近似する線形モデルを用いて音調結合形を決定
    し、その決定された音調結合形により、文章音声ピッチ
    パタンを近似表現する台形点ピッチ近似モデルの制御パ
    ラメータを決めてピッチパタンを生成するピッチパタン
    生成方法において、 当該音調結合形を推定するに当たり、先行して推定され
    た1乃至数個の音調結合形出力結果を入力として加える
    ことを特徴とするピッチパタン生成方法。
JP1267583A 1989-10-13 1989-10-13 ピッチパタン生成方法 Pending JPH03127098A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1267583A JPH03127098A (ja) 1989-10-13 1989-10-13 ピッチパタン生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1267583A JPH03127098A (ja) 1989-10-13 1989-10-13 ピッチパタン生成方法

Publications (1)

Publication Number Publication Date
JPH03127098A true JPH03127098A (ja) 1991-05-30

Family

ID=17446785

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1267583A Pending JPH03127098A (ja) 1989-10-13 1989-10-13 ピッチパタン生成方法

Country Status (1)

Country Link
JP (1) JPH03127098A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100391357B1 (ko) * 2000-12-13 2003-07-12 기아자동차주식회사 물 펌프용 베어링의 밀봉 구조
US6688605B1 (en) 1997-12-26 2004-02-10 Nsk Ltd. Bearing seal for water pump

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6688605B1 (en) 1997-12-26 2004-02-10 Nsk Ltd. Bearing seal for water pump
US6962344B2 (en) 1997-12-26 2005-11-08 Nsk Ltd. Bearing seal for water pump
KR100391357B1 (ko) * 2000-12-13 2003-07-12 기아자동차주식회사 물 펌프용 베어링의 밀봉 구조

Similar Documents

Publication Publication Date Title
Taylor Analysis and synthesis of intonation using the tilt model
US7200558B2 (en) Prosody generating device, prosody generating method, and program
US5790978A (en) System and method for determining pitch contours
KR900009170B1 (ko) 규칙합성형 음성합성시스템
Chu et al. Locating boundaries for prosodic constituents in unrestricted Mandarin texts
EP0689192A1 (en) A speech synthesis system
Fujisaki et al. Analysis and synthesis of fundamental frequency contours of Standard Chinese using the command–response model
Swerts et al. F/sub 0/declination in read-aloud and spontaneous speech
JPH08263097A (ja) 音声のワードを認識する方法及び音声のワードを識別するシステム
CN115620699A (zh) 语音合成方法、语音合成系统、语音合成设备及存储介质
Taylor et al. Synthesizing conversational intonation from a linguistically rich input
US6970819B1 (en) Speech synthesis device
Nagy et al. Improving HMM speech synthesis of interrogative sentences by pitch track transformations
JPH03127098A (ja) ピッチパタン生成方法
Fackrell et al. Prosodic variation with text type.
Chen et al. A Mandarin Text-to-Speech System
JP2536169B2 (ja) 規則型音声合成装置
Mixdorff et al. A quantitative description of German prosody offering symbolic labels as a by-product.
JPH02281298A (ja) ピッチパタン生成処理方法
JPH0962286A (ja) 音声合成装置および音声合成方法
Navas et al. Basque intonation modelling for text to speech conversion.
Navas et al. Modelling Basque intonation using Fujisaki's model and CARTs
Rapp Automatic labelling of German prosody.
Barros et al. HMM-based european Portuguese TTS system.
Fotinea et al. Emotion in speech: Towards an integration of linguistic, paralinguistic, and psychological analysis