JPH03119395A - ピッチパタン生成方法 - Google Patents

ピッチパタン生成方法

Info

Publication number
JPH03119395A
JPH03119395A JP1257502A JP25750289A JPH03119395A JP H03119395 A JPH03119395 A JP H03119395A JP 1257502 A JP1257502 A JP 1257502A JP 25750289 A JP25750289 A JP 25750289A JP H03119395 A JPH03119395 A JP H03119395A
Authority
JP
Japan
Prior art keywords
text information
text
tone
pitch pattern
combination type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1257502A
Other languages
English (en)
Inventor
Shinya Nakajima
信弥 中嶌
Kazuo Hakoda
箱田 和雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP1257502A priority Critical patent/JPH03119395A/ja
Publication of JPH03119395A publication Critical patent/JPH03119395A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 「産業上の利用分野」 この発明は例えば漢字かな混じりの任意の日本語文章を
音声に変換するテキスト合成装置に膓)られ、入力テキ
スト文を解析してテキスト情報を得、そのテキスト情報
を用いて音調結合型を決定し、その音調結合型により、
台形点ピッチ近似モデルの制御パラメータを決定してピ
ッチパタンを生成するピッチパタン生成方法に関する。
「従来の技術」 文章音声の韻律は、入力テキスト文に含まれるテキスト
情報と深い関わりがある。これまで韻律を規定するピッ
チパタンの生成方法の多くは、テキスト情報の中でも文
を構成する文節の係受は構造に着目し、韻律を規定する
ピッチパタンと係受は構造との関係を解析し、その結果
に基づいて、文章音声ピンチバタンを近似表現する台形
点ピッチ近似モデルの制御パラメータを決定してピッチ
パタンを生成するものである。しかし、現状のテキスト
解析技術ではテキスト文を解析して係受は構造を精度良
く抽出できないことから、上記方法をそのままテキスト
合成装置に挿入することはできない、また、上記方法の
多くは、比較的構造が簡単な単文の解析結果に基づいた
ものであり、構造が複雑な長文を含む文章に適用するに
は考慮されているテキスト情報の種類が少ないなど問題
がある。また、このようなテキスト情報と音調結合型の
関係を重回帰分析の手法を用い線形なモデルで表して、
音調結合型を決定し、その音調結合型により台形点ピッ
チ近似モデルの制御パラメータを決定してピッチパタン
を生成する方法もあるが、両者の関係の非線形性のため
充分な精度で音調結合型を推定できないという問題があ
る。
「課題を解決するための手段」 この発明によれば、従来の台形点ピッチ近似モデルを基
本としたピッチパタン生成方法において、テキスト情報
による音調結合型の決定をニューラルネットを用いて行
う、このようにしてテキスト情報が限定された場合でも
、合成音に自然でかつ安定したイントネーションが付与
できる。
「実施例」 第1図はこの発明の一実施例を示すブロック図である。
端子1より漢字かな混じりの日本語テキスト文が入力さ
れると、テキスト解析部2において形態素解析や漢字か
な変換、アクセント処理が行われ、単語に対する品詞名
、隣接する文節間の係受は距離や係受は関係、文節の位
置・長さ、句読点などのテキスト情報、及び漢字部分に
対する読みや文節アクセントが出力される。音調結合型
導出部3では抽出されたテキスト情報から、この発明で
はニューラルネットによる写像により各文節境界に対し
て最適な音調結合型を決定する。話調成分生成部4では
その決定された音調結合型に基づいてポーズで区切られ
た音声区分(句)単位に話調成分を生成する。つまり文
章音声ピンチパタンを近似表現する台形点ピッチ近似モ
デルの傾斜を生成する。アクセント成分生成部5では、
テキスト解析部2からの文節アクセントと音節数に基づ
いてアクセント成分の基本形状(基本の台形)を作る。
文節結合処理部6では、その文節単位に生成されたアク
セント成分の基本形状を句単位に結合すると共に音調結
合型に基づいてその大きさを決定して、話調成分生成部
4からの話調成分の上に重畳させてピッチパタンを生成
する0文末イントネーション生成部7では文末の音節を
中心に疑問等のイントネーシヨンに対するピッチパタン
変形処理を加える。
第2図は前述した台形点ピッチ近似モデルである0点線
で示される話調成分(傾斜)は、始点周波数Fsと終点
周波数Feで制御される。アクセント成分はアクセント
形と音節数によりその基本形状が決まり、その大きさは
ストレス量Sで制御される。このモデルの制御パラメー
タFs、Fe。
Sは、文節境界において指定される5種類の音調結合型
から規則により決定される。音調結合型の種類、及び文
節ピッチパタンの結合様式を第3図に示す。音調結合型
は5種類あり、大、小ポーズを介した結合(a、b)で
は、文節境界に隣接する文節は独立した句を構成し、そ
の句のFs、Fe、及び文節のストレス量は通常一定の
値が設定される。話調の切れ目を伴う結合(c)の場合
は、文節境界において先行文節の話調成分がFeまで下
降した後、ポーズを伴わずに後続の話調成分がFsから
始まる0強・弱結合(d、e)の場合は、隣接する文節
は同一の話調成分上にある0文節のストレス量は句の左
端の文節を基準に以下の式を用いて順次計算される。
52=KXS1  強結合の場合 K<1.0局線合の
場合 K>1.0 ここで、Slは先行する文節のストレス量を、S2は後
続する文節のストレス量を示す。
この発明では、調音結合型導出部3において上記音調結
合型をテキスト情報から導出するためにニューラルネッ
トを導入する。第4図にその構成例を示す、出力層11
は、5種類の音調結合型を表す数値が出力される。5種
類の音調結合型は、0〜0.2(強結合)、0.2〜0
.4(弱結合)、0.4〜0.6(話調の切れ目を伴う
結合)、0.6〜0.8(小ポーズ)、0.8〜1.0
(大ポーズ)の数値が割当てられ数値化される。(ここ
で、 z−y ”はX以上y未満”を表す) 入力層13には、第5図に示すようなテキスト情報が数
値化して各ノードに入力され、そのままの値が各ノード
の出力となる。第5図の係受は距離(分離度D)は文節
境界における統語上の切れ目の深さを近似的に示す尺度
として従来使われているもので、当該文節から受けの文
節にいたる道のり(文節数)で計算される。係受は関係
は、隣接する文節間の文法的接続関係を示す。句読点は
、文節境界における句読点の有り/無しを示す0文節位
置は、文節境界が文の先頭、文中、文末のいづれにある
かを示す。先行、後続文節長は、各々文節境界に先行す
る文節、後続する文節の長さ(音節数)を示す、第6図
は、文章音声を対象にして係受は関係と音調結合の強さ
との関係を調べた結果である。この結果に基づいて、係
受は関係を図に示されるように01〜G6の6種類のグ
ループに大分類し、数値的には1〜6までの整数を割り
当てた。
中間層12のノードへの入力は、入力層13の各ノード
の出力に結合係数を乗じ総和をとったものとなる。すな
わち、中間層のノードjへの入力Hinj は、 Hinj −ΣHWj+ X Iouti     (
第1式)但し、HWji は入力層ノードiから中間層
ノードjへの結合係数、Ioutiは入力層ノードiの
出力。
中間層の各ユニットではsigmoid関数などの非線
形関数により入力が変換され出力となる。すなわち、中
間層のノードjの出力)(outjは、Houtj=1
/ (1+exp(Hinj−Hθj))(第2式) ここで、Hθjはノードjのしきい値。
出力層11への入力は、中間層12の場合と同様に、中
間層12の各ノードの出力に結合係数が乗じられ総和を
とったもので、 0in=ΣOWi X Houti       (第
3式)但し、OWiは中間層ノードiから出力層ノード
への結合係数、Houtiは中間層ノードiの出力。
出力層の出力0outは、 0out −1/ (1+exp(−0in −0θ)
)(第4式) ここで、0θはしきい値。
以上のような計算により、第5図に示した数値化された
テキスト情報を入力層13(第4図)の各ノードに入力
することにより、出力層11より5種類の音調結合型が
出力される。ここで、Hθj。
Oθ、  HWji 、 OWiなどは音調結合型既知
の学習用データから誤差が最小となるよう逐次計算によ
って決定する。具体的には、音調結合型の既知であるデ
ータのテキスト情報を入力層に入力し、そのときの出力
0outと実際に観測された音調結合型Tとの誤差評価
値Eは E= (T  0out )”        (第5
式)によって計算され、このEを最小化するように最急
降下法により結合係数・しきい値を変更する。
この手順を巳の値が充分小さくなるまで続ける。
「発明の効果」 第7図は、この発明の効果を示すものである。
男性アナランサが発話した文章データ(40文、361
文節)を用いて、入力テキスト情報を3〜6にした場合
のニューラルネットによる音調結合型推定の実測値との
平均誤差(曲線14)  ・正解率(曲線15)を、線
形モデルで音調結合型を推定した場合(入力テキスト情
報は6)の平均誤差(直線16)、正解率(直線17)
と比較したものである。横軸は使用したテキスト情報の
第5図で与えた番号を示す。この図より、入力テキスト
情報の数を5、すなわち係受は距離りをのぞいても、6
種のテキスト情報をすべて用いた線形モデルによる推定
より、平均誤差・正解率ともに優れていることが分かる
。このことはテキストから係受は距HDを推定すること
が困難であることを考慮すれば、この発明の方法は実用
性が高いことが分かる。また、予測された音調結合指定
から合成音を作成し、試聴した結果、従来方法による合
成音に比べてより自然性に優れていることを確認した。
【図面の簡単な説明】
第1図は、この発明によるピッチパタン生成方法の実施
例を示すブロック図、第2図は文章音声のピンチパタン
を近似する台形点ピッチパタン近似モデルを示す図、第
3図は音調結合型の種類と文節単位にピンチパタンを結
合する時の結合様式を示す図、第4図は音調結合型推定
に用いるニュ−ラルネットの構成例を示す図、第5図は
音調結合型推定に用いるテキスト情報の内容とこれに与
えた数値とを示す図、第6図は保炎は関係の内容とその
分類を示す図、第7図は人力テキスト情報を3〜6にし
た場合のニューラルネットによる音調結合型推定の実測
値との平均誤差・正解率を示す図である。

Claims (1)

    【特許請求の範囲】
  1. (1)入力テキスト文を解析して、文節間の係受け距離
    や係受け関係、文節の位置・長さ、句読点などのテキス
    ト情報を得、そのテキスト情報を用いて各文節境界に対
    して音調結合型を決定し、その決定された音調結合型に
    より、文章音声ピッチパタンを近似表現する台形点ピッ
    チ近似モデルの制御パラメータを決定してピッチパタン
    を生成するピッチパタン生成方法において、 上記テキスト情報からの音調結合型の決定を、ニューラ
    ルネットを用いて行うことを特徴とするピッチパタン生
    成方法。
JP1257502A 1989-10-02 1989-10-02 ピッチパタン生成方法 Pending JPH03119395A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1257502A JPH03119395A (ja) 1989-10-02 1989-10-02 ピッチパタン生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1257502A JPH03119395A (ja) 1989-10-02 1989-10-02 ピッチパタン生成方法

Publications (1)

Publication Number Publication Date
JPH03119395A true JPH03119395A (ja) 1991-05-21

Family

ID=17307184

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1257502A Pending JPH03119395A (ja) 1989-10-02 1989-10-02 ピッチパタン生成方法

Country Status (1)

Country Link
JP (1) JPH03119395A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07334188A (ja) * 1994-06-09 1995-12-22 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声合成システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07334188A (ja) * 1994-06-09 1995-12-22 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声合成システム

Similar Documents

Publication Publication Date Title
JP3720136B2 (ja) ピッチ輪郭を決定するためのシステムおよび方法
US8886539B2 (en) Prosody generation using syllable-centered polynomial representation of pitch contours
Bellegarda et al. Statistical prosodic modeling: from corpus design to parameter estimation
Taylor et al. Synthesizing conversational intonation from a linguistically rich input
Maia et al. Towards the development of a brazilian portuguese text-to-speech system based on HMM.
Levinson et al. Speech synthesis in telecommunications
US6970819B1 (en) Speech synthesis device
JP4684770B2 (ja) 韻律生成装置及び音声合成装置
Buhmann et al. Data driven intonation modelling of 6 languages.
JPH03119395A (ja) ピッチパタン生成方法
JP2910035B2 (ja) 音声合成装置
Mittrapiyanuruk et al. Improving naturalness of Thai text-to-speech synthesis by prosodic rule.
JP3571925B2 (ja) 音声情報処理装置
Tobing et al. Articulatory controllable speech modification based on Gaussian mixture models with direct waveform modification using spectrum differential
JPH02281298A (ja) ピッチパタン生成処理方法
KR0173340B1 (ko) 텍스트/음성변환기에서 억양패턴 정규화와 신경망 학습을 이용한 억양 생성 방법
KR100608643B1 (ko) 음성 합성 시스템의 억양 모델링 장치 및 방법
Odéjobí et al. A computational model of intonation for yorùbá text-to-speech synthesis: Design and analysis
Zaki et al. Rules based model for automatic synthesis of F0 variation for declarative arabic sentences
JPH09146576A (ja) 原文対音声の人工的神経回路網にもとづく韻律の合成装置
KR0150366B1 (ko) 그래픽 사용자 인터페이스를 이용한 억양 규칙 생성 방법
JP2573587B2 (ja) ピッチパタン生成装置
JPH03127098A (ja) ピッチパタン生成方法
KR20050058949A (ko) 한국어 운율구 추출방법
Rizk et al. Arabic Text to Speech Synthesizer: Arabic Letter to Sound Rules