JPH0968993A - 音声合成における韻律制御方法 - Google Patents

音声合成における韻律制御方法

Info

Publication number
JPH0968993A
JPH0968993A JP7223267A JP22326795A JPH0968993A JP H0968993 A JPH0968993 A JP H0968993A JP 7223267 A JP7223267 A JP 7223267A JP 22326795 A JP22326795 A JP 22326795A JP H0968993 A JPH0968993 A JP H0968993A
Authority
JP
Japan
Prior art keywords
prosody
phoneme
data
category
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7223267A
Other languages
English (en)
Inventor
Shigeru Kashiwagi
繁 柏木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Original Assignee
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meidensha Corp, Meidensha Electric Manufacturing Co Ltd filed Critical Meidensha Corp
Priority to JP7223267A priority Critical patent/JPH0968993A/ja
Publication of JPH0968993A publication Critical patent/JPH0968993A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 学習データの質を高め、推定誤差を小さくす
ることができる。 【解決手段】 変量解析を行う数量化I類モデル部11
にまず、学習用ファイル12から基本周波数、区内位
置、文内位置、前置音韻種別、当該音韻種別、後置音韻
種別などの変数を入力して、カテゴリ数量を求める。そ
の後、前記音韻制御部3における制御時には、入力音韻
記号列から6つの質的変量(基本周波数、区内位置、文
内位置、前置音韻種別、当該音韻種別、後置音韻種別)
を導出し、推定用ファイル13を作成する。この推定用
ファイル13からの質的変量を、数量化I類モデル部1
1に入力されているカテゴリ数量から成り立つ線形式に
入力することにより、音韻制御における振幅(エネルギ
データ)14を推定し、このデータ14を音声合成部に
供給する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、任意日本語規則
音声合成における韻律制御方法に関する。
【0002】
【従来の技術】図4は規則音声合成方式の概略構成を示
すブロック構成図で、この図4において、テキスト入力
部1に入力されている漢字かな混じり文(文章)を日本
語処理部2に与える。日本語処理部2では、与えられた
上記文章を内蔵の日本語辞書を参照しながら音韻記号列
に変換する。この音韻記号列は、ある音韻における音韻
パラメータ(基本周波数→音の高さ、振幅→音の大き
さ、音韻継続時間長→音の長さ)を決定する音韻制御部
3に入力され、ここで、音韻記号列に基づき韻律パラメ
ータが生成される。韻律パラメータは図示しない各基本
周波数、振幅、音韻継続時間長のデータベースに格納さ
れているデータに基づき、各音韻毎に目標値が決定され
た後に、音声合成部4に与えられる。音声合成部4では
図示しないデータベースを参照して所望の韻律パラメー
タを実現しながら音声を得る。
【0003】上記のように構成された規則音声合成方式
において、音韻制御部3で音韻パラメータを決定する場
合には、その音韻の先行音韻、後続音韻、アクセント環
境、音韻種別等の要因を考慮しなくてはならない。逆に
言えば、これらのすべての要因により、韻律パラメータ
を説明することができる。
【0004】例として、基本周波数制御の場合について
述べるに、発声したい入力音韻記号列から、ある音韻の
基本周波数を決定するに至るまでの手法を述べる。これ
には、多変量解析のひとつである数量化I類を用いる手
法が知られている。この手法は、質的説明要因である質
的変量(音韻環境)に基づいて目的の量的変量(基本周
波数)を算出するもので、以下に述べる(1)式、
(2)式により定式化される。次式において、i番目の
データの質的変量の要因アイテムをj、その属するカテ
ゴリ(各アイテムの分類)をk、そのカテゴリ数量(カ
テゴリに付与する数量「係数」)をajkとするとき、
【0005】
【数1】
【0006】ここで、δは次のように定義される変数で
ある。
【0007】
【数2】
【0008】量的変量の値{yi}を最小二乗法で予測
するため、次の(2)式を満たすようにカテゴリ数量
{ajk}を定める。
【0009】
【数3】
【0010】上記手法を用いてカテゴリ数量を求めるに
は、次に述べる基本周波数データベースの(b)から
(h)の質的変量を入力し、(a)の基本周波数値を教
師信号とすることにより求まる。
【0011】基本周波数データベース:データベース内
の1データは、ある位置での基本周波数とそれを説明す
るための環境データで構成されており、次の(a)から
(h)のようになっている。
【0012】(a)基本周波数値 (b)アクセントパターン (c)語頭からのモーラ位置 (d)語尾からのモーラ位置 (e)モーラ内のピッチ点位置 (f)当該モーラ名 (g)長音フラグ (h)促音フラグ そして、制御時には入力音韻記号列から上記データベー
スの(b)〜(h)の質的変量を導出し、カテゴリ数量
から成り立つ線形式に入力することにより、基本周波数
を推定することができる。この制御手法は目的変数が量
的変量、説明変数が質的変量のものを対象としているの
で、その制御対象は、基本周波数に止まらず、振幅、音
韻継続時間長にも適用できる。
【0013】
【発明が解決しようとする課題】前述した音声合成方式
により得られた合成音声の良否の尺度のうちのひとつで
ある人間の発声する肉声らしさは、韻律パラメータによ
って左右されるので、合成音声の韻律パラメータは、人
間の発声する肉声の韻律パターンにより近いものが良
い。従って、数量化I類モデルで学習される韻律パラメ
ータは、人間が自然に発声したときの肉声を分析して得
られたものを使用している。しかし、分析手法がいまだ
確立されていないため、分析に失敗するパラメータが多
々あるので、学習データには、肉声の韻律パターンでは
ないものも含まれてしまう可能性を持っている。
【0014】ところで、数量化I類モデルでは、各カテ
ゴリの独立性を仮定しており、また、線形式の係数の数
は、各説明変数のカテゴリ数の総和となり、非常に少な
いので、モデルの推定精度はその学習データの善し悪し
で決定される。ここでいう善し悪しは、説明変数の目的
変数に対する偏相関係数がある程度、高い値を取り、説
明変数が目的変数を十分に説明しているということを仮
定したとき、各カテゴリに存在するデータがどの程度、
正確に分布しているか、ということである。ここで、当
該音韻の音韻継続時間長を説明する変数が、次のような
場合のカテゴリを考えてみる。
【0015】(イ)長音フラグ →長音ではない、 (ロ)句内位置 →句のはじめの方に位置する、 (ハ)文内位置 →文のはじめの方に位置する、 (ニ)前置音韻種別 →半母音、鼻音である、 (ホ)当該音韻種別 →Aである、 (ヘ)後置音韻種別 →無声破裂子音である。
【0016】ここで、上記のようなカテゴリに属する文
章の1例を下記に示すと、次のようになる。なお、下線
Aは当該音韻を示す。
【0017】「もしもし、こちら、通訳電話、国際会議
事務局です。」 「/MOSHIMOSHI/KOCHIRA/TU-YKUDEXWA/KOKUSAIK
AIGIJIMUKYOKUDESU/」 ある音韻継続時間長データベ
ースにおいて、このカテゴリ内のデータ数は4635個
中33個であった。このデータの分布状態を示すと、図
5のようになる。この図5のカテゴリ内データ分布図に
おいて、継続時間長の平均値は102ms、また標準偏差
は28.3msである。人間の耳が音韻継続時間長を知覚
する弁別閾は、およそ10msから20msの範囲と言われ
ている。従って、上述したカテゴリ内のデータの信頼性
は良くなく、分析時の失敗によるデータあるいは、説明
変数内のカテゴリ分けが不適切であった場合、数量化I
類モデルにおいては、上記のデータによる推定精度の劣
化を生じる問題がある。
【0018】この発明は上記の事情に鑑みてなされたも
ので、学習データの質を高め、推定誤差を小さくするこ
とができる音声合成における韻律制御方法を提供するこ
とを目的とする。
【0019】
【課題を解決するための手段】この発明の第1発明は、
テキスト入力部からの文章を日本語処理部で音韻記号列
に変換した後、その音韻記号列を音韻制御部に与える。
音韻制御部では入力された音韻記号列に基づいて韻律パ
ラメータを生成する。その韻律パラメータを音声合成部
で音声合成する。前記音韻制御部には数量化I類モデル
を設ける。この数量化I類モデルには学習用ファイルの
学習データを入力して、カテゴリ数量を求める。その
後、前記音韻記号列から質的変量を導出した後、推定フ
ァイルを作成し、この作成された推定ファイルを前記カ
テゴリ数量から成り立つ線形式に入力することにより韻
律パラメータを生成したことを特徴とするものである。
【0020】第2発明は、前記各カテゴリ内の学習デー
タに対して平均データXi,標準偏差データSiを求め
た後、閾値Dを決定する。その後、カテゴリ内データ数
≧4、かつ、Si>Dのとき、│Xi−Si│>Dとな
るとき、学習データを削減することを特徴とするもので
ある。
【0021】第3発明は、前記音韻制御部で韻律パラメ
ータである振幅、音韻継続時間長および基本周波数を生
成する際に、それらパラメータに対し弁別閾を設けたこ
とを特徴とするものである。
【0022】
【発明の実施の形態】以下この発明の実施の形態を図面
に基づいて説明する。図1は図4に示した音韻制御部3
における振幅制御手段の第1形態を示すブロック図で、
このブロック図では目的変数を振幅としている。図1に
おいて、11は前述した式等を使用した変量解析を行う
数量化I類モデル部で、この数量化I類モデル部11に
まず、学習用ファイル12から基本周波数、区内位置、
文内位置、前置音韻種別、当該音韻種別、後置音韻種別
などの変数を入力して、カテゴリ数量を求める。その
後、前記音韻制御部3における制御時には、入力音韻記
号列から6つの質的変量(基本周波数、区内位置、文内
位置、前置音韻種別、当該音韻種別、後置音韻種別)を
導出し、推定用ファイル13を作成する。この推定用フ
ァイル13からの質的変量を、数量化I類モデル部11
に入力されているカテゴリ数量から成り立つ線形式に入
力することにより、音韻制御における振幅(エネルギデ
ータ)14を推定し、このデータ14を図4に示す音声
合成部4に供給する。
【0023】なお、前記学習用ファイル12を作成する
当たっては、次の(1)から(3)のような操作を行っ
て、予めデータの削減を図る(削減学習データ)。
【0024】(1)各カテゴリ内の学習データに対し
て、それぞれ平均データXi,標準偏差データSiを求め
る。
【0025】(2)閾値DEを決定する(このとき、人
間が振幅を知覚するときの弁別閾を参考にする)。
【0026】(3)カテゴリ内データ数≧4、かつSi
>DEのとき、│Xi−Si│>DEとなる学習データを削
除する。
【0027】次表は学習データと削減学習データを用い
た実験結果である。
【0028】
【表1】
【0029】次に図2により音韻継続時間長制御手段と
なる第2形態について述べるに、この第2形態と第1形
態との違いは学習用ファイル12Aと推定用ファイル1
3A内に基本周波数に代えて長音フラグが入ってくるこ
とである。その後、作用は第1形態と同じであるので、
その説明は省略する。この第2形態ではカテゴリ数量か
ら成り立つ線形式により音韻継続時間長データ14Aを
推定する。
【0030】なお、第1形態と同様に学習用ファイル1
2Aに対しては、次の(1)から(2)のような操作を
行って、予めデータの削減を図る(削減学習データ)。
【0031】(1)各カテゴリ内の学習データに対し
て、それぞれ平均データXi,標準偏差データSiを求め
る。
【0032】(2)閾値DLを決定する(このとき、人
間が時間長を知覚するときの弁別閾を参考にする)。
【0033】(3)カテゴリ内データ数≧4、かつSi
>DLのとき、│Xi−Si│>DLとなる学習データを削
除する。
【0034】次表は学習データと削減学習データを用い
た実験結果である。
【0035】
【表2】
【0036】次に図3により基本周波数制御手段となる
第3形態について述べるに、この第3形態と第1形態と
の違いは学習用ファイル12Bと推定用ファイル13B
のファイル内容が異なる。その内容は、アクセント環
境、アクセント変化、文内位置(前)、文内位置
(後)、長音フラグおよび当該音韻種別からなる。作用
は第1形態と同じであるので、その説明は省略する。こ
の第3形態ではカテゴリ数量から成り立つ線形式により
基本周波数データ14Bを推定する。
【0037】なお、第1形態と同様に学習用ファイル1
2Bに対しては、次の(1)から(2)のような操作を
行って、予めデータの削減を図る(削減学習データ)。
【0038】(1)各カテゴリ内の学習データに対し
て、それぞれ平均データXi,標準偏差データSiを求め
る。
【0039】(2)閾値DPを決定する(このとき、人
間が周波数を知覚するときの弁別閾を参考にする)。
【0040】(3)カテゴリ内データ数≧4、かつSi
>DPのとき、│Xi−Si│>DPとなる学習データを削
除する。
【0041】次表は学習データと削減学習データを用い
た実験結果である。
【0042】
【表3】
【0043】
【発明の効果】以上述べたように、この発明によれば、
数量化I類モデルにおいて、学習データが存在するカテ
ゴリ数を減らすことなく、各カテゴリの分散を小さくす
ることにより、学習データの質を高め、推定誤差を低く
することができる。また、数量化I類モデルにおいて、
説明変数の選定が非常に困難であるが、削減されたデー
タ数と元のデータ数の比をみることにより、正しい説明
変数であるかという判断をすることができる。
【0044】音韻制御手段において、学習データ削減の
閾値を音韻の振幅や音韻継続時間長など人が知覚すると
きの弁別閾をもとに設定することにより、推定誤差を人
の弁別閾に近づけることができる。削減されたデータ数
と元のデータ数の比をみることにより、学習データ作成
のための分析精度を見ることができる。
【図面の簡単な説明】
【図1】この発明の実施の第1形態を示す振幅制御ブロ
ック構成図。
【図2】この発明の実施の第2形態を示す音韻継続時間
長制御ブロック構成図。
【図3】この発明の実施の第3継続を示す基本周波数制
御ブロック構成図。
【図4】音声合成装置のブロック構成図。
【図5】カテゴリ内データ分布図。
【符号の説明】
11…数量化I類モデル部 12,12A,12B…学習用ファイル 13,13A,13B…推定用ファイル

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 テキスト入力部からの文章を日本語処理
    部で音韻記号列に変換した後、その音韻記号列を音韻制
    御部に与えて、音韻制御部で音韻記号列に基づいて韻律
    パラメータを生成してから音声合成を行う音声合成方法
    において、 前記音韻制御部に数量化I類モデル部を設け、この数量
    化I類モデル部に学習ファイルから学習データを入力し
    て、カテゴリ数量を求め、その後、前記音韻記号列から
    質的変量を導出した後、推定ファイルを作成し、この作
    成された推定ファイルを前記カテゴリ数量から成り立つ
    線形式に入力することにより韻律パラメータを生成した
    ことを特徴とする音声合成における韻律制御方法。
  2. 【請求項2】 前記各カテゴリ内の学習データに対して
    平均データXi,標準偏差データSiを求めた後、閾値
    Dを決定し、カテゴリ内データ数≧N(Nは任意数)、
    かつ、Si>Dのとき、│Xi−Si│>Dとなる学習
    データを削減することを特徴とする請求項1記載の音声
    合成における韻律制御方法。
  3. 【請求項3】 前記音韻制御部で韻律パラメータを生成
    する際に、そのパラメータに対し弁別閾を設けたことを
    特徴とする請求項1記載の音声合成における韻律制御方
    法。
JP7223267A 1995-08-31 1995-08-31 音声合成における韻律制御方法 Pending JPH0968993A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7223267A JPH0968993A (ja) 1995-08-31 1995-08-31 音声合成における韻律制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7223267A JPH0968993A (ja) 1995-08-31 1995-08-31 音声合成における韻律制御方法

Publications (1)

Publication Number Publication Date
JPH0968993A true JPH0968993A (ja) 1997-03-11

Family

ID=16795442

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7223267A Pending JPH0968993A (ja) 1995-08-31 1995-08-31 音声合成における韻律制御方法

Country Status (1)

Country Link
JP (1) JPH0968993A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102231276A (zh) * 2011-06-21 2011-11-02 北京捷通华声语音技术有限公司 一种语音合成单元时长的预测方法及装置
JPWO2014061230A1 (ja) * 2012-10-16 2016-09-05 日本電気株式会社 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102231276A (zh) * 2011-06-21 2011-11-02 北京捷通华声语音技术有限公司 一种语音合成单元时长的预测方法及装置
JPWO2014061230A1 (ja) * 2012-10-16 2016-09-05 日本電気株式会社 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム

Similar Documents

Publication Publication Date Title
US6751592B1 (en) Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically
US8204747B2 (en) Emotion recognition apparatus
JP4054507B2 (ja) 音声情報処理方法および装置および記憶媒体
Kuligowska et al. Speech synthesis systems: disadvantages and limitations
US20100268535A1 (en) Pronunciation variation rule extraction apparatus, pronunciation variation rule extraction method, and pronunciation variation rule extraction program
JPH10116089A (ja) 音声合成用の基本周波数テンプレートを収容する韻律データベース
GB2433150A (en) Prosodic labelling of speech
JPH0922297A (ja) 音声‐テキスト変換のための方法および装置
Bellegarda et al. Statistical prosodic modeling: from corpus design to parameter estimation
Chou et al. A set of corpus-based text-to-speech synthesis technologies for Mandarin Chinese
US6970819B1 (en) Speech synthesis device
Hoffmann et al. Evaluation of a multilingual TTS system with respect to the prosodic quality
JP4684770B2 (ja) 韻律生成装置及び音声合成装置
JPH0968993A (ja) 音声合成における韻律制御方法
Takaki et al. Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012
JPH0580791A (ja) 音声規則合成装置および方法
JP4232254B2 (ja) 音声合成装置、規則音声合成方法及び記憶媒体
JP3571925B2 (ja) 音声情報処理装置
Ishi et al. Mora F0 representation for accent type identification in continuous speech and considerations on its relation with perceived pitch values
JP3078073B2 (ja) 基本周波数パタン生成方法
KR0173340B1 (ko) 텍스트/음성변환기에서 억양패턴 정규화와 신경망 학습을 이용한 억양 생성 방법
WO2008038994A1 (en) Method for converting pronunciation using boundary pause intensity and text-to-speech synthesis system based on the same
JPH09179577A (ja) 音声合成における音韻エネルギ制御方法
Kaur et al. BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE
JPH09198075A (ja) 音声合成における韻律制御方法