JPH0968993A

JPH0968993A - 音声合成における韻律制御方法

Info

Publication number: JPH0968993A
Application number: JP7223267A
Authority: JP
Inventors: Shigeru Kashiwagi; 繁柏木
Original assignee: Meidensha Corp; Meidensha Electric Manufacturing Co Ltd
Current assignee: Meidensha Corp; Meidensha Electric Manufacturing Co Ltd
Priority date: 1995-08-31
Filing date: 1995-08-31
Publication date: 1997-03-11

Abstract

(57)【要約】【課題】学習データの質を高め、推定誤差を小さくす
ることができる。【解決手段】変量解析を行う数量化Ｉ類モデル部１１
にまず、学習用ファイル１２から基本周波数、区内位
置、文内位置、前置音韻種別、当該音韻種別、後置音韻
種別などの変数を入力して、カテゴリ数量を求める。そ
の後、前記音韻制御部３における制御時には、入力音韻
記号列から６つの質的変量（基本周波数、区内位置、文
内位置、前置音韻種別、当該音韻種別、後置音韻種別）
を導出し、推定用ファイル１３を作成する。この推定用
ファイル１３からの質的変量を、数量化Ｉ類モデル部１
１に入力されているカテゴリ数量から成り立つ線形式に
入力することにより、音韻制御における振幅（エネルギ
データ）１４を推定し、このデータ１４を音声合成部に
供給する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、任意日本語規則
音声合成における韻律制御方法に関する。

【０００２】

【従来の技術】図４は規則音声合成方式の概略構成を示
すブロック構成図で、この図４において、テキスト入力
部１に入力されている漢字かな混じり文（文章）を日本
語処理部２に与える。日本語処理部２では、与えられた
上記文章を内蔵の日本語辞書を参照しながら音韻記号列
に変換する。この音韻記号列は、ある音韻における音韻
パラメータ（基本周波数→音の高さ、振幅→音の大き
さ、音韻継続時間長→音の長さ）を決定する音韻制御部
３に入力され、ここで、音韻記号列に基づき韻律パラメ
ータが生成される。韻律パラメータは図示しない各基本
周波数、振幅、音韻継続時間長のデータベースに格納さ
れているデータに基づき、各音韻毎に目標値が決定され
た後に、音声合成部４に与えられる。音声合成部４では
図示しないデータベースを参照して所望の韻律パラメー
タを実現しながら音声を得る。

【０００３】上記のように構成された規則音声合成方式
において、音韻制御部３で音韻パラメータを決定する場
合には、その音韻の先行音韻、後続音韻、アクセント環
境、音韻種別等の要因を考慮しなくてはならない。逆に
言えば、これらのすべての要因により、韻律パラメータ
を説明することができる。

【０００４】例として、基本周波数制御の場合について
述べるに、発声したい入力音韻記号列から、ある音韻の
基本周波数を決定するに至るまでの手法を述べる。これ
には、多変量解析のひとつである数量化Ｉ類を用いる手
法が知られている。この手法は、質的説明要因である質
的変量（音韻環境）に基づいて目的の量的変量（基本周
波数）を算出するもので、以下に述べる（１）式、
（２）式により定式化される。次式において、ｉ番目の
データの質的変量の要因アイテムをｊ、その属するカテ
ゴリ（各アイテムの分類）をｋ、そのカテゴリ数量（カ
テゴリに付与する数量「係数」）をａ_jkとするとき、

【０００５】

【数１】

【０００６】ここで、δは次のように定義される変数で
ある。

【０００７】

【数２】

【０００８】量的変量の値｛ｙ_i｝を最小二乗法で予測
するため、次の（２）式を満たすようにカテゴリ数量
｛ａ_jk｝を定める。

【０００９】

【数３】

【００１０】上記手法を用いてカテゴリ数量を求めるに
は、次に述べる基本周波数データベースの（ｂ）から
（ｈ）の質的変量を入力し、（ａ）の基本周波数値を教
師信号とすることにより求まる。

【００１１】基本周波数データベース：データベース内
の１データは、ある位置での基本周波数とそれを説明す
るための環境データで構成されており、次の（ａ）から
（ｈ）のようになっている。

【００１２】（ａ）基本周波数値（ｂ）アクセントパターン（ｃ）語頭からのモーラ位置（ｄ）語尾からのモーラ位置（ｅ）モーラ内のピッチ点位置（ｆ）当該モーラ名（ｇ）長音フラグ（ｈ）促音フラグそして、制御時には入力音韻記号列から上記データベー
スの（ｂ）〜（ｈ）の質的変量を導出し、カテゴリ数量
から成り立つ線形式に入力することにより、基本周波数
を推定することができる。この制御手法は目的変数が量
的変量、説明変数が質的変量のものを対象としているの
で、その制御対象は、基本周波数に止まらず、振幅、音
韻継続時間長にも適用できる。

【００１３】

【発明が解決しようとする課題】前述した音声合成方式
により得られた合成音声の良否の尺度のうちのひとつで
ある人間の発声する肉声らしさは、韻律パラメータによ
って左右されるので、合成音声の韻律パラメータは、人
間の発声する肉声の韻律パターンにより近いものが良
い。従って、数量化Ｉ類モデルで学習される韻律パラメ
ータは、人間が自然に発声したときの肉声を分析して得
られたものを使用している。しかし、分析手法がいまだ
確立されていないため、分析に失敗するパラメータが多
々あるので、学習データには、肉声の韻律パターンでは
ないものも含まれてしまう可能性を持っている。

【００１４】ところで、数量化Ｉ類モデルでは、各カテ
ゴリの独立性を仮定しており、また、線形式の係数の数
は、各説明変数のカテゴリ数の総和となり、非常に少な
いので、モデルの推定精度はその学習データの善し悪し
で決定される。ここでいう善し悪しは、説明変数の目的
変数に対する偏相関係数がある程度、高い値を取り、説
明変数が目的変数を十分に説明しているということを仮
定したとき、各カテゴリに存在するデータがどの程度、
正確に分布しているか、ということである。ここで、当
該音韻の音韻継続時間長を説明する変数が、次のような
場合のカテゴリを考えてみる。

【００１５】（イ）長音フラグ →長音ではない、（ロ）句内位置 →句のはじめの方に位置する、（ハ）文内位置 →文のはじめの方に位置する、（ニ）前置音韻種別 →半母音、鼻音である、（ホ）当該音韻種別 →Ａである、（ヘ）後置音韻種別 →無声破裂子音である。

【００１６】ここで、上記のようなカテゴリに属する文
章の１例を下記に示すと、次のようになる。なお、下線
Ａは当該音韻を示す。

【００１７】「もしもし、こちら、通訳電話、国際会議
事務局です。」「／MOSHIMOSHI／KOCHIRA／TU-Y Ａ KUDEXWA／KOKUSAIK
AIGIJIMUKYOKUDESU／」ある音韻継続時間長データベ
ースにおいて、このカテゴリ内のデータ数は４６３５個
中３３個であった。このデータの分布状態を示すと、図
５のようになる。この図５のカテゴリ内データ分布図に
おいて、継続時間長の平均値は１０２ms、また標準偏差
は２８.３msである。人間の耳が音韻継続時間長を知覚
する弁別閾は、およそ１０msから２０msの範囲と言われ
ている。従って、上述したカテゴリ内のデータの信頼性
は良くなく、分析時の失敗によるデータあるいは、説明
変数内のカテゴリ分けが不適切であった場合、数量化Ｉ
類モデルにおいては、上記のデータによる推定精度の劣
化を生じる問題がある。

【００１８】この発明は上記の事情に鑑みてなされたも
ので、学習データの質を高め、推定誤差を小さくするこ
とができる音声合成における韻律制御方法を提供するこ
とを目的とする。

【００１９】

【課題を解決するための手段】この発明の第１発明は、
テキスト入力部からの文章を日本語処理部で音韻記号列
に変換した後、その音韻記号列を音韻制御部に与える。
音韻制御部では入力された音韻記号列に基づいて韻律パ
ラメータを生成する。その韻律パラメータを音声合成部
で音声合成する。前記音韻制御部には数量化Ｉ類モデル
を設ける。この数量化Ｉ類モデルには学習用ファイルの
学習データを入力して、カテゴリ数量を求める。その
後、前記音韻記号列から質的変量を導出した後、推定フ
ァイルを作成し、この作成された推定ファイルを前記カ
テゴリ数量から成り立つ線形式に入力することにより韻
律パラメータを生成したことを特徴とするものである。

【００２０】第２発明は、前記各カテゴリ内の学習デー
タに対して平均データＸｉ，標準偏差データＳｉを求め
た後、閾値Ｄを決定する。その後、カテゴリ内データ数
≧４、かつ、Ｓｉ＞Ｄのとき、│Ｘｉ−Ｓｉ│＞Ｄとな
るとき、学習データを削減することを特徴とするもので
ある。

【００２１】第３発明は、前記音韻制御部で韻律パラメ
ータである振幅、音韻継続時間長および基本周波数を生
成する際に、それらパラメータに対し弁別閾を設けたこ
とを特徴とするものである。

【００２２】

【発明の実施の形態】以下この発明の実施の形態を図面
に基づいて説明する。図１は図４に示した音韻制御部３
における振幅制御手段の第１形態を示すブロック図で、
このブロック図では目的変数を振幅としている。図１に
おいて、１１は前述した式等を使用した変量解析を行う
数量化Ｉ類モデル部で、この数量化Ｉ類モデル部１１に
まず、学習用ファイル１２から基本周波数、区内位置、
文内位置、前置音韻種別、当該音韻種別、後置音韻種別
などの変数を入力して、カテゴリ数量を求める。その
後、前記音韻制御部３における制御時には、入力音韻記
号列から６つの質的変量（基本周波数、区内位置、文内
位置、前置音韻種別、当該音韻種別、後置音韻種別）を
導出し、推定用ファイル１３を作成する。この推定用フ
ァイル１３からの質的変量を、数量化Ｉ類モデル部１１
に入力されているカテゴリ数量から成り立つ線形式に入
力することにより、音韻制御における振幅（エネルギデ
ータ）１４を推定し、このデータ１４を図４に示す音声
合成部４に供給する。

【００２３】なお、前記学習用ファイル１２を作成する
当たっては、次の（１）から（３）のような操作を行っ
て、予めデータの削減を図る（削減学習データ）。

【００２４】（１）各カテゴリ内の学習データに対し
て、それぞれ平均データＸ_i，標準偏差データＳ_iを求め
る。

【００２５】（２）閾値Ｄ_Eを決定する（このとき、人
間が振幅を知覚するときの弁別閾を参考にする）。

【００２６】（３）カテゴリ内データ数≧４、かつＳ_i
＞Ｄ_Eのとき、│Ｘ_i−Ｓ_i│＞Ｄ_Eとなる学習データを削
除する。

【００２７】次表は学習データと削減学習データを用い
た実験結果である。

【００２８】

【表１】

【００２９】次に図２により音韻継続時間長制御手段と
なる第２形態について述べるに、この第２形態と第１形
態との違いは学習用ファイル１２Ａと推定用ファイル１
３Ａ内に基本周波数に代えて長音フラグが入ってくるこ
とである。その後、作用は第１形態と同じであるので、
その説明は省略する。この第２形態ではカテゴリ数量か
ら成り立つ線形式により音韻継続時間長データ１４Ａを
推定する。

【００３０】なお、第１形態と同様に学習用ファイル１
２Ａに対しては、次の（１）から（２）のような操作を
行って、予めデータの削減を図る（削減学習データ）。

【００３１】（１）各カテゴリ内の学習データに対し
て、それぞれ平均データＸ_i，標準偏差データＳ_iを求め
る。

【００３２】（２）閾値Ｄ_Lを決定する（このとき、人
間が時間長を知覚するときの弁別閾を参考にする）。

【００３３】（３）カテゴリ内データ数≧４、かつＳ_i
＞Ｄ_Lのとき、│Ｘ_i−Ｓ_i│＞Ｄ_Lとなる学習データを削
除する。

【００３４】次表は学習データと削減学習データを用い
た実験結果である。

【００３５】

【表２】

【００３６】次に図３により基本周波数制御手段となる
第３形態について述べるに、この第３形態と第１形態と
の違いは学習用ファイル１２Ｂと推定用ファイル１３Ｂ
のファイル内容が異なる。その内容は、アクセント環
境、アクセント変化、文内位置（前）、文内位置
（後）、長音フラグおよび当該音韻種別からなる。作用
は第１形態と同じであるので、その説明は省略する。こ
の第３形態ではカテゴリ数量から成り立つ線形式により
基本周波数データ１４Ｂを推定する。

【００３７】なお、第１形態と同様に学習用ファイル１
２Ｂに対しては、次の（１）から（２）のような操作を
行って、予めデータの削減を図る（削減学習データ）。

【００３８】（１）各カテゴリ内の学習データに対し
て、それぞれ平均データＸ_i，標準偏差データＳ_iを求め
る。

【００３９】（２）閾値Ｄ_Pを決定する（このとき、人
間が周波数を知覚するときの弁別閾を参考にする）。

【００４０】（３）カテゴリ内データ数≧４、かつＳ_i
＞Ｄ_Pのとき、│Ｘ_i−Ｓ_i│＞Ｄ_Pとなる学習データを削
除する。

【００４１】次表は学習データと削減学習データを用い
た実験結果である。

【００４２】

【表３】

【００４３】

【発明の効果】以上述べたように、この発明によれば、
数量化Ｉ類モデルにおいて、学習データが存在するカテ
ゴリ数を減らすことなく、各カテゴリの分散を小さくす
ることにより、学習データの質を高め、推定誤差を低く
することができる。また、数量化Ｉ類モデルにおいて、
説明変数の選定が非常に困難であるが、削減されたデー
タ数と元のデータ数の比をみることにより、正しい説明
変数であるかという判断をすることができる。

【００４４】音韻制御手段において、学習データ削減の
閾値を音韻の振幅や音韻継続時間長など人が知覚すると
きの弁別閾をもとに設定することにより、推定誤差を人
の弁別閾に近づけることができる。削減されたデータ数
と元のデータ数の比をみることにより、学習データ作成
のための分析精度を見ることができる。

【図面の簡単な説明】

【図１】この発明の実施の第１形態を示す振幅制御ブロ
ック構成図。

【図２】この発明の実施の第２形態を示す音韻継続時間
長制御ブロック構成図。

【図３】この発明の実施の第３継続を示す基本周波数制
御ブロック構成図。

【図４】音声合成装置のブロック構成図。

【図５】カテゴリ内データ分布図。

【符号の説明】

１１…数量化Ｉ類モデル部１２，１２Ａ，１２Ｂ…学習用ファイル１３，１３Ａ，１３Ｂ…推定用ファイル

Claims

【特許請求の範囲】

【請求項１】テキスト入力部からの文章を日本語処理
部で音韻記号列に変換した後、その音韻記号列を音韻制
御部に与えて、音韻制御部で音韻記号列に基づいて韻律
パラメータを生成してから音声合成を行う音声合成方法
において、前記音韻制御部に数量化Ｉ類モデル部を設け、この数量
化Ｉ類モデル部に学習ファイルから学習データを入力し
て、カテゴリ数量を求め、その後、前記音韻記号列から
質的変量を導出した後、推定ファイルを作成し、この作
成された推定ファイルを前記カテゴリ数量から成り立つ
線形式に入力することにより韻律パラメータを生成した
ことを特徴とする音声合成における韻律制御方法。
【請求項２】前記各カテゴリ内の学習データに対して
平均データＸｉ，標準偏差データＳｉを求めた後、閾値
Ｄを決定し、カテゴリ内データ数≧Ｎ（Ｎは任意数）、
かつ、Ｓｉ＞Ｄのとき、│Ｘｉ−Ｓｉ│＞Ｄとなる学習
データを削減することを特徴とする請求項１記載の音声
合成における韻律制御方法。
【請求項３】前記音韻制御部で韻律パラメータを生成
する際に、そのパラメータに対し弁別閾を設けたことを
特徴とする請求項１記載の音声合成における韻律制御方
法。