JPH032797A

JPH032797A - 音声合成装置の抑揚制御方式

Info

Publication number: JPH032797A
Application number: JP13636289A
Authority: JP
Inventors: Yoshimasa Sawada; 沢田　喜正; Kazuya Hasegawa; 和也長谷川
Original assignee: Meidensha Corp; Meidensha Electric Manufacturing Co Ltd
Current assignee: Meidensha Corp; Meidensha Electric Manufacturing Co Ltd
Priority date: 1989-05-30
Filing date: 1989-05-30
Publication date: 1991-01-09

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】Ａ、産業上の利用分野本発明は、規則合成方式による音声合成装置に係り、特
にイントネーションによる抑揚制御方式Ｂ１発明の概要本発明は、イントネーションとアクセント型によって合
成音声の抑揚制御を行う音声合成装置において、文頭及び文末のイントネーション変化を大きくすること
により、自然性を高めた合成音声の抑揚を得るものである。

Ｃ９従来の技術規則合成方式による音声合成装置は、人力文字列を構文
解析によって単語、文節に区切り、夫々にはイントネー
ション、アクセントを決定し、単語、文節を音節さらに
は音素にまで分解し、音節又は音素単位の音源波及び調
音フィルタのパラメータを求め、音源波に対する調音フ
ィルタの応答出力として合成音声を得るようにしている
。

この種の音声合成装置は、例えば第３図に示す構成にさ
れる。日本語処理部ｌは入力された日本語文章に対して
文節の区切りや辞書を参照して読みがな変換等を行う。

文章処理部２は文章にイントネーションを付与し、アク
セント処理部３では文、文節を構成する音節にアクセン
トを付ける。

例えば、第４図に示すように、文章入力「学校の桜がき
れいに咲いた」に対して文イントネーションはその音節
数によって立上り点から対数特性等で低下していき、文
節アクセントは単語、文節によってアクセント型が決め
られ、これらイントネーショとアクセント型を合成しさ
らには呼気イントネーションやフィルタ処理による丸め
、ポーズ等を付加して合成イントネーションが求められ
る。

音素処理部４は人力されたｒｓＡＪ・・・等の各音節デ
ータに対して母音及び子音の単位である音素との対応関
係を規定した音節パラメータ格納部４内のデータを参照
して音素に分解する処理、例えば音節ｒｓＡＪに対して
音素「Ｓ」、ｒＡＪに分解処理する。

補間処理部５は、音素処理部４からの音素列データに対
して、音素毎に音素パラメータ格納部５、の音素パラメ
ータを抽出し、また音源パラメータ格納部５．の音源パ
ターンを抽出してこれらデータから補間処理によって音
源波形及び調音データを得る。音素パラメータは、例え
ば第５図に示すように、子音には各音素を３つの発声時
間帯Ｏ１〜０３に区分し、各時間帯毎に継続時間１＋〜
ｔ３、音源波の繰り返し周波数であるピッチＰ１〜Ｐ３
、この音源波のエネルギーＥ、−Ｅ３、音源波パターン
Ｇ　ｌ”−Ｇ　ｓ及びピッチとエネルギーの時定数ＤＰ
、−ＤＰ３、ＤＥ、〜ＤＥ３を有して音源波の離散的デ
ータを得る。・また、母音には１つの区分ＯＡにして夫
々ピッチ時定数ＤＰ＾、エネルギーＥＡ％エネルギー時
定数Ｄ　Ｅ　Ａ　、音源波パターンＧＡを有して音源波
の離散的データとする。このうち、音源波パターンは例
えば第６図に示すような音源波パターンＧ　Ｉ’＝　Ｇ
　ｓ、　Ｇ　Ａが対応づけられ、各パターンに対して音
源パラメータ格納部５．には数十個のサンプルデータ列
か用意されて音源波のサンプルデータが取出される。ま
た、エネルギＥ＋〜Ｅ３、ＥＡは音源波のレベルの大き
さ即ち音の大きさを規定し、ピッチＰ　ｌ””’　Ｐ　
ｓ、ＰＡは周波数の高さ即ち音の高さを規定する。そし
て、これら音源波データの規定は各時間帯０．〜０３、
ＯＡでの１つの値になり、各時間帯及び音素間のわたり
には時定数ＤＰ、〜Ｄ　Ｐ　ｓ、ＤＰＡＳＤＥｌ〜Ｄ　
Ｅ３、ＤＥ＾が与えられて補間処理部５による補間処理
によって連続した音源波データ列が取出される。

例えば、子音のピッチＰ、〜Ｐ３は第７図に示すように
区間０．〜０３毎の目標値として与えられ、各区間内の
ピッチＰは時定数ＤＰ、〜ＤＰ３の太きさによって実線
や破線で示すような変化になるｎ回の補間処理を行う。

この補間演算は次の漸化式％式％）ＰｎｈＨＫ回目のピッチ制御値ＤＰ　　、ピッチ時定数Ｐｏ　：今回のピッチ目標値Ｐｎ−＋；前回のピッチ目標値によってｎ回演算を行ってＰ　ｌｋ＋　Ｐ　Ｉｋｅｌ・
・・のように夫々ピッチＰｎｋを求める。

次に、音素パラメータ格納部５Ｉには第５図に示すよう
に音響管モデル断面積のパラメータと時定数Ｄ　Ａ　＋
　’＝　Ｄ　Ａ　３、ＤＡＡも格納される。このパラメ
ータは声道調音等価フィルタのパラメータを与えるもの
で、人間の声道（男性の場合は約１７ｃｘ）を長さＬｃ
ｘの音響管１７個連接した調音モデルとして各時間帯毎
に各音響管の断面積Ａ　、　−Ｈ〜／’ｉ＋ｖ−＋ｓ　
Ａｌ−ｔ〜Ａ＋ｖ−ｔ、Ａｌ−３〜Ａ１７−３として与
えられる。これらパラメータは音響管時定数と共に調音
演算部６に与えられて音源波に対する開音演算がなされ
る。

調音演算部６は、断面積パラメータを持つ音響管に対し
て音源波を与えたときの放射音声波形データ列を求め、
この波形デーをＤ／Ａ変換器７によってアナログ信号に
変換して音声出力装置８から合成音声を得る。

ここで、合成音声の抑揚は文イントネーションとアクセ
ント型が音素のピッチ（第５図）Ｐ、〜Ｐ３、ＰＡに夫
々加算又は乗算され、この演算結果でピッチ目標値が決
定され、さらに補間処理部５においてｍｌ述の補間処理
がなされてピッチ周波数として算定される。

Ｄ０発明が解決しようとする課題従来の抑揚制御は、主にイントネーションとアクセント
型によって合成イントネーションを求め−このイントネ
ーションによって主に音素又は音節のピッチ周波数を時
間と共に変化させる。ここで、イントネーションはピッ
チ周波数を時間と共に低下させる特性にされ、この特性
は対数カーブや直線近似にされる。

前者の対数カーブによる抑揚制御では文末部が平坦、即
ち文末部での抑揚変化が小さくなって自然性に劣る。一
方、後者の直線近似による抑揚制御では文頭近くの変化
量が少なくなって文頭部での自然性に劣る問題があった
。

本発明の目的は、イントネーションによる抑揚制御に自
然性を高めた抑揚制御方式を提供することにある。

９８課題を解決するための手段と作用本発明は、上記目的を達成するため、入力文章にイント
ネーションとアクセント型を与えて合成音声の抑揚制御
を行う音声合成装置において、入力文章の文頭から文末
まで対数カーブ又は直線近似のイントネーションデータ
を得る第１の手段と、前記イントネーションデータの文
末近くの下げ率を高く調節する第２の手段とを備え、入
力文章に対して前記第１の手段によって対数カーブ又は
直線近似のイントネーションデータを得、該データに対
して前記第２の手段によって文末近くの下げ率を高くし
て該入力文章のイントネーションとし、文頭及び文末部
でのイントネーションの変化を高く、即ちピッチ周波数
の変化を大きくした抑揚を得る。

Ｆ、実施例第１図は本発明の一実施例を示す処理フローチャートで
ある。ステップＳ１による呼気段落の決定は、入力文章
の句読点や文節数の範囲から人が一息で発生する音声区
間を求める。ステップＳ２による対数カーブのイントネ
ーション決定は上述の音声区間の長さ（音節数やモーラ
数）に応じたイントネーションデータを演算又はテーブ
ルデータから求め、このイントネーションデータは対数
カーブのものにされる。ステップＳ３によるイントネー
ションの文末下げ率を高く調節は、ステップＳ２により
求めた対数カーブのイントネーションデータの文末に相
当する部分の下げ率を高くした補正を行う。ステップＳ
４による合成イントネーションの作成は、補正したイン
トネーションに単語又は文節のアクセント型を重畳させ
、さらにボース等を付加した合成イントネーションを求
める。ステップＳ５による補間処理等は従来と同様に合
成イントネーションによって音素又は音節のピッチ周波
数を調節すると共に補間処理を行って音源波形を得る。

上述までの処理によるイントネーション調節は、第２図
に示すように文頭では対数カーブによってピッチ周波数
の変化が大きくなり、また文末では下げ率を対数カーブ
による下げ率に較べて高くすることでピッチ周波数の変
化が大きくなる。なお、文末の最終ピッチ周波数Ｐ８は
実際の人間が発声した音声波形を統計的に分析し、その
平均的な値になるよう規定する。

上述のことから、本実施例による音声合成波の抑揚は、
文頭から文中間までの抑揚が対数カーブによるピッチ周
波数の高い変化を得ると共に、文末近くから文末にかけ
ては対数力７ブの低いピッチ周波数に較べて高いピッチ
周波数変化を得ることができ、文頭および文末共にピッ
チ周波数変化を高くして合成音声に自然性を得るし、言
わゆるはぎれの良い合成音声を得ることができる。

なお、実施例において、イントネーションは対数カーブ
から補正するに限らず、直線近似のイントネーションに
対してその文末部の下げ率を直線近似の傾斜より大きく
することでも自然性向上に効果がある。

Ｇ１発明の効果以上のとおり、本発明によれば、入力文章の文頭及び文
末部の変化を大きくしたイントネーションによって合成
音声を得るため、人の自然発声の抑揚に近づけたイント
ネーションになってはぎれの良い合成音声を得るなど自
然性を高めた合成音声を得ることができる。

【図面の簡単な説明】

第１図は、本発明の一実施例を示すフローチャート、第
２図は実施例のイントネーション特性図、第３図は音声
合成装置の構成図、第４図はイントネーション波形図、
第５図は音素パラメータのデータ図、第６図は音源波パ
ターンの波形図、第７図は補間処理によるピッチ特性図
である。ｌ・・・日本語処理部、２・・・文章処理部、３・・・
アクセント処理部、 −タ格納部、 −タ格納部、調音演算部、置。４・・・音素処理部、４．・・・音節バラン５・・・補
間処理部、５Ｉ・・・音素バラン５ｔ・・・音源パラメ
ータ格納部、６・・・７・・・Ｄ／Ａ変換器、８・・・
音声出力袋外２名第２図実施例のイントネーション特性図 □時間第１図実施例のフローチャート第３図音声合成装置の構成図８−・−音声出力装置第４図イントネーション波形図第５図音素パラメータのデータ図

Claims

【特許請求の範囲】

（１）入力文章にイントネーションとアクセント型を与
えて合成音声の抑揚制御を行う音声合成装置において、
入力文章の文頭から文末まで対数カーブ又は直線近似の
イントネーションデータを得る第１の手段と、前記イン
トネーションデータの文末近くの下げ率を高く調節する
第２の手段とを備え、入力文章に対して前記第１の手段
によって対数カーブ又は直線近似のイントネーションデ
ータを得、該データに対して前記第２の手段によって文
末近くの下げ率を高くして該入力文章のイントネーショ
ンとすることを特徴とする音声合成装置の抑揚制御方式
。