JPH086591A

JPH086591A - 音声出力装置

Info

Publication number: JPH086591A
Application number: JP6158141A
Authority: JP
Inventors: Koji Asano; 康治浅野
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1994-06-15
Filing date: 1994-06-15
Publication date: 1996-01-12
Also published as: EP0688011B1; US5758320A; EP0688011A1; DE69506037T2; KR970037209A; DE69506037D1

Abstract

(57)【要約】【目的】本発明は、音声出力装置について、全体として
自然で分かりやすい合成音声を生成する。【構成】基本周波数のフレーズ成分の減少特性を変化さ
せることにより当該フレーズ成分に対する２次線形系の
応答特性を制御して、フレーズ成分を算出する。これに
より、音声の内容の意味的な境界部分での基本周波数を
十分に減少させることができると共に、構文情報を厳密
に反映した音声を出力することができる。

Description

【発明の詳細な説明】

【０００１】

【目次】以下の順序で本発明を説明する。産業上の利用分野従来の技術（図６）発明が解決しようとする課題（図７）課題を解決するための手段（図１）作用実施例（図１〜図５）発明の効果

【０００２】

【産業上の利用分野】本発明は音声出力装置に関し、特
に規則合成方式による音声出力装置に適用して好適なも
のである。

【０００３】

【従来の技術】一般に音声の特徴は、主としてスペクト
ル包絡によつて表される分節的特徴と、主として基本周
波数の時間パターン（以下基本周波数パターンと呼ぶ）
によつて表される韻律的特徴との２つの特徴に大別する
ことができる。分節的特徴は局所的であり、例えば音節
などの小さな単位で音響的特徴を蓄積して接続する分析
合成によつて合成することができる。これに対して韻律
的特徴は文全体にわたる特徴であり、単語構成や文型な
どによつて多様に変換するため規則による合成が不可欠
となる。

【０００４】韻律的特徴は主として声帯音源の基本周波
数、強度及び音素の持続時間等のパラメータによつて表
現される。韻律的特徴の主要な音響的表現としての声帯
音源の基本周波数は、単語アクセント、強調、イントネ
ーシヨン、構文等の言語学的情報を担うと同時にこれら
の情報が個人の声帯振動機構を介して実現される過程に
おいて、話者の個人性及び発話等の情緒などの非言語情
報も付与されている。しかしながら規則による合成の見
地からは、言語学的情報を基本周波数の時間的変化に変
換する過程を定量的に表現することが最も重要である。

【０００５】そこで上述の規則による合成に必要なの
は、入力記号列と、これらのパラメータの時間的変化の
パターンとの間の本質的な関係を簡潔かつ的確な法則に
よつて記述することである。しかしながら韻律的特徴の
合成に必要な記号はテキスト中には明示されていないた
め、単語のアクセント型、文の統語構造、文章の談話構
造などの言語学的情報を利用して導出する必要がある。
さらに韻律的特徴が連続的であるのに対し、対応する記
号は離散的であるので、音声合成のときには両者を関係
付けるモデルが必要となる。

【０００６】ここで韻律情報の中で、イントネーシヨン
やアクセントが合成音を高品質化する上で特に重要であ
る。これには声の高さ（基本周波数）、強さ、長さ等が
関連するが、基本周波数がこれらを支配する直接的要因
である。図６に文音声の基本周波数パターンの表現方法
の一例を示す。これは基本周波数パターンを、文全体の
イントネーシヨンに対応するフレーズ成分と、個々の単
語及び音節に固有なパターンであるアクセント成分とを
重畳して表現したものである。（1985年、東海大学出版
「デイジタル音声処理」古井著）。

【０００７】

【発明が解決しようとする課題】ところで音声出力装置
における基本周波数パターンの生成において、２次線形
系の応答を用いる例として、図７に示すような基本周波
数パターン生成モデル（広瀬、藤崎、河井、山口「基本
周波数パターン生成過程モデルに基づく文章音声の合
成」電子情報通信学会論文誌、 Vol.J72-A No.1 1989
年）があり、基本周波数パターンを制御する場合に一般
的に用いられている方法である。この生成方法では、基
本周波数パターンを生成するモデルとして、フレーズ成
分（イントネーシヨン成分）に対応してインパルス状の
指令（フレーズ指令）の臨界制動２次線形系の応答を用
い、アクセント成分に対応してステツプ状の指令（アク
セント指令）の臨界制動２次線形系の応答を用い、これ
らを重畳したものを基本周波数の時間パターンとして用
いている。

【０００８】この場合、基本周波数をＦ₀とすると、基
本周波数は時間ｔの関数として次式

【数１】によつて表すことができる。ここでＧ_pi（ｔ）はフレー
ズ制御機構のインパルス応答関数、Ｇ_aj（ｔ）はアクセ
ント制御機構のステツプ応答関数である。またＡ_piはフ
レーズ指令の大きさ、Ａ_ajはアクセント指令の大きさ、
Ｔ_0iはフレーズ指令の時点、Ｔ_1j、Ｔ_2jはアクセント指
令の始点と終点である。

【０００９】ところが応答のモデルとして２次線形系を
用いる上述の生成方法では、臨界制動での応答に限定し
て用いているのでフレーズ成分の減少割合が一定であ
る。このため韻律句（フレーズ指令と次のフレーズ指令
で区切られる意味的にまとまつた句のことである）が短
い場合にはフレーズ成分が十分に減少せず、また韻律句
が長い場合には韻律句の終わりの方でフレーズ成分がほ
とんど変化しなくなる。従つて基本周波数の変化が少な
く、意味的な区切りが不明確になる場合が生ずるという
問題があつた。

【００１０】本発明は以上の点を考慮してなされたもの
で、全体として自然で分かりやすい合成音声を生成し得
る音声出力装置を提案しようとするものである。

【００１１】

【課題を解決するための手段】かかる課題を解決するた
め本発明においては、基本アクセント、強調、イントネ
ーシヨン、構文等の言語学的情報を担う音声の基本周波
数の時間変化パターンを、イントネーシヨンに対応する
フレーズ成分と基本アクセントに対応するアクセント成
分との和で表現し、フレーズ成分をインパルス状のフレ
ーズ指令、アクセント成分をステツプ状のアクセント指
令に対する２次線形系の応答で近似し、基本周波数の時
間変化パターンを対数軸上で表現する音声出力装置
（１）において、入力された文字の系列を解析して得ら
れた単語、文節の境界及び基本アクセントを蓄積する解
析情報蓄積部（３）と、基本周波数のフレーズ成分の減
少特性を変化させることにより当該フレーズ成分に対す
る２次線形系の応答特性を制御してフレーズ成分を算出
し、当該フレーズ成分に基づいて基本周波数の時間変化
パターンを生成する音声合成規則部（４）と、解析情報
蓄積部（３）の解析情報に基づき、所定の音韻規則に従
つて生成される合成波形データと基本周波数の時間変化
パターンとに基づいて、合成音を生成する音声合成部
（６）とを設けるようにした。

【００１２】

【作用】基本周波数のフレーズ成分の減少特性を変化さ
せることにより当該フレーズ成分に対する２次線形系の
応答特性を制御して、フレーズ成分を算出するようにし
たことにより、音声の内容の意味的な境界部分で基本周
波数を十分に減少させることができると共に構文構造を
厳密に反映した音声を出力し得るので、全体として自然
で分かりやすい合成音声を容易に生成することができ
る。

【００１３】

【実施例】以下図面について、本発明の一実施例を詳述
する。

【００１４】図１において、１は全体として日本語テキ
スト音声出力装置の概略構成及び処理の流れを示し、フ
レーズ成分の減少特性を変化させることにより当該フレ
ーズ成分に対する２次線形系の応答を過制動、臨界制
動、不足制動と制御してフレーズ成分を算出し、当該フ
レーズ成分に基づいて基本周波数パターンを生成するこ
とにより、全体として自然で分かりやすい合成音声を生
成するようになされている。

【００１５】図１に示すように、音声出力装置１は、漢
字仮名混じり文（テキスト）を入力する（例えば鍵盤装
置、光学的文字読取り装置（ＯＣＲ）又は磁気デイスク
等でなる）入力部２、文章解析部３、音声合成規則部
４、音声単位を記録した音声単位記憶部５（例えばＩＣ
メモリや磁気デイスク等の記憶装置）、音声合成部６及
び出力部７より構成されている。

【００１６】文章解析部３では、辞書検索部８におい
て、入力部２より入力された漢字仮名混じり文中に含ま
れる語を、形態素（単語）の基準となる単語の綴り及び
その付属情報（例えば、読み、品詞情報、アクセント
等）を記録した辞書９（例えばＩＣメモリや磁気デイス
ク等の記憶装置）より検索した後、形態素解析部１０に
よつて当該漢字仮名混じり文と辞書検索部８で検索され
た語群とより形態素に解析し、形態素解析部１０からの
データに基づいて発音記号生成部１１で発音記号列を生
成する。

【００１７】すなわち文章解析部３では、入力部２より
入力された漢字仮名混じり文を所定の辞書９を基準にし
て解析し、仮名文字列に変換した後、単語、文節毎に分
解する。ここで日本語においては、英語のように単語が
分かち書きされていないことから、例えば「米国産業
界」のような言葉は、「米国／産業・界」、「米／国産
／業界」のように２種類に区分化することができる。こ
のため文章解析部３は辞書９を参考にしながら、言葉の
連続関係及び単語の統計的性質を利用して、漢字仮名混
じり文を単語、文節毎に分解するようになされ、これに
より単語、文節の境界を検出する。さらに文章解析部３
は、各単語ごとに基本アクセントを検出した後、これら
を音声合成規則部４に出力する。

【００１８】図２に示すように、音声合成規則部４は、
発話速度及び構文的情報抽出部１２と、フレーズ指令生
成部１３と、アクセント指令生成部１４と、モーラ数及
び位置情報抽出部１５と、フレーズ成分特性制御部１６
と、アクセント成分特性制御部１７と、フレーズ成分計
算部１８と、アクセント成分計算部１９と、フレーズ成
分及びアクセント成分重畳処理部２０とによつて構成さ
れ、発音記号生成部１１より得られるデータと、音声単
位記憶部５よりロードされる情報と、音声合成規則部４
に設定された所定の音韻規則及び韻律規則等より、音声
の合成波形パターンと基本周波数パターンとを得るよう
になされている。

【００１９】すなわち、まず発話速度及び構文的情報抽
出部１２において、発音記号生成部１１より入力された
情報より発話速度に関する情報と構文的情報とを抽出す
る。次にフレーズ指令生成部１３において、この抽出さ
れた発話速度及び構文的情報に基づきフレーズ成分を制
御するフレーズ指令の位置及び大きさを生成し、アクセ
ント指令生成部１４において、アクセント成分を制御す
るアクセント指令の位置及び大きさを生成する。次にモ
ーラ数及び位置情報抽出部１５において、生成されたフ
レーズ指令の位置情報及びアクセント指令の位置情報よ
り、フレーズ成分を立て直す（成分が一度ゼロになつて
再び立ち上がる）間のモーラ数とフレーズ指令及びアク
セント指令の位置情報とを求める。

【００２０】以上の処理によつて得られた４つの情報、
すなわち発話速度、構文的情報、モーラ数並びにフレー
ズ指令及びアクセント指令の位置情報に基づいて、フレ
ーズ成分特性制御部１６でフレーズ成分の減少特性、ア
クセント成分特性制御部１７でアクセント成分の形状を
制御する。この結果を基にフレーズ成分計算部１８でフ
レーズ成分を計算し、アクセント成分計算部１９でアク
セント成分を計算する。

【００２１】ここで本発明の実施例では、フレーズ成分
計算部１８でのフレーズ成分の算出に２次線形系のイン
パルス応答で近似するモデルを用いており、フレーズ成
分特性制御部１６では、フレーズ成分を計算する際に必
要なフレーズ指令の時点、値などと共に減衰率の値を制
御するようになされている。フレーズ成分の算出モデル
に用いる２次線形系の減衰率（フレーズ成分の減少特性
の値）をδとすると、減衰率δは次式

【数２】のように関数の形式で表すことができる。ここでａは出
力される音声の発話速度を示す変数、ｂはフレーズ成分
を立て直す間の文節数（モーラ数）を示す変数、ｃは出
力される音声の構文的情報を示す変数、ｄは出力される
文及び文章中でのフレーズ成分の位置情報を示す変数で
ある。この関数ｆの具体的な係数は、予め用意された音
声データより、統計的手法及び場合分け手法を用いるこ
とによつて算出することができる。

【００２２】このように表現された関数ｆを用いて、フ
レーズ成分を算出する際に用いる個々のフレーズ指令の
指令ごとにδを決定し、この結果に基づいてフレーズ成
分計算部１８でそれぞれの成分を計算する。これによ
り、正確で分かりやすい音声を出力するための基本周波
数パターンを算出することができる。最後にフレーズ成
分及びアクセント成分重畳処理部２０において、フレー
ズ成分計算部１８で算出されたフレーズ成分とアクセン
ト成分計算部１９で算出されたアクセント成分とを重畳
することにより、基本周波数パターンを生成する。

【００２３】また音声合成規則部４は、日本語の特徴に
基づいて設定された所定の音韻規則に従つて、文章解析
部３の検出結果及びテキスト入力を処理するようになさ
れている。すなわちこの音韻規則に従つてテキスト入力
を音声単位記号列に変換する。さらに音声合成規則部４
は、当該音韻記号列に基づいて音声単位記憶部５より各
音韻単位のデータをロードする。

【００２４】ここで音声出力装置１においては、音声単
位記憶部５からロードされるデータは、各ＣＶ（子音母
音）単位で表される合成音を生成する際に用いられる波
形データでなる。この波形合成に用いられる音声単位デ
ータは以下のような構成よりなる。音声単位データの有
性部分には、複素ケプストラム分析手法によつて抽出さ
れた１ピツチに対応するインパルスと単位応答の両者を
１つの組合せとして、音声単位有声部分に必要なフレー
ム数だけの組合せを有声部分のデータとして蓄え、音声
単位の無声部分においては、実音声の無声部分をそのま
ま切り出してデータとして蓄えている。

【００２５】従つて音声単位データがＣＶ単位である場
合には、１つの音声単位ＣＶの子音部Ｃが無声子音であ
るときには無声部分の切り出し波形と、インパルスと、
単位応答波形とよりなる複数組によつて１つの音声単位
データが構成される。また１つの音声単位ＣＶの子音部
Ｃが有声子音であるときにはインパルスと単位応答波形
とよりなる複数組のみによつて１つの音声単位データが
構成されることとなる。

【００２６】ここで複素ケプストラム分析は、実音声の
分析合成において高品質なピツチ変換法、発話速度変換
法として既知の分析手法であり、この音声の分析合成に
おいて有益な分析手法を任意文発声の規則合成に用いる
ようになされている。このように構成されている音声単
位データを音声合成規則部４は音声単位記憶部５よりロ
ードし、テキスト入力に応じた順序で合成し、かくして
抑揚の無い状態でテキスト入力を読み上げた合成音声波
形を得ることができる。

【００２７】次に音声合成部６は、音声の合成波形パタ
ーンと基本周波数パターンとに基づいて波形合成処理を
行つて合成音を生成する。この波形合成処理は、次のよ
うなことを行つている。すなわち有声部分においては、
合成波形データ内のインパルスを基本周波数パターンに
基づいて並べ、この並べられたインパルスそれぞれに対
応する単位応答波形を各インパルスに重畳する。

【００２８】また合成音声の無声部分においては、合成
波形データ内の切り出し波形をそのまま所望の合成音の
波形とする。これにより基本周波数パターンの変換に追
従して抑揚の変化する合成音を得ることができる。従つ
て合成音において音源情報にインパルスを用いているた
め、合成音のピツチ周期が伸縮してもそれによる音源情
報への影響はほとんどなく、基本周波数パターンが大き
く変化するような場合でもスペクトル包絡に歪みが生ず
ることなく、人間の音声に近い高品質な任意合成音が得
られる。このような波形合成処理によつて得られた合成
音は出力部７（例えばスピーカや磁気デイスク等）より
出力される。

【００２９】以上の構成において、日本語テキスト音声
出力装置１に、例えばテキスト「自然の研究者は自然を
ねじ伏せようとしてはいけない。」が入力された場合、
入力テキストは文章解析部３で、辞書８を基準にして解
析され、単語、文節の境界及び基本アクセントが検出さ
れ、発音記号列が生成される。

【００３０】次に音声合成規則部４の発話速度及び構文
的情報抽出部１２において、発音記号生成部１１から入
力された情報より、図３に示すような発話速度及び構文
的情報を抽出する。すなわち発話速度として８〔モーラ
／秒〕の情報が抽出され、構文的情報として主部が「自
然の研究者は」、述部が「自然をねじ伏せようとしては
いけない」が抽出される。次にフレーズ指令生成部１３
及びアクセント指令生成部１４では、これらの情報に基
づいて図４に示すうようにフレーズ指令及びアクセント
指令の位置と大きさとを決める。

【００３１】すなわち「↑し｀ぜんの´け｀んきゆ´う
しやは↑し｀ぜんを´ね｀じふせ´ようとしてはい｀け
ない´↓」のようにフレーズ及びアクセントの位置と大
きさとを指定する。ここで「↑」、「↓」はフレーズ指
令、「｀」、「´」はアクセント指令を示す。

【００３２】次にモーラ数及び位置情報抽出部１５にお
いて、これらの情報より図５に示すような出力を得る。
すなわちモーラ数の情報として、フレーズ指令１〜２の
間にはモーラが10個置かれ、フレーズ２〜３の間にはモ
ーラが18個置かれているという情報である。またフレー
ズ指令及びアクセント指令の位置情報として、フレーズ
指令１はテキストの先頭に、すなわちモーラ数はゼロで
あり、フレーズ指令２はテキストの先頭から10番目のモ
ーラの後に、フレーズ指令３はテキストの先頭より28番
目のモーラの後に置かれているという情報である。同様
にアクセント指令１はテキストの先頭より１モーラから
４モーラ、アクセント指令２は先頭より５モーラから７
モーラ、アクセント指令３は先頭より11モーラから14モ
ーラ、アクセント指令４は先頭より15モーラから18モー
ラ、アクセント指令５は先頭より25モーラから28モーラ
に置かれているという情報である。

【００３３】続いてフレーズ成分特性制御部１６におい
て、上述の４つの情報、すなわち発話速度、構文的情
報、モーラ数、フレーズ指令の位置情報を用いて、フレ
ーズ指令の時点、大きさと共に減衰率の値を、予め求め
た関数ｆに従つて求め、この値に基づいてフレーズ成分
計算部１８でフレーズ成分が算出される。この算出され
たフレーズ成分とアクセント成分特性制御部１７及びア
クセント成分計算部１９で算出されたアクセント成分と
をフレーズ成分及びアクセント成分重畳処理部２０で足
し合わせて所望の基本周波数パターンを生成する。また
音声合成規則部４では、所定の音韻規則に従つて、抑揚
のない状態でテキスト入力を読み上げた音声を表す合成
波形データが生成される。この合成波形データは、基本
周波数パターンと共に音声合成部６に出力され、ここで
合成波形データ及び基本周波数パターンに基づいて合成
音が生成され、出力部７より出力される。

【００３４】以上の構成によれば、発話速度、構文的情
報、フレーズ成分を立て直す間のモーラ数及びフレーズ
指令の位置情報の４つの情報に基づいて、フレーズ成分
を算出する際に用いられる個々のフレーズ指令の指令ご
とに、基本周波数のフレーズ成分の減少特性を決定する
ようにしたことにより、韻律句が短い場合には意味的な
区切れの部分で十分に基本周波数を減少させることがで
きると共に、韻律句が長い場合には韻律句全体にわたつ
てフレーズ成分の減少特性を制御することができ、かく
して全体として自然で分かりやすい合成音声を生成する
ことができる。

【００３５】なお上述の実施例においては、音声単位記
憶部５において音声単位データをＣＶ単位で保持してい
るが、本発明はこれに限らず、ＣＶＣ単位等の他の音声
単位データで保持してもよい。

【００３６】また上述の実施例においては、本発明の実
施例を音声出力装置１に適用した場合について述べた
が、本発明はこれに限らず、音声信号の高能率符号化に
おける復号装置や、音声の圧縮伝送における復元装置等
の音声出力装置にも適用し得、一段と的確に文の内容を
聴取者に伝えることができる。

【００３７】

【発明の効果】上述のように本発明によれば、基本周波
数のフレーズ成分の減少特性を変化させることにより当
該フレーズ成分に対する２次線形系の応答特性を制御し
て、フレーズ成分を算出するようにしたことにより、音
声の内容の意味的な境界部分で基本周波数を十分に減少
させることができると共に構文構造を厳密に反映した音
声を出力し得るので、全体として自然で分かりやすい合
成音声を容易に生成することができる。

【図面の簡単な説明】

【図１】本発明の実施例による日本語テキスト音声出力
装置の概略構成及び処理の流れを示すブロツク図であ
る。

【図２】本発明の実施例による日本語テキスト音声出力
装置の音声合成規則部の構成及び処理の流れを示すブロ
ツク図である。

【図３】音声合成規則部の発話速度及び構文的情報抽出
部より得られる発話速度及び構文的情報の一例の説明に
供する略線図である。

【図４】音声合成規則部のフレーズ指令生成部及びアク
セント指令生成部より得られるフレーズ指令及びアクセ
ント指令の一例の説明に供する略線図である。

【図５】音声合成規則部のモーラ数及び位置情報抽出部
より得られるモーラ数とフレーズ指令及びアクセント指
令の位置情報との一例の説明に供する略線図である。

【図６】基本周波数パターンの表現方法を示す略線図で
ある。

【図７】基本周波数パターン生成過程のモデルを示すブ
ロツク図である。

【符号の説明】

１……音声出力装置、２……入力部、３……文章解析
部、４……音声合成規則部、５……音声単位記憶部、６
……音声合成部、７……出力部、８……辞書検索部、９
……辞書、１０……形態素解析部、１１……発音記号生
成部、１２……発話速度及び構文的情報抽出部、１３…
…フレーズ指令生成部、１４……アクセント指令生成
部、１５……モーラ数及び位置情報抽出部、１６……フ
レーズ成分特性制御部、１７……アクセント成分特性制
御部、１８……フレーズ成分計算部、１９……アクセン
ト成分計算部、２０……フレーズ成分及びアクセント成
分重畳処理部。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号庁内整理番号ＦＩ技術表示箇所Ｇ１０Ｌ 3/00 Ｈ

Claims

【特許請求の範囲】

【請求項１】基本アクセント、強調、イントネーシヨ
ン、構文等の言語学的情報を担う音声の基本周波数の時
間変化パターンを、上記イントネーシヨンに対応するフ
レーズ成分と上記基本アクセントに対応するアクセント
成分との和で表現し、上記フレーズ成分をインパルス状
のフレーズ指令、上記アクセント成分をステツプ状のア
クセント指令に対する２次線形系の応答で近似し、上記
基本周波数の時間変化パターンを対数軸上で表現する音
声出力装置において、入力された文字の系列を解析して得られた単語、文節の
境界及び基本アクセントを蓄積する解析情報蓄積部と、上記基本周波数のフレーズ成分の減少特性を変化させる
ことにより当該フレーズ成分に対する２次線形系の応答
特性を制御してフレーズ成分を算出し、当該フレーズ成
分に基づいて上記基本周波数の時間変化パターンを生成
する音声合成規則部と、上記解析情報蓄積部の解析情報に基づき、所定の音韻規
則に従つて生成される合成波形データと上記基本周波数
の時間変化パターンとに基づいて、合成音を生成する音
声合成部とを具えることを特徴とする音声出力装置。
【請求項２】上記音声合成規則部は、出力される音声の発話速度を検出する発話速度抽出部
と、上記出力される音声の構文的情報を検出する構文的情報
抽出部と、上記フレーズ成分を立て直す間の文節数を検出する文節
数抽出部と、出力される文章中でのフレーズ指令の位置情報を検出す
る位置情報抽出部と上記発話速度、構文的情報、文節数
及びフレーズ指令の位置情報に基づいて上記フレーズ成
分の減少特性を制御して当該フレーズ成分を算出するフ
レーズ成分特性制御部とを具えることを特徴とする請求
項１に記載の音声出力装置。