JP3437064B2

JP3437064B2 - 音声合成装置

Info

Publication number: JP3437064B2
Application number: JP22802997A
Authority: JP
Inventors: 啓子綿貫
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1997-08-25
Filing date: 1997-08-25
Publication date: 2003-08-18
Anticipated expiration: 2017-08-25
Also published as: JPH1165597A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、人間とコンピュー
タが音声を通じて対話する音声合成装置に関する。

【０００２】

【従来の技術】従来、人間とコンピュータの間のインタ
ーフェースとしては、音声で応答する音声合成装置が考
えられてきた。これは、人間が発する音声を認識し、そ
れに応じてシステムの内部状態を変化させ、あらかじめ
決められた音声出力をし、人間との対話を実現しようと
したものである。また、コンピュータとの対話をより円
滑にするために、入力音声に対してアニメーション等が
応答する出力合成装置（本願の音声合成及びＣＧ合成出
力装置に相当）が提案されている。

【０００３】上述のような音声合成装置においては、音
声を合成する際、音素の継続時間長などの韻律制御規則
の良否が合成される音声の自然性に影響を及ぼす。たと
えば、電子通信学会論文誌Ｖｏｌ．Ｊ６７−Ａ，Ｎｏ．
７（１９８４）では、音素が固有に持つ平均的な継続時
間長に、種々の条件を考慮した伸縮を施すことによっ
て、音素の継続時間長を決定する手法が説明されてい
る。また、特開昭６１−３２０９６号公報では、標準的
な発話テンポにおける各音素の継続時間長を、子音、母
音とで異なる割合を用いて伸縮する方法が述べられてい
る。さらに、特開平３−８９２９９号公報では、発話テ
ンポごとに異なる定数テーブルを用いて、音素の継続時
間長を決定する方法が述べられている。しかし、上述し
た音声合成方法および装置では、音素のリズムを制御の
単位として継続時間長を変更することによって、合成音
声のリズムや発話テンポの制御を行っているが、実際の
発話でのリズムの制御は音素を単位として行われている
わけではないため、不自然なリズムとなることがあっ
た。

【０００４】特開平６−２２２７９３号公報では、出力
すべき文を母音−子音−母音連鎖に分解し、各連鎖の通
常発話テンポでの先行母音の中心から後続母音の中心ま
での継続時間長をリズムの単位として算出し、発話テン
ポに応じて各母音中心間長を伸縮する方法が述べられて
いる。しかし、イントネーションがおかしくなるなど、
不自然性が問題になっていた。

【０００５】

【発明が解決しようとする課題】本発明は、上述の課題
を解決するためになされたもので、リズム単位を、コン
ピュータが出力する発話の開始点や下降ピッチの開始点
とし、これら特徴量が相補的、等時間的に出現するよう
に制御することによって、実際の発話に近い、自然な音
韻継続時間長やポーズ長をもった合成音声を出力するこ
との可能な音声合成装置を提供することを目的としてな
されたものである。

【０００６】

【課題を解決するための手段】本発明は、音声を合成す
る対象となる文章を生成する言語処理手段と、該言語処
理手段で生成した文章にアクセント、ポーズ、及び母音
の無声音化情報を加えて音韻記号列を生成する韻律処理
手段と、音声におけるアクセント型により分類したピッ
チパターンを記憶したピッチパターンデータベースと、
前記ピッチパターンデータベースから前記韻律処理手段
で得られた音韻記号列に含まれる文節のそれぞれに対応
したピッチパターンを検索する手段と、発話開始点と第
一の下降ピッチ開始点の間の時間、または下降ピッチ開
始点間の時間を、所定の間隔になるように補正するリズ
ム制御手段を備えた音声合成装置であって、前記所定の
間隔は、発話開始点と第一の下降ピッチ開始点の間、ま
たは下降ピッチ開始点間に挟まれた区間に含まれる語句
のモーラ数により決定することを特徴とし、これによ
り、自然音声に近いピッチパターンを得ることができる
ようになり、その結果、合成音声の自然性が向上するよ
うにしたものである。

【０００７】

【０００８】

【０００９】

【００１０】

【００１１】

【００１２】

【００１３】

【００１４】

【００１５】

【００１６】

【００１７】

【００１８】

【発明の実施の形態】

（実施形態１）図１は、本発明の第１の実施形態を説明
するためのブロック図で、音声合成装置の基本構成例を
示すものである。以下、図１に示す基本構成に従う本発
明の実施形態を説明する。入力部１０に入力されたユー
ザの音声は、解析部２０で解析され、応答生成部３０に
入力される。応答生成部３０では、コンピュータにより
音声合成出力される合成文章が言語処理手段３１で生成
され、韻律処理手段３２に送られる。韻律処理手段３２
では、送られた合成文章が音声合成処理に必要なアクセ
ントの情報，ポーズ，母音の無声音化などの発音情報を
加えた音韻記号列に変換され、リズム生成手段３３に送
られる。リズム生成手段３３は、アクセント型によるピ
ッチパターンを記憶したピッチパターンデータベース３
４を備え、音声合成の対象となる文節に対応したピッチ
パターンをピッチパターンデータベース３４から検索
し、得られたピッチパターンを制御し、リズムを生成し
て出力部４０より出力する。図２（Ａ）に言語処理手段
３１で生成される合成文章の例を、また、図２（Ｂ）に
韻律処理手段３２で生成される音韻記号列の例を示す。

【００１９】次に、本発明の特徴であるリズム生成手段
３３およびピッチパターンデータベース３４について説
明する。ピッチパターンデータベース３４においては、
予め自然発声のピッチを分析しておいて、これに正規化
を施してピッチパターンとしてデータベース化してあ
る。

【００２０】図３は、４モーラのピッチパターンデータ
ベースの例を示す図である。ここで、アクセント型Ｎ
は、アクセント核の位置を表す。アクセントとは、アク
セントがついた際に、周波数が下降する直前（下降ピッ
チ開始点）のモーラである。つまり、１型とは、アクセ
ント核が第１モーラであること、２型とは、アクセント
核が第２モーラであること、３型とは、アクセント核が
第３モーラであること、０型とは、アクセント核がない
ことを示す。なお、図３には、４モーラの例を示した
が、１つのアクセント型Ｎについて、モーラ数Ｍの異な
るパターンが存在する。

【００２１】リズム生成手段３３は、上記のごとくに複
数記憶された正規化ピッチパターンから、合成しようと
している文節のモーラ数およびアクセント型で決まる１
つのピッチパターンを検索する。人間同士の対話の解析
において、スムーズな対話では、発話の開始点や発話の
下降ピッチ，手の振りが相補的に、ほぼ等時間的に出現
することがわかっている。そこで、リズム生成手段３３
は、これら特徴量が相補的に、等時間的に生起するよう
制御する。以下では、ピッチパターンデータベース３４
から検索により取り出したピッチパターンに対して、発
話開始点とアクセント核（下降ピッチ開始点）の出現間
隔が相補的，等時間的になるよう、音韻継続時間長やポ
ーズ長を伸縮することにより、リズムを生成する例につ
いて説明する。

【００２２】図４は、コンピュータが「こちらの電子手
帳は、ペンで入力するだけで簡単にメモが作れます」と
合成音声で読み上げるときに、ピッチパターンデータベ
ース３４から検索される文節ごとのピッチパターンの例
である。図５は、この検索されたピッチパターンを制御
してリズム生成をする前のピッチパターンの例で、図６
は、リズム生成手段３３により処理をした後のピッチパ
ターンの例である。コンピュータが「こちらの電子手帳
は、ペンで入力するだけで簡単にメモが作れます」と合
成音声で読み上げるときの音声ピッチの時間変化を示
す。縦軸がピッチ（Ｈｚ）、横軸が時間（フレーム＝１
／３０秒）である。リズム生成処理を施した図６では、
発話開始時刻Ｔ０および下降ピッチの開始時刻Ｔ１，Ｔ
２，Ｔ３…の出現間隔Ｐが一定になるよう、音韻の継続
時間長およびポーズ長が伸縮されている。

【００２３】具体的には、リズム生成手段３３は、検索
により取り出したピッチパターンに対して、発話開始点
と各アクセント核（下降ピッチ開始点）の出現間隔Ｐ
が、Ｐ＝ｎｐ（ｓｅｃ．）となるよう、各アクセント核（下降ピッチ開始点）に挟
まれる音韻（またはモーラ）およびポーズの継続時間長
を算出し、アクセント核の開始時刻を制御する。このよ
うにして、アクセント核が等時間的に出現するようなリ
ズムを生成することができる。ここで、ｐは例えば、
０.８などの定数で、コンピュータの内部状態に応じて
変えることができる。

【００２４】また、ｎは、出現間隔Ｐに挟まれるモーラ
数Ｍが、例えば、３＜Ｍ≦１０であるときは、ｎ＝１と
し、またＭ≦２であるときは、ｎ＝０.５とし、またＭ
＞１０であるときには、ｎ＝２とし、データベースから
得られたピッチパターンにおいて、隣り合うアクセント
核が近接しすぎているとき（Ｍ≦２）や、アクセント核
を伴わない文節が連続した場合（Ｍ＞１０）にアクセン
ト核の出現間隔をｐの倍数に保持し、リズムを保てるよ
うにする。

【００２５】なお、ｐの値に１／ｆゆらぎをもたせるこ
とにより、機械的でない、より自然なリズムを生成する
ことが可能である。また、例えば、急を要する内容の場
合は、ｐの値を短縮し、あるいは、応答内容に不明な点
があり、不安な場合は、ｐの値を伸長するなどして、生
成される音声内容に応じてｐの値を変調させることによ
り、コンピュータの音声に感情を持たせることができ、
より親しみやすい合成音声を作り出すことができる。

【００２６】（実施形態２）図７は、本発明の第２の実
施形態を説明するためのブロック図で、音声合成及びＣ
Ｇ合成出力装置の基本構成例を示すものである。本実施
形態の構成は、図に示すように、実施形態１の音声合成
装置の構成に加えて、出力されるＣＧ人物の動作を制御
するＣＧ制御手段３５が付加されている。以下では、Ｃ
Ｇ人物の頭の動きを制御する場合の動作例を説明する。
人間同士の対話の解析において、対話におけるリズム
が、音声パワー，音声ピッチ，手の振り、頭の動きから
抽出できることがわかっている。また、スムーズな対話
では、頭の縦振りが、発話の開始点や発話の下降ピッチ
と同期をとる傾向にあることと、これら頭の振りや音声
の特徴量が相補的に、ほぼ等時間的に出現することがわ
かっている。

【００２７】図８は、図７に示すＣＧ制御手段３５にお
ける処理の一例を説明するための図である。図８には、
ユーザが「こちらの電子手帳は、ペンで入力するだけで
簡単にメモが作れます」と発話したときの音声の時間変
化と、音声に同期したＣＧ画像の頭の動きが示されてい
る。縦軸が動きの大きさ、横軸が時間（フレーム）であ
る。図に示すように、発話開始時刻Ｔ０および下降ピッ
チの開始時刻Ｔ１，Ｔ２，Ｔ３…とＣＧ人物の頭の動き
の開始時刻Ｔｃｇ１，Ｔｃｇ２…が同期をとりながら、
相補的，等時間的に出現するよう、ＣＧ人物の頭の動き
の出現時刻が制御されている。

【００２８】（実施形態３）図９は、本発明の第３の実施形態を説明するためのブロ
ック図で、本発明による音声合成装置を対話装置に適用
した場合の基本構成例を示すものである。人間同士の対
話の解析において、考えながら話すときのリズムと、熱
心に話しているときでは、対話のリズムが変化すること
がわかっている。本実施形態では、このようなユーザの
対話のリズムに合わせてコンピュータ側のリズムを変化
させ、ユーザとコンピュータとの間にリズミカルな対話
を実現するものである。

【００２９】本実施形態の構成は、図９に示すように、
実施形態１の音声合成装置の構成に加えて、ユーザの対
話のリズムを検出するリズム検出手段５０が付加されて
いる。以下では、入力データを音声としてその音声ピッ
チを認識する手段、また、出力手段として合成音声を出
力する音声出力手段とを具備するコンピュータによるも
のとして、本発明の実施形態を説明する。

【００３０】まず、入力データの音声ピッチはＡＤ変換
され、予め決められた処理単位（フレーム：１フレーム
は１／３０秒）毎に音声ピッチレベルが認識され、予め
決められたレベルの「下降ピッチ」が検出され、リズム
検出手段５０に送出される。リズム検出手段５０では、
入力されたユーザの音声の下降ピッチから周期（リズ
ム）を検出し、時刻情報とともにユーザの対話のリズム
を検出する。

【００３１】図１０は、図９に示すリズム検出手段にお
ける処理の一例を説明するための図である。図１０に
は、ユーザが「コンピュータの中でそれを再現してやる
とこのような形で…」と発話したときの音声の時間変化
が示されている。縦軸がピッチ（Ｈｚ）、横軸が時間
（フレーム）である。一定時間ごとにこれらの発話開始
時刻Ｔ０および下降ピッチの開始時刻Ｔ１，Ｔ２，Ｔ３
…から、下降ピッチの出現の周期を自己相関により求め
る。リズム生成手段３３は、上述のようにして、リズム
検出手段５０で検出されたユーザのリズムに応じて、コ
ンピュータ側から出力される発話のアクセント核（下降
ピッチ開始点）の出現間隔Ｐを決定する。

【００３２】

【発明の効果】発話開始点と第一の下降ピッチ開始点の
間、または下降ピッチ開始点間に挟まれた区間に含まれ
る語句のモーラ数により決定するようにしたので、自然
音声に近いピッチパターンを得ることができるようにな
り、その結果、合成音声の自然性が向上する。

【００３３】

【００３４】

【００３５】

【００３６】

【００３７】

【００３８】

【００３９】

【００４０】

【００４１】

【００４２】

【図面の簡単な説明】

【図１】本発明の第１の実施形態を説明するためのブロ
ック図である。

【図２】図１に示す言語処理手段で生成される合成文章
の一例及び韻律処理手段で生成される音韻記号列の例を
示す図である。

【図３】４モーラのピッチパターンデータベースの例を
示す図である。

【図４】図１に示すピッチパターンデータベースから検
索される文節ごとのピッチパターンの例を示す図であ
る。

【図５】図１に示すリズム生成手段でリズム生成をする
前のピッチパターンの例を示す図である。

【図６】図１に示すリズム生成手段により処理をした後
のピッチパターンの例を示す図である。

【図７】本発明の第２の実施形態を説明するためのブロ
ック図で、音声合成及びＣＧ合成出力装置の基本構成例
を示すものである。

【図８】図７に示すＣＧ制御手段における処理の一例を
説明するための図である。

【図９】本発明の第３の実施形態を説明するためのブロ
ック図で、本発明による音声合成装置を対話装置に適用
した場合の基本構成例を示すものである。

【図１０】図９に示すリズム検出手段における処理の一
例を説明するための図である。

【符号の説明】

１０…入力部、２０…解析部、３０…応答生成部、３１
…言語処理手段、３２…韻律処理手段、３３…リズム生
成手段、３４…ピッチパターンデータベース、３５…Ｃ
Ｇ制御手段、４０…出力部、５０…リズム検出手段。

フロントページの続き (56)参考文献特開平８−87296（ＪＰ，Ａ) 特開平６−222793（ＪＰ，Ａ) 綿貫啓子、木山次郎、外川文雄，韻律情報からの対話リズム抽出の検討，日本音響学会講演論文集，日本，日本音響学会，1997年３月，平成９年、春季, 111−112 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 13/06 G10L 13/08

Claims

(57)【特許請求の範囲】

【請求項１】音声を合成する対象となる文章を生成す
る言語処理手段と、該言語処理手段で生成した文章にア
クセント、ポーズ、及び母音の無声音化情報を加えて音
韻記号列を生成する韻律処理手段と、音声におけるアク
セント型により分類したピッチパターンを記憶したピッ
チパターンデータベースと、前記ピッチパターンデータ
ベースから前記韻律処理手段で得られた音韻記号列に含
まれる文節のそれぞれに対応したピッチパターンを検索
する手段と、発話開始点と第一の下降ピッチ開始点の間
の時間、または下降ピッチ開始点間の時間を、所定の間
隔になるように補正するリズム制御手段を備えた音声合
成装置であって、前記所定の間隔は、発話開始点と第一
の下降ピッチ開始点の間、または下降ピッチ開始点間に
挟まれた区間に含まれる語句のモーラ数により決定する
ことを特徴とする音声合成装置。
【請求項２】請求項１に記載の音声合成装置を機能さ
せるためのプログラムを記録したコンピュータ読み取り
可能な記録媒体。