JPH06342297A

JPH06342297A - 音声合成装置

Info

Publication number: JPH06342297A
Application number: JP5130932A
Authority: JP
Inventors: Yusuke Iwahashi; 祐輔岩橋
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1993-06-02
Filing date: 1993-06-02
Publication date: 1994-12-13

Abstract

(57)【要約】【目的】より人間の発話に近い合成音を得る。【構成】音声合成データ作成部１が、入力されたデー
タを構文解析し、その解析結果に基づいて、音声合成部
２により合成される音声に挿入するポーズの位置情報を
生成する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声を合成する音声合
成装置に関する。

【０００２】

【従来の技術】従来の音声合成装置においては、例えば
テキストが入力されると、そのテキストにしたがった音
声が合成されて出力されるようになされている。

【０００３】さらに、このような音声合成装置では、テ
キストの、例えば句読点の位置や、係助詞「は」、
「が」の直後で、所定時間のポーズが挿入されるように
なされており、これにより、人間の発話に近い合成音が
生成されるようになされている。

【０００４】

【発明が解決しようとする課題】ところで、上述の音声
合成装置では、例えば「彼、君、私」などのような並列
句のあるテキストが入力された場合においても、「彼」
と「君」の間、「君」と「私」の間に所定時間のポーズ
が挿入される。

【０００５】従って、この場合、装置から出力される合
成音は、いわばぶつ切り音になり、その内容を理解する
ことが困難になる課題があった。

【０００６】さらに、この音声合成装置では、係助詞
「は」の後、例えば「ある」や「いる」などの短い補助
動詞的な単語でテキストが終結している場合において
も、上述のように、係助詞「は」の直後に所定時間のポ
ーズが挿入される。

【０００７】通常、人間が、このようなテキストを朗読
する場合、係助詞「は」の直後に息継ぎが行われること
はほとんどなく、従って、違和感のある合成音が出力さ
れる課題があった。

【０００８】また、テキストに句読点の記述がなかった
場合には、ポーズが挿入されず、やはりその内容を理解
することが困難になる課題があった。

【０００９】本発明は、このような状況に鑑みてなされ
たものであり、より人間的な合成音を得ることができる
ようにするものである。

【００１０】

【課題を解決するための手段】本発明の音声合成装置
は、入力されたデータから、音声合成データを生成する
とともに、入力されたデータを構文解析し、その解析結
果に基づいて、合成音に挿入するポーズの位置情報を生
成する生成手段としての音声合成データ作成部１と、音
声合成データおよびポーズの位置情報に基づいて、音声
合成処理を行い、合成音を出力する合成手段としての音
声合成部２とを備えることを特徴とする。

【００１１】この音声合成装置は、音声合成作成部１
に、テキストから音声合成データおよびポーズの位置情
報を生成させるようにすることができる。

【００１２】また、この音声合成装置は、音声合成作成
部１に、音声の認識結果から音声合成データおよびポー
ズの位置情報を生成させるようにすることができる。

【００１３】

【作用】本発明の音声合成装置においては、音声合成デ
ータ作成部１が、入力されたデータを構文解析し、その
解析結果に基づいて、音声合成部２により合成される音
声に挿入するポーズの位置情報を生成する。従って、よ
り人間的な合成音を得ることができる。

【００１４】

【実施例】図１は、本発明の音声合成装置の一実施例の
構成を示すブロック図である。音声合成データ作成部１
は、入力されたテキストから、抑揚、強勢、速度などを
考慮した音声合成用のデータ（以下、音声合成データと
いう）を生成する。さらに、音声合成データ作成部１
は、入力されたテキストを構文解析し、その解析結果に
基づいて、テキストを構成する単語間に挿入するポーズ
の位置を決定する。そして、このポーズ位置情報を、上
述の音声合成データとともに、音声合成部２に出力す
る。音声合成部２は、音声合成データ作成部１からの音
声合成データおよびポーズの位置情報に基づいて、合成
音を生成して出力する。

【００１５】以上のように構成される音声合成装置で
は、まず音声合成データ作成部１において、入力された
テキストから、抑揚、強勢、発声速度などを考慮した音
声合成用のデータ（以下、音声合成データという）が生
成される。

【００１６】さらに、音声合成データ作成部１におい
て、入力されたテキストから、句読点が検出され、その
位置にポーズの設定（ポーズを挿入する位置の設定）が
なされるとともに、係助詞「は」、「が」などのあらか
じめ登録された特定語が検出され、その直後の位置にポ
ーズの設定がなされる。

【００１７】その後、音声合成データ作成部１におい
て、入力されたテキストが構文解析される。そして、ポ
ーズの設定数が、例えばテキストの長さに基づく所定の
数に所定のオフセットを加算した値（以下、ポーズ最大
値という）Ｃ１より多い場合、テキストの構文解析結果
（例えば、ポーズを挿入する位置の前後の単語の文法的
関係）に基づいて、ポーズの再設定がなされ、これによ
りポーズの数がポーズ最大値Ｃ１以下にされる。

【００１８】また、ポーズの設定数が、例えばテキスト
の長さに基づく所定の数から所定のオフセットを減算し
た値（以下、ポーズ最小値という）Ｃ２より少ない場
合、テキストの構文解析結果に基づいて、ポーズの再設
定がなされ、これによりポーズの数がポーズ最小値Ｃ２
以上にされる。

【００１９】その後、音声合成データ作成部１は、音声
合成部２で合成される音声が、より人間の発話に近くな
るように、テキストの構文解析結果に基づいて、ポーズ
を挿入する位置の微調整を行った後、音声合成部２から
出力される合成音の速度（発声速度）に基づいて、ポー
ズを挿入する位置の微調整をさらに行う（発声速度が速
い場合には、ポーズの数を減らし、遅い場合には、ポー
ズの数を増やす）。

【００２０】そして、音声合成データ作成部１１は、以
上のようにして決定したポーズを挿入する位置の情報
（ポーズ位置情報）を、音声合成データとともに音声合
成部２に出力する。

【００２１】音声合成部２では、音声合成データ作成部
１からの音声合成データに基づいて合成音が生成される
とともに、その合成音に、ポーズ位置情報に基づいたポ
ーズが挿入されて出力される。

【００２２】以上のように、入力されるテキストに応じ
て、ダイナミックにポーズを挿入する位置が設定される
ので、即ち入力されたテキストの自然な位置にポーズが
挿入されるので、合成音のぶつ切り感が低減され、内容
が理解し易く、人間の発話に近い合成音を得ることがで
きる。

【００２３】なお、本実施例においては、音声合成デー
タ作成部１で、テキストから音声合成データを生成する
ようにしたが、例えば音声認識装置の認識結果のデータ
から音声合成データを生成するようにすることができ
る。

【００２４】

【発明の効果】以上の如く、本発明の音声合成装置によ
れば、生成手段が、入力されたデータを構文解析し、そ
の解析結果に基づいて、合成手段により合成される音声
に挿入するポーズの位置情報を生成する。従って、より
人間的な合成音を得ることができる。

【図面の簡単な説明】

【図１】本発明の音声合成装置の一実施例の構成を示す
ブロック図である。

【符号の説明】

１音声合成データ作成部２音声合成部

Claims

【特許請求の範囲】

【請求項１】入力されたデータから、音声合成データ
を生成するとともに、入力されたデータを構文解析し、
その解析結果に基づいて、合成音に挿入するポーズの位
置情報を生成する生成手段と、前記音声合成データおよびポーズの位置情報に基づい
て、音声合成処理を行い、前記合成音を出力する合成手
段とを備えることを特徴とする音声合成装置。
【請求項２】前記生成手段は、テキストから前記音声
合成データおよびポーズの位置情報を生成することを特
徴とする請求項１に記載の音声合成装置。
【請求項３】前記生成手段は、音声の認識結果から前
記音声合成データおよびポーズ位置情報を生成すること
を特徴とする請求項１に記載の音声合成装置。