JPH08272388A

JPH08272388A - 音声合成装置及びその方法

Info

Publication number: JPH08272388A
Application number: JP7071206A
Authority: JP
Inventors: Takashi Aso; 隆麻生; Mitsuru Otsuka; 充大塚; Yasunori Ohora; 恭則大洞
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1995-03-29
Filing date: 1995-03-29
Publication date: 1996-10-18

Abstract

(57)【要約】【目的】テキストデータに音声の種別を設定すること
を可能とし、複数の音声を設定し出力することが容易に
できる音声合成装置及びその方法を提供する。【構成】表示部２に表示されるテキストデータに制御
情報を組み込み、制御情報に対応した音質でテキストデ
ータに基づく音声を音響処理部６で合成し出力する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声を合成音声に変換
して出力する音声合成装置及びその方法に関するもので
ある。

【０００２】

【従来の技術】従来の音声合成装置において、文字情報
を音声出力する音声合成装置は、音声出力するデータ
を、あらかじめ電子化されたテキストデータとして準備
する必要があった。テキストデータとしては、パソコン
上におけるエディタやワードプロセッサなどで作成した
文や、すでに電子化された各種テキストデータなどを使
用していた。

【０００３】また、これらのテキストデータを音声で出
力する場合、ほとんどの場合が該装置にあらかじめ設定
されている一種類の音声（音質）で出力された。更に、
従来の音声合成装置では、何種類かの音声（音質）を選
択できるものもあるが、音声（音質）を切り替えるに
は、音声合成装置において、操作者がその都度切り替え
るのが一般的であった。

【０００４】

【発明が解決しようとする課題】しかしながら、上記従
来の音声合成装置において、あらかじめテキストデータ
を作成する時に、複数種類の音声（音質）を設定するこ
とが容易にできないという欠点があった。すなわち、使
用者はテキストデータのある一部をある音声（例えば、
男性の声）で、また、別の一部を他の音声（例えば、女
性の声）でという複数の設定を行うことができなかっ
た。

【０００５】本発明は上記の問題点に鑑みてなされたも
のであり、テキストデータに音声の種別を設定すること
を可能とし、複数の音声を設定し出力することが容易に
できる音声合成装置及びその方法を提供することを目的
とする。

【０００６】

【課題を解決するための手段】上記の目的を達成するた
めの本発明による音声合成装置は以下の構成を備える。
即ち、音声を合成音声に変換して出力する音声合成装置
であって、前記テキストデータに制御情報を組み込む組
み込み手段と、前記制御情報に対応する音声を合成し出
力する出力手段とを備える。

【０００７】また、好ましくは、前記組み込み手段は、
前記テキストデータを表示する表示手段と、前記テキス
トデータの所望の領域を選択する選択手段と、前記選択
手段によって、選択された領域に前記制御情報を設定す
る設定手段とを更に備える。制御情報の設定を画面に表
示して行うことで設定を容易に行うことができるからで
ある。

【０００８】また、好ましくは、前記制御情報を前記表
示手段の一部分に部分表示する部分表示手段を備える。
制御情報を画面に表示することで、制御情報の選択を容
易にすることができるからである。

【０００９】また、好ましくは、前記制御情報は文字属
性であり、前記文字属性に従って、文字の字体又は文字
のスタイルを変更して前記テキストデータを表示する表
示手段を更に備える。文字属性を持たせて表示すること
で、表示されているテキストデータに使われている音声
を容易に把握することができるからである。

【００１０】また、好ましくは、前記制御情報は任意の
画像で表現され、前記画像を前記画像を前記テキストデ
ータの所望の位置に挿入して表示する表示手段を更に備
える。画像を用いて表示することで、直感的にテキスト
データに使われている音声を認識することができるから
である。

【００１１】また、好ましくは、前記画像は、写真デー
タである。写真データを用いることで、より認識を容易
にすることができるからである。

【００１２】上記の目的を達成するための本発明による
音声合成方法は以下の構成を備える。即ち、音声を合成
音声に変換して出力する音声合成方法であって、テキス
トデータに制御情報を組み込む組み込み工程と、前記制
御情報に対応した音質で前記テキストデータに基づく音
声を合成し出力する出力工程とを備える。

【００１３】

【作用】上記の構成により、テキストデータに制御情報
を組み込み、制御情報に対応した音声（音質）の種類で
テキストデータに基づく音声を合成し出力する。

【００１４】

【実施例】以下、図面を参照して本発明の好適な実施例
を詳細に説明する。

【００１５】＜実施例１＞図１は実施例１の音声合成装
置の概略構成を示すブロック図である。

【００１６】同図において、１１はＣＰＵであり、音声
合成装置における各種の制御を実行する。１２はＲＯＭ
であり、ＣＰＵ１１が処理を実行するための各種制御プ
ログラムが格納されている。なお、ＲＯＭ１２には、後
述の図３のフローチャートで表される制御プログラムも
格納されている。１３はＲＡＭであり、ＣＰＵ１１が各
種の制御を実行する際に必要なデータ等を一時的に記憶
する。１４は入力部であり、各種データの入力や制御命
令などを入力する。なお、音声合成装置におけるテキス
トデータを編集する際の編集作業も入力部１４より行
う。１５は辞書であり、漢字等の読みやアクセント情報
が登録されている。辞書１５は、入力された漢字かな混
じり文を解析し読み情報をえる言語処理部（後述）にお
いて参照される。１６は、テキストデータを格納するた
めの記憶装置である。２は表示部であり、編集中のテキ
ストデータの表示等、各種の表示がなされる。１８は入
力された文字列に従って音声の素片を接続する際に必要
となる音声素片データで、一般的にはｃＶ（子音ー母
音）、ｃＶｃ（子音ー母音ー子音）、ＶｃＶ（母音ー子
音ー母音）などの音声データを、パラメータや波形デー
タである。６は音響処理部であり、各種の設定に従っ
て、テキストデータを音声に合成し、音声信号に変換す
る。そしてスピーカ１７により、変換された音声信号が
出力される。

【００１７】図２は実施例１の音声合成装置の機能構成
を示すブロック図である。

【００１８】同図において、１はテキストデータ入力部
であり、入力部１４により、テキストデータをワードプ
ロセッサやエディタ等により直接入力するか、または、
記憶装置１６にあらかじめ記録されたテキストデータを
読み込むことによって、テキストデータを入力する。２
は表示部であり、テキストデータ入力部１で入力された
テキストデータを表示する。３は編集部であり、表示部
２に表示されたテキストデータに対して、音声（話者）
の設定を実行する。４は話者情報抽出部であり、テキス
トデータ中の話者情報を抽出する。５は言語処理部であ
り、テキストデータ入力部１で入力されたテキストデー
タの「読み」と「音調成分」を解析する。ここで言う
「音調成分」とは「アクセント」と「イントネーショ
ン」である。６は音響処理部であり、話者情報抽出部４
で抽出された「話者情報」により、言語処理部５で解析
されたテキストデータの「読み」と「音調成分」ならび
に音声素片データを所望の話者に対応させ合成音声を生
成する。

【００１９】以上のような構成を有する本実施例の音声
合成装置の動作について、図３のフローチャートを参照
して以下に説明する。

【００２０】図３は実施例１の音声合成装置における制
御を示すフローチャートである。

【００２１】まず、ステップＳ１１で、テキストデータ
入力部１により、対象となるテキストデータを入力す
る。入力手段としては、ワードプロセッサなどにより直
接テキストデータを入力してもよいし、記憶装置１６に
あらかじめ記憶されたテキストデータを読み込んできて
もよい。ステップＳ１２で、入力されたテキストデータ
を表示部２に表示する。ステップＳ１３で、入力された
テキストデータに対して、話者を設定する場合（ステッ
プＳ１３でＹＥＳ）には、ステップＳ１４へ進む。ステ
ップＳ１４では、表示部２に表示されたテキストデータ
を編集部３により、話者を設定する。ステップＳ１４に
おいて、具体的な話者の設定を行う編集作業について、
図４〜図７を用いて説明する。

【００２２】図４〜図７は実施例１の入力されたテキス
トデータに対して、話者の属性の設定方法を示す図であ
る。

【００２３】入力されたテキストデータは、図４のよう
に表示部２に表示される。ここで４０１はテキストデー
タを示す。テキストデータ４０１中において、話者の設
定をする箇所を図５のように反転表示し、選択する。こ
こで４０２は選択されたテキストデータを示す。選択す
る方法としては、ポインティングデバイス(マウスなど)
を用いた方法など、既存の技術で実現可能である。次
に、選択されたテキストデータ４０２について、図６の
ような斜字体に文字属性を変更する。４０３は、選択さ
れたテキストデータ４０２に対して、文字の属性を斜字
体に変更したことを示す。文字属性は、斜字体に限ら
ず、標準、ボールド、袋文字、下線等での変更が可能
で、各文字スタイルに対して、それぞれ違った話者をあ
らかじめ対応させておくことで、複数の話者の設定が可
能である。図７は、テキストデータ４０１の全体につい
て、すべての設定が行われたあとの様子を示す。なお、
話者を設定する範囲は、図７で示すように、文、単語、
文字などの任意の単位で選択することが可能である。こ
こで、話者の設定がされたテキストデータは、話者の種
類と、その話者が設定されている範囲が容易にわかるよ
うなデータ構造として出力される。

【００２４】図８は実施例１のテキストデータのデータ
構造を示す図である。

【００２５】図８において、テキストデータの話者が変
化する境界位置に、その境界以降の話者の種類を制御記
号の形で挿入している。また、テキストデータに対する
制御記号は、これに限らず、話者とその範囲を明確に設
定することができれば、どのような方法を用いてもかま
わない。

【００２６】一方、ステップＳ１３において、話者の設
定をしない場合（ステップＳ１３でＮＯ）には、ステッ
プＳ１５に進み、テキストデータを記憶装置１６に保存
するか否かの判定を行う。そして、データを保存する場
合（ステップＳ１５でＹＥＳ）は、ステップＳ１４にお
いて、話者を設定された話者情報付きテキストデータを
記憶装置１６に記録する。データを保存しない場合（ス
テップＳ１５でＮＯ）は、ステップＳ１７に進む。

【００２７】次に、ステップＳ１７において、音声出力
を実行するか否かを判定する。音声出力を実行する場合
（ステップＳ１７でＹＥＳ）は、ステップＳ１８に進
む。ステップ１８で、話者情報抽出部４より話者情報付
きテキストデータを「話者情報」と「テキストデータ」
に分離する。そして、ステップＳ１９で、「テキストデ
ータ」の部分について、言語処理部５より辞書１５を使
って言語解析を行い、「テキストデータ」の「読み」と
「音調成分」を生成する。さらに、ステップＳ２０でス
テップＳ１８で抽出された話者情報付きテキストデータ
の「話者情報」と、ステップＳ１９で解析された「テキ
ストデータ」の「読み」と「音調成分」を使って、音響
処理部６において所望の話者による合成音声信号を生成
し、スピーカ１７より出力する。音声出力を実行しない
場合（ステップＳ１７でＮＯ）は、そのまま処理を終了
する。

【００２８】以上説明した様に、テキストデータの文字
属性を話者（音声）と対応させておくことで、文字属性
を変えるだけで任意の話者（音声）を設定することが可
能となる。また、表示部にテキストデータを文字属性に
従って表示することで、設定された文字属性を容易に識
別することが可能となる。

【００２９】なお、上記実施例においては、テキストデ
ータの文字属性を種々に変化させることで話者を設定す
るようにしているが、文字の色属性（文字の色あるい
は、文字の背景色）を変化させることにより話者（音
声）を設定するようにしてもよい。その場合には、それ
ぞれの話者（音声）と色とを対応させておき、使用者が
設定する話者（音声）に対応する色属性によりテキスト
データを編集することが可能である。

【００３０】＜実施例２＞また、話者を設定する方法と
して、次に示すような方法を用いることも可能である。

【００３１】図９〜１３は実施例２の入力されたテキス
トデータに対して、話者の属性の設定方法を示す図であ
る。

【００３２】入力されたテキストデータは、表示部２に
図９のように表示される。ここで、６０１はテキストデ
ータを表す。また、６０２は選択可能な話者の種類を表
示するパネルである。まず、話者を設定すべきテキスト
データの領域を図１０のように反転表示し、選択する。
ここで、６０３は選択されたテキストデータを示す。次
に選択されたテキストデータ６０３について、パネル６
０２を用いて、図１１のように話者を設定する。６０４
は、選択されたテキストデータ６０３に対して「成人男
性」話者を設定し、パネル６０２の「成人男性」を反転
表示し、選択した状態を表す。パネル６０２の各話者を
選択する方法としては、ポインティングデバイス(マウ
スなど)で選択肢を選び、ボタンをクリックするなどの
方法を使うことができる。話者が設定された区間は、文
字のスタイルや、文字の色、背景色などをそれぞれの話
者に対応した表示にすることで、その話者の種類が容易
に識別できるようにする。設定された成人男性の文字属
性が斜字体に対応しているとすると、図１２のような表
示になる。同様に、テキストデータ６０１全体につい
て、パネル６０２を用いて話者の設定を行うと、図１３
のような表示になる。なお、実施例１と同様に、話者を
設定する範囲は、文、単語、文字などの任意の単位で選
択することが可能である。

【００３３】更に、図９〜１３においては、複数の話
者で構成されるパネルにおける話者の表示には、ある特
定の文字スタイルのみを用いているが、これを、図１４
に示すような、テキストデータの話者の設定に用いた文
字スタイルと同一の文字スタイルとしてパネルに表示す
るようにしてもよい。

【００３４】以上説明したように、複数の話者で構成さ
れるパネルを、テキストデータが表示されている表示部
上に表示することで、容易に話者を設定することが可能
となる。また、パネルに表示されている話者のそれぞれ
の文字属性をテキストデータで設定するそれぞれの文字
属性で表示することで、容易に話者を識別することが可
能となる。

【００３５】＜実施例３＞図９〜１３においては、話者
の種類を表示したパネルにおける話者の表示には、話者
の種類を表す「言葉」で表示しているが、これを、図１
５に示すような、各話者に即した顔の表情のイラスト画
像、あるいは実際の顔写真などで表示するようにしても
よい。この場合には、直感的に話者を設定することがで
きるという効果がある。

【００３６】＜実施例４＞さらに、図４〜７、図９〜１
３に示したテキストデータへの話者の設定において、テ
キストデータの話者の表示には、文字のスタイル、色、
背景色を変えることで話者の種類の識別をするようにし
ているが、これを、図１６に示すように各話者の境界
に、図１５で用いたような顔の表情のイラスト画像、あ
るいは実際の顔写真などを挿入し表示することで、識別
するようにしてもよい。

【００３７】以上のように上記実施例によると、テキス
トデータを、複数の音声（話者）で出力する場合に、あ
らかじめ、複数の音声に対応した文字情報または画像情
報を用いて、所望のテキストデータに再編集することに
よって、テキストデータ中の所望の部分におけるデータ
に音声（音質）の種類を設定する操作を、各所望のデー
タごとに音声を切り替える操作をすることなく、複数の
音声（音質）を設定することができる。

【００３８】尚、本発明は、複数の機器から構成される
システムに適用しても１つの機器からなる装置に適用し
ても良い。また、本発明は、システム或いは装置にプロ
グラムを供給することによって達成される場合にも適用
できることはいうまでもない。

【００３９】

【発明の効果】以上の説明からも明らかなように、本発
明によれば、テキストデータに音声の種別を設定するこ
とを可能とし、複数の音声を設定し出力することが容易
にできる音声合成装置及びその方法を提供できる。

【００４０】

【図面の簡単な説明】

【図１】実施例１の音声合成装置の概略構成を示すブロ
ック図である。

【図２】実施例１の音声合成装置の機能構成を示すブロ
ック図である。

【図３】実施例１の音声合成装置における制御を示すフ
ローチャートである。

【図４】実施例１の入力されたテキストデータに対し
て、話者の属性の設定方法を示す図である。

【図５】実施例１の入力されたテキストデータに対し
て、話者の属性の設定方法を示す図である。

【図６】実施例１の入力されたテキストデータに対し
て、話者の属性の設定方法を示す図である。

【図７】実施例１の入力されたテキストデータに対し
て、話者の属性の設定方法を示す図である。

【図８】実施例１のテキストデータのデータ構造を示す
図である。

【図９】実施例２の入力されたテキストデータに対し
て、話者の属性の設定方法を示す図である。

【図１０】実施例２の入力されたテキストデータに対し
て、話者の属性の設定方法を示す図である。

【図１１】実施例２の入力されたテキストデータに対し
て、話者の属性の設定方法を示す図である。

【図１２】実施例２の入力されたテキストデータに対し
て、話者の属性の設定方法を示す図である。

【図１３】実施例２の入力されたテキストデータに対し
て、話者の属性の設定方法を示す図である。

【図１４】実施例２の話者の種類を表示したパネルを示
す図である。

【図１５】実施例３の話者の種類を表示したパネルを示
す図である。

【図１６】実施例４の入力されたテキストデータに対し
て、話者の属性の設定方法を示す図である。

【符号の説明】

１テキストデータ入力部２表示部３編集部４話者情報抽出部５言語処理部６音響処理部１１ＣＰＵ１２ＲＯＭ１３ＲＡＭ１４入力部１５辞書１６記憶装置１７スピーカ１８音声素片データ

Claims

【特許請求の範囲】

【請求項１】漢字かな混じりのテキストデータを合成
音声に変換して出力する音声合成装置であって、テキストデータに制御情報を組み込む組み込み手段と、前記制御情報に対応した音質で前記テキストデータに基
づく音声を合成し出力する出力手段とを備えることを特
徴とする音声合成装置。
【請求項２】前記組み込み手段は、前記テキストデー
タを表示する表示手段と、前記テキストデータの所望の領域を選択する選択手段
と、前記選択手段によって、選択された領域に前記制御情報
を設定する設定手段とを更に備えることを特徴とする請
求項１に記載の音声合成装置。
【請求項３】前記制御情報を前記表示手段の一部分に
部分表示する部分表示手段を備えることを特徴とする請
求項２に記載の音声合成装置。
【請求項４】前記制御情報は文字属性であり、前記文
字属性に従って、文字の字体又は文字のスタイルを変更
して前記テキストデータを表示する表示手段を更に備え
ることを特徴とする請求項１に記載の音声合成装置。
【請求項５】前記制御情報は任意の画像で表現され、
前記画像を前記テキストデータの所望の位置に挿入して
表示する表示手段を更に備えることを特徴とする請求項
１に記載の音声合成装置。
【請求項６】前記画像は、写真データであることを特
徴とする請求項５に記載の音声合成装置。
【請求項７】音声を合成音声に変換して出力する音声
合成方法であって、テキストデータに制御情報を組み込む組み込み工程と、前記制御情報に対応した音質で前記テキストデータに基
づく音声を合成し出力する出力工程とを備えることを特
徴とする音声合成方法。