JP2002032098A

JP2002032098A - 音声出力装置、音声出力システム、音声出力方法及び記憶媒体

Info

Publication number: JP2002032098A
Application number: JP2000214140A
Authority: JP
Inventors: Hironori Goto; 裕典後藤; Hiroyuki Kimura; 裕行木村
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2000-07-14
Filing date: 2000-07-14
Publication date: 2002-01-31

Abstract

(57)【要約】【課題】複数のテキストデータの合成音声を重ね合わ
せて発声する場合、複数のテキストデータをそれぞれ異
なる種類の音声で音声合成し出力させることで、容易に
複数のテキストデータの音声を聞き分けることができる
音声出力装置、音声出力システム、音声出力方法及び記
憶媒体を提供する。【解決手段】テキストデータの音声波形を生成する音
声波形生成部２０９と、複数のテキストデータの音声出
力が重なり合うことを検知した場合は、それぞれのテキ
ストデータを違う性別（主性別、副性別）の音声で、或
いは別のスピーカから、或いは違う種類の音声で、或い
は違う高さの音声で出力させる音声出力部２１０とを具
備する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声出力装置、音
声出力システム、音声出力方法及び記憶媒体に関し、特
に、テキストデータを合成音声に変換して出力する場合
に好適な音声出力装置、音声出力システム、音声出力方
法及び記憶媒体に関する。

【０００２】

【従来の技術】従来、文字情報を音声出力する機能を有
する音声合成装置がある。従来の音声合成装置におい
て、音声出力するデータは、予め電子化されたテキスト
データとして準備されたものでなければならなかった。
即ち、そのテキストデータは、パーソナルコンピュータ
上におけるエディタやワードプロセッサなどで作成した
文章や、インターネット上のＨＴＭＬ（HyperText Mark
up Language）文章である。

【０００３】また、音声合成装置から上記のようなテキ
ストデータを音声で出力する場合、１入力からのテキス
トデータを、音声合成装置に予め設定されている１種類
の音声で出力していた。

【０００４】

【発明が解決しようとする課題】しかしながら、上記従
来の音声合成装置においては、同時に複数のテキストデ
ータの入力を受け付け、更にそれらの合成音声出力を重
ね合わせて出力し、それらを聞き分けられるように出力
することができないという問題があった。

【０００５】本発明は、上述した点に鑑みなされたもの
であり、複数のテキストデータの合成音声を重ね合わせ
て発声する場合、複数のテキストデータをそれぞれ異な
る種類の音声で音声合成し出力させることで、容易に複
数のテキストデータの音声を聞き分けることができる音
声出力装置、音声出力システム、音声出力方法及び記憶
媒体を提供することを第一の目的とする。

【０００６】また、本発明は、複数のテキストデータの
合成音声を重ね合わせて発声する場合、複数のテキスト
データの音声をそれぞれ異なる発声手段で発声させるこ
とで、容易に複数のテキストデータの音声を聞き分ける
ことができる音声出力装置、音声出力システム、音声出
力方法及び記憶媒体を提供することを第二の目的とす
る。

【０００７】

【課題を解決するための手段】上記目的を達成するた
め、請求項１記載の発明は、テキストデータを合成音声
に変換して出力する音声出力装置であって、前記テキス
トデータの音声波形を生成する音声波形生成手段と、複
数の前記テキストデータをそれぞれ異なる種類の音声で
音声合成し出力させる音声出力手段とを有することを特
徴とする。

【０００８】上記目的を達成するため、請求項２記載の
発明は、前記異なる種類の音声は互いに周波数帯域が異
なることを特徴とする。

【０００９】上記目的を達成するため、請求項３記載の
発明は、前記音声出力手段は、前記異なる種類の音声に
対応する複数種類の音声素片データを記憶する音声素片
記憶部と、前記異なる種類の音声に対応する処理パラメ
ータに従って前記音声素片データを処理し、合成音声を
生成する音声波形生成部とを有することを特徴とする。

【００１０】上記目的を達成するため、請求項４記載の
発明は、前記処理パラメータは、周波数帯域と、音声レ
ベルと、音声速度のうちの少なくとも１つを含むことを
特徴とする。

【００１１】上記目的を達成するため、請求項５記載の
発明は、前記異なる種類の音声は、互いに異なる性別に
対応する音声であることを特徴とする。

【００１２】上記目的を達成するため、請求項６記載の
発明は、所定数の複数種類の音声のうち、任意の音声を
選択する選択手段を備え、前記音声出力手段は前記選択
された音声に従い合成音声を生成して出力することを特
徴とする。

【００１３】上記目的を達成するため、請求項７記載の
発明は、前記異なる種類の音声は互いに高さが異なるこ
とを特徴とする。

【００１４】上記目的を達成するため、請求項８記載の
発明は、前記音声出力手段は、所定数の複数種類の音声
を所定の順序で選択的に出力することを特徴とする。

【００１５】上記目的を達成するため、請求項９記載の
発明は、前記異なる種類の音声は、互いに異なる年齢に
対応する音声であることを特徴とする。

【００１６】上記目的を達成するため、請求項１０記載
の発明は、テキストデータを合成音声に変換して出力す
る音声出力装置であって、前記テキストデータの音声波
形を生成する音声波形生成手段と、複数の前記テキスト
データの音声出力が重なり合うことを検知した場合は、
それぞれの音声を異なる発声手段から出力させる音声出
力手段とを有することを特徴とする。

【００１７】上記目的を達成するため、請求項１１記載
の発明は、使用する前記発声手段を任意に設定可能な設
定手段を有することを特徴とする。

【００１８】上記目的を達成するため、請求項１２記載
の発明は、インターネットを介して前記テキストデータ
で会話を行うシステムに適用可能であることを特徴とす
る。

【００１９】上記目的を達成するため、請求項１３記載
の発明は、テキストデータを合成音声に変換して出力す
る音声出力装置と、該音声出力装置に前記テキストデー
タを送信する外部装置とを具備してなる音声出力システ
ムであって、前記音声出力装置は、前記テキストデータ
の音声波形を生成する音声波形生成手段と、複数の前記
テキストデータをそれぞれ異なる種類の音声で音声合成
し出力させる音声出力手段とを有することを特徴とす
る。

【００２０】上記目的を達成するため、請求項１４記載
の発明は、前記異なる種類の音声は互いに周波数帯域が
異なることを特徴とする。

【００２１】上記目的を達成するため、請求項１５記載
の発明は、前記音声出力手段は、前記異なる種類の音声
に対応する複数種類の音声素片データを記憶する音声素
片記憶部と、前記異なる種類の音声に対応する処理パラ
メータに従って前記音声素片データを処理し、合成音声
を生成する音声波形生成部とを有することを特徴とす
る。

【００２２】上記目的を達成するため、請求項１６記載
の発明は、前記処理パラメータは、周波数帯域と、音声
レベルと、音声速度のうちの少なくとも１つを含むこと
を特徴とする。

【００２３】上記目的を達成するため、請求項１７記載
の発明は、前記異なる種類の音声は、互いに異なる性別
に対応する音声であることを特徴とする。

【００２４】上記目的を達成するため、請求項１８記載
の発明は、前記音声出力装置は、所定数の複数種類の音
声のうち、任意の音声を選択する選択手段を備え、前記
音声出力手段は前記選択された音声に従い合成音声を生
成して出力することを特徴とする。

【００２５】上記目的を達成するため、請求項１９記載
の発明は、前記異なる種類の音声は互いに高さが異なる
ことを特徴とする。

【００２６】上記目的を達成するため、請求項２０記載
の発明は、前記音声出力手段は、所定数の複数種類の音
声を所定の順序で選択的に出力することを特徴とする。

【００２７】上記目的を達成するため、請求項２１記載
の発明は、前記異なる種類の音声は、互いに異なる年齢
に対応する音声であることを特徴とする。

【００２８】上記目的を達成するため、請求項２２記載
の発明は、テキストデータを合成音声に変換して出力す
る音声出力装置と、該音声出力装置に前記テキストデー
タを送信する外部装置とを具備してなる音声出力システ
ムであって、前記音声出力装置は、前記テキストデータ
の音声波形を生成する音声波形生成手段と、複数の前記
テキストデータの音声出力が重なり合うことを検知した
場合は、それぞれの音声を異なる発声手段から出力させ
る音声出力手段とを有することを特徴とする。

【００２９】上記目的を達成するため、請求項２３記載
の発明は、前記音声出力装置は、使用する前記発声手段
を任意に設定可能な設定手段を有することを特徴とす
る。

【００３０】上記目的を達成するため、請求項２４記載
の発明は、インターネットを介して前記テキストデータ
で会話を行うシステムに適用可能であることを特徴とす
る。

【００３１】上記目的を達成するため、請求項２５記載
の発明は、テキストデータを合成音声に変換して出力す
る音声出力装置に適用される音声出力方法であって、前
記テキストデータの音声波形を生成する音声波形生成工
程と、複数の前記テキストデータをそれぞれ異なる種類
の音声で音声合成し出力させる音声出力工程とを有する
ことを特徴とする。

【００３２】上記目的を達成するため、請求項２６記載
の発明は、前記異なる種類の音声は互いに周波数帯域が
異なることを特徴とする。

【００３３】上記目的を達成するため、請求項２７記載
の発明は、前記音声出力工程は、前記異なる種類の音声
に対応する複数種類の音声素片データを記憶する音声素
片記憶工程と、前記異なる種類の音声に対応する処理パ
ラメータに従って前記音声素片データを処理し、合成音
声を生成する音声波形生成工程とを有することを特徴と
する。

【００３４】上記目的を達成するため、請求項２８記載
の発明は、前記処理パラメータは、周波数帯域と、音声
レベルと、音声速度のうちの少なくとも１つを含むこと
を特徴とする。

【００３５】上記目的を達成するため、請求項２９記載
の発明は、前記異なる種類の音声は、互いに異なる性別
に対応する音声であることを特徴とする。

【００３６】上記目的を達成するため、請求項３０記載
の発明は、所定数の複数種類の音声のうち、任意の音声
を選択する選択工程を有し、前記音声出力工程では前記
選択された音声に従い合成音声を生成して出力すること
を特徴とする。

【００３７】上記目的を達成するため、請求項３１記載
の発明は、前記異なる種類の音声は互いに高さが異なる
ことを特徴とする。

【００３８】上記目的を達成するため、請求項３２記載
の発明は、前記音声出力工程では、所定数の複数種類の
音声を所定の順序で選択的に出力することを特徴とす
る。

【００３９】上記目的を達成するため、請求項３３記載
の発明は、前記異なる種類の音声は、互いに異なる年齢
に対応する音声であることを特徴とする。

【００４０】上記目的を達成するため、請求項３４記載
の発明は、テキストデータを合成音声に変換して出力す
る音声出力装置に適用される音声出力方法であって、前
記テキストデータの音声波形を生成する音声波形生成工
程と、複数の前記テキストデータの音声出力が重なり合
うことを検知した場合は、それぞれの音声を異なる発声
手段から出力させる音声出力工程とを有することを特徴
とする。

【００４１】上記目的を達成するため、請求項３５記載
の発明は、使用する前記発声手段を任意に設定可能な設
定工程を有することを特徴とする。

【００４２】上記目的を達成するため、請求項３６記載
の発明は、インターネットを介して前記テキストデータ
で会話を行うシステムに適用可能であることを特徴とす
る。

【００４３】上記目的を達成するため、請求項３７記載
の発明は、テキストデータを合成音声に変換して出力す
る音声出力装置に適用される音声出力方法を実行するプ
ログラムを記憶したコンピュータにより読み出し可能な
記憶媒体であって、前記音声出力方法は、前記テキスト
データの音声波形を生成するように制御する音声波形生
成ステップと、複数の前記テキストデータをそれぞれ異
なる種類の音声で音声合成し出力させるように制御する
音声出力ステップとを有することを特徴とする。

【００４４】上記目的を達成するため、請求項３８記載
の発明は、前記異なる種類の音声は互いに周波数帯域が
異なることを特徴とする。

【００４５】上記目的を達成するため、請求項３９記載
の発明は、前記音声出力ステップは、前記異なる種類の
音声に対応する複数種類の音声素片データを記憶するよ
うに制御する音声素片記憶ステップと、前記異なる種類
の音声に対応する処理パラメータに従って前記音声素片
データを処理し、合成音声を生成するように制御する音
声波形生成ステップとを有することを特徴とする。

【００４６】上記目的を達成するため、請求項４０記載
の発明は、前記処理パラメータは、周波数帯域と、音声
レベルと、音声速度のうちの少なくとも１つを含むこと
を特徴とする。

【００４７】上記目的を達成するため、請求項４１記載
の発明は、前記異なる種類の音声は、互いに異なる性別
に対応する音声であることを特徴とする。

【００４８】上記目的を達成するため、請求項４２記載
の発明は、所定数の複数種類の音声のうち、任意の音声
を選択する選択ステップを有し、前記音声出力ステップ
では前記選択された音声に従い合成音声を生成して出力
するように制御することを特徴とする。

【００４９】上記目的を達成するため、請求項４３記載
の発明は、前記異なる種類の音声は互いに高さが異なる
ことを特徴とする。

【００５０】上記目的を達成するため、請求項４４記載
の発明は、前記音声出力ステップでは、所定数の複数種
類の音声を所定の順序で選択的に出力するように制御す
ることを特徴とする。

【００５１】上記目的を達成するため、請求項４５記載
の発明は、前記異なる種類の音声は、互いに異なる年齢
に対応する音声であることを特徴とする。

【００５２】上記目的を達成するため、請求項４６記載
の発明は、テキストデータを合成音声に変換して出力す
る音声出力装置に適用される音声出力方法を実行するプ
ログラムを記憶したコンピュータにより読み出し可能な
記憶媒体であって、前記音声出力方法は、前記テキスト
データの音声波形を生成するように制御する音声波形生
成ステップと、複数の前記テキストデータの音声出力が
重なり合うことを検知した場合は、それぞれの音声を異
なる発声手段から出力させるように制御する音声出力ス
テップとを有することを特徴とする。

【００５３】上記目的を達成するため、請求項４７記載
の発明は、使用する前記発声手段を任意に設定可能な設
定ステップを有することを特徴とする。

【００５４】上記目的を達成するため、請求項４８記載
の発明は、インターネットを介して前記テキストデータ
で会話を行うシステムに適用可能であることを特徴とす
る。

【００５５】

【発明の実施の形態】以下、本発明の実施の形態を図面
に基づいて詳細に説明する。

【００５６】［第１の実施の形態］本発明の第１の実施
の形態は、他のコンピュータ（サーバコンピュータ）か
ら非同期に送られてくるテキストデータを音声出力する
システムにおいて、１つのテキストデータの音声出力が
終了する前に、次のテキストデータが送られてきたと
き、先に音声出力中の性別の音声とは別の性別の音声で
次のテキストデータを読み上げるシステムである。

【００５７】本実施形態では、音声出力に重なりがない
ときに、通常の性別として使用する性別を主性別と呼
び、音声が重なった場合に、次のテキストデータを読み
上げるために使用される、先に音声出力中の主性別とは
異なる性別を副性別と呼ぶ（図５参照）。但し、副性別
で音声出力中に次のテキストデータの音声出力を行うと
きは主性別で行う。

【００５８】図１は本発明の第１の実施の形態に係る音
声合成装置の構成例を示すブロック図である。本発明の
第１の実施の形態に係る音声合成装置は、ＣＰＵ１０
１、ハードディスクコントローラ（ＨＤＣ）１０２、プ
ログラム１１３・辞書１１４・音声素片データ１１５を
有するハードディスク（ＨＤ）１０３、キーボード１０
４、ポインティングデバイス（ＰＤ）１０５、ＲＡＭ１
０６、通信回線インターフェイス（Ｉ／Ｆ）１０７、Ｖ
ＲＡＭ１０８、表示コントローラ１０９、モニタ１１
０、サウンドカード１１１、スピーカ１１２、描画部１
１６を備えている。図中１５０はサーバコンピュータで
ある。

【００５９】上記各部の構成を詳述すると、ＣＰＵ１０
１は、本装置全体の制御を行う中央演算処理装置であ
り、後述の図４のフローチャートに示す処理を実行す
る。ハードディスクコントローラ１０２は、ハードディ
スク１０３内のデータやプログラムの制御を行う。ハー
ドディスク１０３内には、プログラム１１３、音声波形
生成部（後述）において入力された漢字かな混じり文を
解析し読み情報を得る時に参照される漢字等の読みやア
クセント情報が登録されている辞書１１４、発声する文
字列に従って音声の素片を接続する際に必要になる音声
素片データ１１５が格納されている。この音声素片デー
タ１１５には、少なくとも男性の声の出力となる音声素
片データと、女性の声の出力となる音声素片データの２
種類の音声素片データが含まれている。これら２種類の
音声素片データは、性別に応じてその基本周波数が異な
っている。

【００６０】キーボード１０４は、文字・数字・記号等
の入力に用いる。ポインティングデバイス１０５は、プ
ログラム開始などの指示に用いるものであり、例えばマ
ウスやディジタイザなどから構成されている。ＲＡＭ１
０６は、プログラムやデータを格納する。通信回線イン
ターフェイス１０７は、外部のサーバコンピュータ１５
０との間でデータのやり取りを行う。本実施形態では通
信形態はＴＣＰ／ＩＰ（Transmission Control Protoco
l/Internet Protocol）を用いている。表示コントロー
ラ１０９は、ＶＲＡＭ１０８に格納された映像データを
映像信号としてモニタ１１０に出力する制御を行う。サ
ウンドカード１１１は、ＣＰＵ１０１で生成されＲＡＭ
１０６に格納された音声波形データをスピーカ１１２を
通して出力している。１１６は描画部であり、ＣＰＵ１
０１の制御の下で、ＲＡＭ１０６等を用いてモニタ１１
０への表示画像データを生成する。

【００６１】図２は本発明の第１の実施の形態に係る音
声合成装置のプログラムのモジュール関係を示す説明図
である。本発明の第１の実施の形態に係る音声合成装置
は、辞書１１４、音声素片データ１１５、メインルーチ
ン初期化部２０１、音声処理初期化部２０２、通信デー
タ処理部２０４、通信データ格納部２０６、表示文章デ
ータ格納部２０７、文章表示部２０８、音声波形生成部
２０９（音声波形生成手段）、音声出力部２１０（音声
出力手段）、初期化部２０３・受信部２０５を有する通
信処理部２１１、音響パラメータ２１２、出力パラメー
タ２１３を備えている。

【００６２】上記各部の機能を詳述すると、本実施形態
のシステムが起動すると、先ず、メインルーチン２２０
のメインルーチン初期化部２０１にてプログラム全体の
初期化が行われる。次に、通信処理部２１１の初期化部
２０３にて通信部２３０の初期化が行われ、音声処理初
期化部２０２にて音声部２４０の初期化が行われる。本
実施形態では通信形態はＴＣＰ／ＩＰを用いている。

【００６３】通信処理部２１１の初期化部２０３にて通
信部２３０の初期化が終了すると、通信処理部２１１の
受信部２０５が起動し、サーバコンピュータ１５０から
音声合成装置に送信されるテキストデータを受信できる
ようになる。通信処理部２１１の受信部２０５にてテキ
ストデータを受信すると、受信されたテキストデータは
通信データ格納部２０６に格納される。

【００６４】メインルーチン初期化部２０１にてメイン
ルーチン２２０全体の初期化が終了すると、通信データ
処理部２０４は通信データ格納部２０６の監視を開始す
る。受信されたテキストデータが通信データ格納部２０
６に格納されると、通信データ処理部２０４はそのテキ
ストデータを読み込み、モニタ１１０に表示するための
表示文章を格納する表示文章データ格納部２０７にテキ
ストデータを格納する。

【００６５】文章表示部２０８は、表示文章データ格納
部２０７にデータがあるのを検知すると、そのデータを
モニタ１１０に表示できる形態に変換して、ＶＲＡＭ１
０８上に置く。この結果、モニタ１１０に表示文章が表
示されることになる。この際、テキストデータに何らか
の処理を施して表示文章とする場合は、その処理を通信
データ処理部２０４にて行う。

【００６６】また、通信データ処理部２０４は、受信さ
れたテキストデータを音声波形生成部２０９に送り、音
声波形生成部２０９にてテキストデータの音声波形の生
成を行う。その際、テキストデータに何らかの処理を施
して音声波形を生成する場合は、その処理を通信データ
処理部２０４にて行う。音声波形生成部２０９にて辞書
１１４、音声素片データ１１５、音響パラメータ２１２
を参照しながら、受信したテキストデータの音声波形を
生成する。その処理の流れは図４を使って後で説明す
る。生成された波形はミキシング機能を持つ音声出力部
２１０に渡される。

【００６７】図３は本発明の第１の実施の形態に係る音
声合成装置の音声出力部２１０の詳細構成を示す説明図
である。本発明の第１の実施の形態に係る音声合成装置
の音声出力部２１０は、一時蓄積部６０１、コントロー
ル部６０２、音声再生部６０４、ミキシング部６０５を
備えている。図中６０３は音声波形である。

【００６８】上記各部の機能を詳述すると、一時蓄積部
６０１は、音声波形生成部２０９より送られてきた音声
波形６０３を一時的に蓄積する。コントロール部６０２
は、音声出力部２１０の全体をコントロールするもので
あり、常時、一時蓄積部６０１に音声波形６０３が送ら
れてきたかどうかをチェックしており、音声波形６０３
が送られてきた場合は、音声再生部６０４に送って音声
再生を開始する。

【００６９】音声再生部６０４は、上記図２の出力パラ
メータ２１３から、音声出力に必要な予め設定されたパ
ラメータ（サンプリングレート、データのビット数等の
こと）に従って、音声波形６０３の再生を実行する。

【００７０】尚、音声再生部６０４は少なくとも２つ以
上存在し、コントロール部６０２は、音声波形６０３が
送られてきた場合は、その時点で使用されていない音声
再生部６０４に音声波形６０３を送って、再生を実行す
る。また、音声再生部６０４をソフト的なプロセスとし
て構成し、コントロール部６０２は、音声波形６０３が
送られてくる毎に音声再生部６０４のプロセスを生成
し、音声波形６０３の再生が終わった時点で、その音声
再生部６０４のプロセスを消滅させるような構成であっ
ても構わない。

【００７１】音声再生部６０４が出力する個々の音声デ
ータは、少なくとも２つ以上の入力部を持つミキシング
部６０５に送られ、ミキシング部６０５は音声データを
合成して、最終的な合成音声データを上記図１のスピー
カ１１２から出力する。この際、コントロール部６０２
は、ミキシング部６０５に送られる音声データの数に応
じて、ミキシングのレベル調整をミキシング部６０５に
対して行う。

【００７２】また、コントロール部６０２は、音声波形
生成部２０９から、音声出力中かどうかの問い合わせを
受け、音声再生部６０４やミキシング部６０５の動作状
況を調べて、音声波形生成部２０９に結果を返す機能も
持っている。更に、コントロール部６０２は、音声波形
生成部２０９から、どの性別で出力中かどうかの問い合
わせを受け、音声再生部６０４で再生中の音声波形のデ
ータを調べて、音声波形生成部２０９に結果を返す機能
も持っている。

【００７３】図２２は本発明の音声出力方法を実行する
プログラム及び関連データが記憶媒体から装置に供給さ
れる概念例を示す説明図である。本発明の音声出力方法
を実行するプログラム及び関連データは、フロッピディ
スクやＣＤ−ＲＯＭ等の記憶媒体２２０１を装置２２０
２に装備された記憶媒体ドライブ挿入口２２０３に挿入
することで供給される。その後、プログラム及び関連デ
ータを記憶媒体２２０１から一旦ハードディスクにイン
ストールしハードディスクからＲＡＭにロードするか、
或いはハードディスクにインストールせずに直接ＲＡＭ
にロードすることで、プログラム及び関連データを実行
することが可能となる。

【００７４】この場合、本発明の第１〜第４の実施の形
態に係る音声合成装置において本発明の音声出力方法を
実行するプログラムを実行する場合は、上記図２２を参
照して説明したような手順で音声合成装置にプログラム
及び関連データを供給するか、或いは音声合成装置に予
めプログラム及び関連データを格納しておくことで、プ
ログラム実行が可能となる。

【００７５】図２１は本発明の音声出力方法を実行する
プログラム及び関連データを記憶した記憶媒体の記憶内
容の構成例を示す説明図である。記憶媒体は、例えばボ
リューム情報２１０１、ディレクトリ情報２１０２、プ
ログラム実行ファイル２１０３（図１や後述の図７の、
プログラム１１３に相当）、プログラム関連データファ
イル２１０４（図１や後述の図７の、辞書１１４、音声
素片データ１１５等に相当）等の記憶内容で構成され
る。本発明の音声出力方法を実行するプログラムは、後
述の図４（第１の実施の形態）、図１０（第２の実施の
形態）、図１３・図１４（第３の実施の形態）、図１７
・図１８（第４の実施の形態）の各フローチャートに基
づきプログラムコード化されたものである。

【００７６】次に、上記の如く構成された本発明の第１
の実施の形態に係る音声合成装置の動作を図４、図６を
参照しながら詳細に説明する。下記の処理は上記図１に
示したＣＰＵ１０１の制御のもとに実行される。

【００７７】図４は音声合成装置の通信データ処理部２
０４から音声波形生成部２０９に送られてきたテキスト
データを音声出力する処理を示す流れ図である。先ずス
テップＳ４０１で、音声出力部２１０のコントロール部
６０２に対して現在音声を出力中か問い合わせる。その
結果、音声を出力中でなければ、ステップＳ４０８に
て、音声の性別を主性別（例えば男性）に設定し、ステ
ップＳ４０４に進む。

【００７８】上記ステップＳ４０１で現在音声を出力中
であれば、ステップＳ４０２にて、音声出力部２１０の
コントロール部６０２に対して現在出力中の音声が主性
別か副性別かを問い合わせ、現在出力中の音声が主性別
（例えば男性）ならば、ステップＳ４０３にて、音声の
性別を副性別（例えば女性）に設定する。上記ステップ
Ｓ４０２で現在出力中の音声が副性別（例えば女性）な
らば、ステップＳ４０８にて、音声の性別を主性別（例
えば男性）に設定する。

【００７９】ステップＳ４０４にて、上記ステップＳ４
０３もしくはステップＳ４０８で切り替えた音声の性別
の情報に合わせて、音声素片データ１１５の中から適切
な性別の音声素片データが選択される。ステップＳ４０
５にて、辞書１１４を使ってテキストデータの言語解析
を行い、テキストデータの読みと音調成分を生成する。
更にステップＳ４０６にて、音響パラメータ２１２に収
納された予め設定された、声の高さ（周波数帯域）・ア
クセント（音声レベル）・発声速度等に関するパラメー
タのうち、ステップＳ４０３もしくはＳ４０８にて選択
された性別に応じたパラメータに従って、上記ステップ
Ｓ４０４にて選択されていた音声素片データと、上記ス
テップＳ４０５にて解析されたテキストデータの読みと
音調成分を使って音声波形を生成する。即ち、主性別が
選択された場合には主性別に対応したパラメータに従っ
て音声波形を生成し、副性別が選択された場合には副性
別に対応したパラメータに従って音声波形を生成する。

【００８０】ステップＳ４０７にて、上記ステップＳ４
０６で生成した音声波形を音声出力部２１０に渡して音
声出力を行う。音声波形が音声出力部２１０に送られる
と、音声再生部６０４の１つを使って音声の再生が行わ
れるが、音声再生部６０４にて現在再生中の音声がある
場合は、ミキシング部６０５にて現在再生中の音声に新
しく渡された音声がミキシングされて音声出力が行われ
ることになる。現在再生中の音声がない場合は、再生さ
れた音声はミキシング部６０５を通過するが、何の処理
もなされずにそのままの音声出力が行われることにな
る。

【００８１】このように、複数の音声出力が重なり合う
ことを検知した時、これらの音声を性別の異なる音声で
出力することによって、複数の音声が重なっても容易に
聞き取れるようになる。

【００８２】図５は音声合成装置における主性別での出
力音声と副性別での出力音声の時間的な関係を示す概念
図、図６は音声合成装置における主性別を設定する方法
を示す説明図である。

【００８３】キーボード１０４またはＰＤ１０５によ
り、音声出力設定画面の指示があると、ＣＰＵ１０１は
描画部１１６を用いて図６に示す設定画面の画像データ
を生成し、表示コントローラ１０９によりモニタ１１０
上に表示する。

【００８４】そして、ユーザは、ＰＤ１０５を用いて、
図６の設定画面（設定手段）の５０３で主性別を男性、
女性から選択する。「ＯＫ」ボタン５０１を押下するこ
とにより、上記図１のＲＡＭ１０６上に格納されている
主性別の変数が書き換えられ、選択が完了する。また、
「ｃａｎｃｅｌ」ボタン５０２を押下したときは、ＲＡ
Ｍ１０６上に格納されている主性別の変数が書き換えら
れず、選択は破棄されて性別設定モードは終了する。
尚、副性別は自動的に主性別の反対の性別が選択され
る。

【００８５】以上説明したように、本発明の第１の実施
の形態に係る音声合成装置によれば、複数の音声出力の
重なり合いを検知し、それぞれの音声を違う性別の音声
で出力することで、聞き取りが容易になるという効果を
奏する。

【００８６】本実施形態を用いれば、例えばインターネ
ットで接続された複数のユーザ端末同士がサーバコンピ
ュータを介してテキストデータで会話を行うチャットシ
ステムにおいて、サーバコンピュータから送られてきた
他のユーザの発言であるテキストデータを音声出力する
際に、複数のユーザからのテキストデータの音声出力が
重なり合う場合に聞き取りを容易にすることができると
いう効果を奏する。

【００８７】［第２の実施の形態］本発明の第２の実施
の形態は、他のコンピュータ（サーバコンピュータ）か
ら非同期に送られてくるテキストデータを音声出力する
システムにおいて、１つのテキストデータの音声出力が
終了する前に、次のテキストデータが送られてきたと
き、先に出力中の合成音声と、次の合成音声の出力を、
それぞれ異なったスピーカで再生させるシステムであ
る。

【００８８】即ち、音声出力に重なりがないときは、通
常、コンピュータに接続されている２つのステレオスピ
ーカの両方を使って出力し（２つのスピーカ両方で同じ
音声が再生される）、音声が重なった場合には、それぞ
れの音声が２つのスピーカの片方を使って出力する（片
方のスピーカから最初の音声が、もう片方のスピーカか
ら次の音声が再生される）（図１１参照）。尚、本実施
形態では、２つ以上の音声が重ならない前提で考えてい
るが、３つ以上のスピーカを個別に再生できるシステム
であれば、第３の音声、第４の音声等が重なっても対応
することが可能である。

【００８９】図７は本発明の第２の実施の形態に係る音
声合成装置の概略構成を示すブロック図である。本発明
の第２の実施の形態に係る音声合成装置は、ＣＰＵ１０
１、ハードディスクコントローラ（ＨＤＣ）１０２、プ
ログラム１１３・辞書１１４・音声素片データ１１５を
有するハードディスク（ＨＤ）１０３、キーボード１０
４、ポインティングデバイス（ＰＤ）１０５、ＲＡＭ１
０６、通信回線インターフェイス（Ｉ／Ｆ）１０７、Ｖ
ＲＡＭ１０８、表示コントローラ１０９、モニタ１１
０、サウンドカード１１１、右用スピーカ１１２Ｒ・左
用スピーカ１１２Ｌを有するスピーカ１１２（発声手
段）、描画部１１６を備えている。

【００９０】第２の実施の形態における上記第１の実施
の形態との相異点を説明すると、ＣＰＵ１０１は、後述
の図１０のフローチャートに示す処理を実行する。サウ
ンドカード１１１は、ＣＰＵ１０１で生成されＲＡＭ１
０６に格納された音声波形データを、スピーカ１１２
（右用スピーカ１１２Ｒ、左用スピーカ１１２Ｌ）を通
して出力している。尚、音声合成装置の他の構成は上記
第１の実施の形態と同様であり、説明を省略する。

【００９１】図８は本発明の第２の実施の形態に係る音
声合成装置のプログラムのモジュール関係を示す説明図
である。本発明の第２の実施の形態に係る音声合成装置
のプログラムモジュールは、辞書１１４、音声素片デー
タ１１５、メインルーチン初期化部２０１、音声処理初
期化部２０２、通信データ処理部２０４、通信データ格
納部２０６、表示文章データ格納部２０７、文章表示部
２０８、音声波形生成部２０９（音声波形生成手段）、
音声出力部２１０（音声出力手段）、初期化部２０３・
受信部２０５を有する通信処理部２１１、音響パラメー
タ２１２、出力パラメータ２１３を備えている。

【００９２】第２の実施の形態における上記第１の実施
の形態との相異点を説明すると、音声波形生成部２０９
から音声出力部２１０へ入力される信号が１つとなって
いる点と、音声出力の重なりを検出し、それに対するア
クションつまりスピーカの出力を変更する制御はすべて
音声出力部２１０で行われる点である。音声合成装置の
プログラムモジュールの他の構成は上記第１の実施の形
態と同様であり、説明を省略する。

【００９３】図９は本発明の第２の実施の形態に係る音
声合成装置のプログラムのモジュールにおける音声出力
部２１０の詳細構成を示す説明図である。本発明の第２
の実施の形態に係る音声合成装置の音声出力部２１０
は、一時蓄積部６０１、コントロール部６０２、音声再
生部６０４、ミキシング部６０５を備えている。

【００９４】第２の実施の形態における上記第１の実施
の形態との相異点を説明すると、音声再生部６０４は２
つ存在し、コントロール部６０２は、音声波形６０３が
送られてきた場合は、その時点で使用されていない音声
再生部６０４に音声波形６０３を送って、再生を実行す
る。音声再生部６０４が出力する個々の音声データは、
２つの入力部を持つミキシング部６０５に送られ、ミキ
シング部６０５は音声データを合成して、最終的な合成
音声データを上記図７に示したスピーカ１１２（右用ス
ピーカ１１２Ｒ、左用スピーカ１１２Ｌ）から出力す
る。

【００９５】この際、ミキシング部６０５は、スピーカ
１１２の２つのスピーカ１１２Ｒ、１１２Ｌに出力する
音声をスピーカ毎にコントロールすることが可能であ
り、コントロール部６０２は、このスピーカ出力のコン
トロールをミキシング部６０５に対して行えるようにな
っている。音声出力部２１０の他の構成は上記第１の実
施の形態と同様であり、説明を省略する。

【００９６】尚、本システムでは、スピーカを２つ使用
しているので、最大２つの音声を同時に再生できるが、
３つ以上のスピーカを個別にコントロールできるシステ
ムにおいては、その制御できるスピーカの数まで、音声
が重なっても対応することが可能である。

【００９７】次に、上記の如く構成された本発明の第２
の実施の形態に係る音声合成装置の動作を図１０、図１
２を参照しながら詳細に説明する。下記の処理は上記図
７に示したＣＰＵ１０１の制御のもとに実行される。

【００９８】図１０は音声合成装置の音声波形生成部２
０９より音声波形が音声出力部２１０に送られてきた時
から音声を出力するまでの処理を示す流れ図である。先
ずステップＳ１００１で、音声出力部２１０のコントロ
ール部６０２は音声再生部６０４の動作状態を調べて、
現在音声を出力中かどうかを確認する。その結果、音声
を出力中でなければ、ステップＳ１００８で、コントロ
ール部６０２は、この音声を両方のスピーカ１１２Ｒ、
１１２Ｌを使って再生することをミキシング部６０５に
指示して、音声の再生を実行する。

【００９９】上記ステップＳ１００１で現在音声１つが
出力中であれば、ステップＳ１００２に進んで、コント
ロール部６０２は、現在音声再生中の音声を第１のスピ
ーカ（１１２Ｒまたは１１２Ｌ）で再生し、次の音声を
第２のスピーカ（１１２Ｌまたは１１２Ｒ）で再生する
ように、ミキシング部６０５に指示して、音声の再生を
実行する。尚、上記ステップＳ１００１で既に２つの音
声再生が実行されている場合は、再度ステップＳ１００
１に戻って、出力中の音声が１つ以下になるまで待つよ
うになっている。

【０１００】上記ステップＳ１００２で２つの音声再生
を開始した後は、ステップＳ１００３に進んで、どちら
かの音声再生が終了するのを待つ。どちらかの音声再生
が終了した時は、ステップＳ１００４で、コントロール
部６０２は、残った再生中の音声を両方のスピーカ１１
２Ｒ、１１２Ｌを使って再生することをミキシング部６
０５に指示して、音声の再生を実行する。

【０１０１】このように、２つの音声出力が重なり合う
ことを検知した時、それぞれの音声を違うスピーカ１１
２Ｒ、１１２Ｌで出力することによって、２つの音声が
重なっても容易に聞き取れるようになる。

【０１０２】尚、３つ以上のスピーカを個別に再生でき
るシステムであれば、音声出力が重なった条件に応じ
て、スピーカを割り当てるように設定すれば、３種類以
上の音声が重なっても聞き取ることが可能となる。

【０１０３】図１１は音声合成装置における両方のスピ
ーカでの再生音声と別々のスピーカでの再生音声の時間
的な関係を示す概念図、図１２は音声合成装置における
スピーカの設定を行う方法を示す説明図である。

【０１０４】キーボード１０４またはＰＤ１０５によ
り、音声出力設定画面の指示があると、ＣＰＵ１０１は
描画部１１６を用いて図１２に示す設定画面の画像デー
タを生成し、表示コントローラ１０９によりモニタ１１
０上に表示する。

【０１０５】そして、ユーザは、ＰＤ１０５を用いて、
図１２の設定画面（設定手段）の５０３で、音声が重な
った時に最初の音声を出力するスピーカを選択し、「Ｏ
Ｋ」ボタン５０１を押下することにより、上記図１のＲ
ＡＭ１０６上に格納されている最初の音声用のスピーカ
の設定の変数が書き換えられ、選択が完了する。

【０１０６】この時、次の音声を出力するスピーカは、
自動的にもう１つのスピーカに設定される。また、「ｃ
ａｎｃｅｌ」ボタン５０２を押下したときは、ＲＡＭ１
０６上に格納されているスピーカの設定の変数が書き換
えられず、選択は破棄されてスピーカ設定モードは終了
する。尚、３つ以上のスピーカを設定できる場合は、上
記５０３と同じ形式で次の音声用のスピーカ等が選択で
きるようになっていればよい。

【０１０７】以上説明したように、本発明の第２の実施
の形態に係る音声合成装置によれば、２つの音声出力が
重なり合うのを検知し、それぞれの音声を別のスピーカ
１１２Ｒ、１１２Ｌで出力することで、聞き取りが容易
になるという効果を奏する。

【０１０８】本実施形態を用いれば、例えばインターネ
ットで接続された複数のユーザ端末同士がサーバコンピ
ュータを介してテキストデータで会話を行うチャットシ
ステムにおいて、サーバコンピュータから送られてきた
他のユーザの発言であるテキストデータを音声出力する
際に、複数のユーザからのテキストデータの音声出力が
重なり合う場合に聞き取りを容易にすることができると
いう効果を奏する。

【０１０９】［第３の実施の形態］本発明の第３の実施
の形態は、他のコンピュータ（サーバコンピュータ）か
ら非同期に送られてくるテキストデータを音声出力する
システムにおいて、１つのテキストデータの音声出力が
終了する前に、次のテキストデータが送られてきたと
き、先に音声出力中の音声とは別の種類の音声で次のテ
キストデータを読み上げるシステムである。

【０１１０】本実施形態では、音声出力に重なりがない
ときに、通常に使用される音声を第１音声と呼び、音声
が重なった場合に、次のテキストデータを読み上げるた
めに使用される、先に音声出力中の第１音声とは種類が
異なる音声を第２音声と呼ぶ（図１５参照）。本実施形
態では、２つ以上の音声が重ならない前提で考えている
が、更に音声が重なることが予想される場合は、第３音
声、第４音声と用意しておけばよい。

【０１１１】本発明の第３の実施の形態に係る音声合成
装置は、上記第１の実施の形態と同様に、ＣＰＵ１０
１、ハードディスクコントローラ（ＨＤＣ）１０２、プ
ログラム１１３・辞書１１４・音声素片データ１１５を
有するハードディスク（ＨＤ）１０３、キーボード１０
４、ポインティングデバイス（ＰＤ）１０５、ＲＡＭ１
０６、通信回線インターフェイス（Ｉ／Ｆ）１０７、Ｖ
ＲＡＭ１０８、表示コントローラ１０９、モニタ１１
０、サウンドカード１１１、スピーカ１１２、描画部１
１６を備えている（上記図１参照）。

【０１１２】第３の実施の形態における上記第１の実施
の形態との相異点を説明すると、ＣＰＵ１０１は、後述
の図１３、図１４のフローチャートに示す処理を実行す
る。音声素片データ１１５には、少なくとも声の性質が
異なる２種類の音声素片データ（例えば、子供の声の音
声素片データと、老人の声の音声素片データ）が含まれ
ている。これらの音声素片データも、声の性質に対応し
た基本周波数を持つものである。そして、どちらかの声
（例えば子供の声）が第１音声、他方の声（例えば老人
の声）が第２音声として設定されているものとする。音
声合成装置の他の構成は上記第１の実施の形態と同様で
あり、説明を省略する。

【０１１３】また、本発明の第３の実施の形態に係る音
声合成装置は、上記第１の実施の形態と同様に、辞書１
１４、音声素片データ１１５、メインルーチン初期化部
２０１、音声処理初期化部２０２、通信データ処理部２
０４、通信データ格納部２０６、表示文章データ格納部
２０７、文章表示部２０８、音声波形生成部２０９（音
声波形生成手段）、音声出力部２１０（音声出力手
段）、初期化部２０３・受信部２０５を有する通信処理
部２１１、音声素片データ１１５、音響パラメータ２１
２、出力パラメータ２１３を備えている（上記図２参
照）。音声合成装置のプログラムモジュールの各部の構
成は上記第１の実施の形態と同様であり、説明を省略す
る。

【０１１４】また、本発明の第３の実施の形態に係る音
声合成装置の音声出力部２１０は、上記第１の実施の形
態と同様に、一時蓄積部６０１、コントロール部６０
２、音声再生部６０４、ミキシング部６０５を備えてい
る（上記図３参照）。

【０１１５】第３の実施の形態における上記第１の実施
の形態との相異点を説明すると、音声再生部６０４は少
なくとも２つ以上（実際は、同時に合成が予想される数
だけ必要）存在し、コントロール部６０２は、音声波形
６０３が送られてきた場合は、その時点で使用されてい
ない音声再生部６０４に音声波形６０３を送って、再生
を実行する。音声再生部６０４が出力する個々の音声デ
ータは、少なくとも２つ以上（実際は、同時に合成が予
想される数だけ必要）の入力部を持つミキシング部６０
５に送られ、ミキシング部６０５は音声データを合成し
て、最終的な合成音声データを上記図１に示したスピー
カ１１２から出力する。

【０１１６】また、コントロール部６０２は、音声波形
生成部２０９から、どの音声で出力中かどうかの問い合
わせを受け、使用中の全ての音声再生部６０４で再生中
の音声波形のデータを調べて、音声波形生成部２０９に
結果を返す機能も持っている。音声出力部２１０の他の
構成は上記第１の実施の形態と同様であり、説明を省略
する。

【０１１７】次に、上記の如く構成された本発明の第３
の実施の形態に係る音声合成装置の動作を図１３、図１
４、図１６を参照しながら詳細に説明する。下記の処理
は上記図１に示したＣＰＵ１０１の制御のもとに実行さ
れる。

【０１１８】図１３は音声合成装置の通信データ処理部
２０４から音声波形生成部２０９に送られてきたテキス
トデータを音声出力する処理を示す流れ図である。先ず
ステップＳ１３０１で、音声出力部２１０のコントロー
ル部６０２に対して現在音声を出力中か問い合わせる。
その結果、音声を出力中でなければ、ステップＳ１３０
８にて、音声の種類を第１音声（例えば子供の声）に設
定し、ステップＳ１３０４に進む。

【０１１９】上記ステップＳ１３０１で現在音声を出力
中であれば、ステップＳ１３０２にて、音声出力部２１
０のコントロール部６０２に対して現在出力中の音声の
種類を問い合わせ、現在出力中の音声に第１音声が含ま
れていないならば、ステップＳ１３０８にて、音声の種
類を第１音声（例えば子供の声）に設定する。それ以外
の場合は、ステップＳ１３０３にて、音声の種類を第２
音声（例えば老人の声）に設定する。

【０１２０】ステップＳ１３０４にて、上記ステップＳ
１３０３もしくはステップＳ１３０８で切り替えた音声
の種類の情報に合わせて、音声素片データ１１５の中か
ら適切な種類の音声素片データが選択される。ステップ
Ｓ１３０５にて、辞書１１４を使ってテキストデータの
言語解析を行い、テキストデータの読みと音調成分を生
成する。更にステップＳ１３０６にて、音響パラメータ
２１２に収納された予め設定された、声の高さ・アクセ
ント・発声速度等に関するパラメータのうち、選択され
た音声の種類に対応したパラメータに従って、上記ステ
ップＳ１３０４にて選択されていた音声素片データと、
上記ステップＳ１３０５にて解析されたテキストデータ
の読みと音調成分を使って音声波形を生成する。

【０１２１】ステップＳ１３０７にて、上記ステップＳ
１３０６で生成した音声波形を音声出力部２１０に渡し
て音声出力を行う。音声波形が音声出力部２１０に送ら
れると、音声再生部６０４の１つを使って音声の再生が
行われるが、音声再生部６０４にて現在再生中の音声が
ある場合は、ミキシング部６０５にて現在再生中の音声
に新しく渡された音声がミキシングされて音声出力が行
われることになる。現在再生中の音声がない場合は、再
生された音声はミキシング部６０５を通過するが、何の
処理もなされずにそのままの音声出力が行われることに
なる。

【０１２２】このように、複数の音声出力が重なり合う
ことを検知した時、それぞれの音声を違う種類の音声で
出力することによって、複数の音声が重なっても容易に
聞き取れるようになる。

【０１２３】尚、３種類以上の音声が重なる可能性があ
るため、第３音声以降の音声も設定している場合は、図
１４に示すように、ステップＳ１４０３で、出力中でな
い優先順位の高い音声を選択すればよい（図１４で、ス
テップＳ１４０３以外の部分は上記図１３と全く同一の
処理を行うので、繰り返しの説明は省略する）。

【０１２４】図１５は音声合成装置における第１音声で
の出力音声と第２音声での出力音声の時間的な関係を示
す概念図、図１６は音声合成装置における音声の種類を
設定する方法を示す説明図である。

【０１２５】キーボード１０４またはＰＤ１０５によ
り、音声出力設定画面の指示があると、ＣＰＵ１０１は
描画部１１６を用いて図１６に示す設定画面の画像デー
タを生成し、表示コントローラ１０９によりモニタ１１
０上に表示する。

【０１２６】そして、ユーザは、ＰＤ１０５を用いて、
図１６の設定画面（設定手段）の５０３で、登録されて
いる音声の中から第１音声とする音声を選択し、設定画
面の５０４で、登録されている音声の中から第２音声と
する音声を選択する。「ＯＫ」ボタン５０１を押下する
ことにより、上記図１のＲＡＭ１０６上に格納されてい
る第１音声、第２音声設定の変数が書き換えられ、選択
が完了する。

【０１２７】また、「ｃａｎｃｅｌ」ボタン５０２を押
下したときは、ＲＡＭ１０６上に格納されている第１音
声、第２音声設定の変数が書き換えられず、選択は破棄
されて音声の種類の設定モードは終了する。尚、第３音
声以降の音声がある場合は、上記５０３、５０４と同じ
形式で第３音声等が選択できるようになっていればよ
い。

【０１２８】以上説明したように、本発明の第３の実施
の形態に係る音声合成装置によれば、複数の音声出力の
重なり合いを検知し、それぞれの音声を違う種類の音声
で出力することで、聞き取りが容易になるという効果を
奏する。

【０１２９】本実施形態を用いれば、例えばインターネ
ットで接続された複数のユーザ端末同士がサーバコンピ
ュータを介してテキストデータで会話を行うチャットシ
ステムにおいて、サーバコンピュータから送られてきた
他のユーザの発言であるテキストデータを音声出力する
際に、複数のユーザからのテキストデータが重なり合う
場合に聞き取りを容易にすることができるという効果を
奏する。

【０１３０】［第４の実施の形態］本発明の第４の実施
の形態は、他のコンピュータ（サーバコンピュータ）か
ら非同期に送られてくるテキストデータを音声出力する
システムにおいて、１つのテキストデータの音声出力が
終了する前に、次のテキストデータが送られてきたと
き、先に音声出力中の音声とは別の声の高さで次のテキ
ストデータを読み上げるシステムである。

【０１３１】本実施形態では、音声出力に重なりがない
ときに、通常に使用される音声を第１の高さの音声と呼
び、音声が重なった場合に、次のテキストデータを読み
上げるために使用される、先に音声出力中の第１の高さ
の音声とは異なる音声を第２の高さの音声と呼ぶ（図１
９参照）。本実施形態では、２つ以上の音声が重ならな
い前提で考えているが、更に音声が重なることが予想さ
れる場合は、第３の高さの音声、第４の高さの音声等を
用意しておけばよい。

【０１３２】本発明の第４の実施の形態に係る音声合成
装置は、上記第３の実施の形態と同様に、ＣＰＵ１０
１、ハードディスクコントローラ（ＨＤＣ）１０２、プ
ログラム１１３・辞書１１４・音声素片データ１１５を
有するハードディスク（ＨＤ）１０３、キーボード１０
４、ポインティングデバイス（ＰＤ）１０５、ＲＡＭ１
０６、通信回線インターフェイス（Ｉ／Ｆ）１０７、Ｖ
ＲＡＭ１０８、表示コントローラ１０９、モニタ１１
０、サウンドカード１１１、スピーカ１１２を備えてい
る（上記図１参照）。

【０１３３】第４の実施の形態における上記第３の実施
の形態との相異点を説明すると、ＣＰＵ１０１は、後述
の図１７、図１８のフローチャートに示す処理を実行す
る。音声合成装置の他の構成は上記第３の実施の形態と
同様であり、説明を省略する。

【０１３４】また、本発明の第４の実施の形態に係る音
声合成装置は、上記第２の実施の形態と同様に、辞書１
１４、音声素片データ１１５、メインルーチン初期化部
２０１、音声処理初期化部２０２、通信データ処理部２
０４、通信データ格納部２０６、表示文章データ格納部
２０７、文章表示部２０８、音声波形生成部２０９（音
声波形生成手段）、音声出力部２１０（音声出力手
段）、初期化部２０３・受信部２０５を有する通信処理
部２１１、音声素片データ１１５、音響パラメータ２１
２、出力パラメータ２１３を備えている（上記図８参
照）。音声合成装置のプログラムモジュールの各部の構
成は上記第２の実施の形態と同様であり、説明を省略す
る。

【０１３５】また、本発明の第４の実施の形態に係る音
声合成装置の音声出力部２１０は、上記第３の実施の形
態と同様に、一時蓄積部６０１、コントロール部６０
２、音声再生部６０４、ミキシング部６０５を備えてい
る（上記図３参照）。

【０１３６】第４の実施の形態における上記第３の実施
の形態との相異点を説明すると、音声再生部６０４は、
コントロール部６０２の指示に従って再生時の声の高さ
を自由に調整できる機能を持っている。声の高さの調整
は、例えば声を高い声にしたい場合は、再生される声の
周波数成分のうち、高い音の周波数領域を強く出し、そ
の他の周波数領域を弱くすることによって可能となる。
また、音声出力の重なりを検出し、それに対するアクシ
ョンつまり声の高さを変更する制御はすべて音声出力部
２１０で行われる。音声出力部２１０の他の構成は上記
第３の実施の形態と同様であり、説明を省略する。

【０１３７】次に、上記の如く構成された本発明の第４
の実施の形態に係る音声合成装置の動作を図１７、図１
８、図２０を参照しながら詳細に説明する。下記の処理
は上記図１に示したＣＰＵ１０１の制御のもとに実行さ
れる。

【０１３８】図１７は音声合成装置の音声波形生成部２
０９より音声波形が音声出力部２１０に送られてきた時
から音声を出力するまでの処理を示す流れ図である。先
ずステップＳ１７０１で、音声出力部２１０のコントロ
ール部６０２は、音声再生部６０４の動作状態を調べ
て、現在音声を出力中かどうかを確認する。その結果、
音声を出力中でなければ、ステップＳ１７０８にて、音
声を第１の高さの音声に設定し、ステップＳ１７０４に
進む。

【０１３９】上記ステップＳ１７０１で現在音声を出力
中であれば、ステップＳ１７０２にて、コントロール部
６０２は現在音声再生中の音声再生部６０４に対して現
在出力中の音声の高さを問い合わせ、その結果、現在再
生中の音声に第１の高さの音声が含まれていないなら
ば、ステップＳ１７０８にて、音声を第１の高さの音声
に設定する。それ以外の場合は、ステップＳ１７０３に
て、音声を第２の高さの音声に設定する。

【０１４０】ステップＳ１７０４では、音声再生部６０
４の１つを使って音声波形の再生を行うのであるが、こ
こで上記ステップＳ１７０３もしくはステップＳ１７０
８で設定した音声の高さの情報に合わせて、音声の高さ
を調整して再生を実行する。再生された音声は、ステッ
プＳ１７０５で、音声のミキシングが行われ、最終的な
音声の出力となる。この際、音声再生部６０４にて現在
再生中の他の音声がある場合は、ミキシング部６０５
で、現在再生中の音声に新しく再生された音声がミキシ
ングされて音声出力が行われることになる。現在再生中
の音声がない場合は、再生された音声はミキシング部６
０５を通過するが、何の処理もなされずにそのままの音
声出力が行われることになる。

【０１４１】このように、複数の音声出力が重なり合う
ことを検知した時、それぞれの音声を違う高さの音声で
出力することによって、複数の音声が重なっても容易に
聞き取れるようになる。

【０１４２】尚、３種類以上の音声が重なる可能性があ
るため、第３の高さ以降の音声も設定している場合は、
図１８に示すように、ステップＳ１８０３で、出力中で
ない優先順位の高い音声を選択すればよい（図１８で、
ステップＳ１８０３以外の部分は上記図１７と全く同一
の処理を行うので、繰り返しの説明は省略する）。

【０１４３】図１９は音声合成装置における第１の高さ
の音声での出力音声と第２の高さの音声での出力音声の
時間的な関係を示す概念図、図２０は音声合成装置にお
ける音声の高さを設定する方法を示す説明図である。

【０１４４】キーボード１０４またはＰＤ１０５によ
り、音声出力設定画面の指示があると、ＣＰＵ１０１は
描画部１１６を用いて図２０に示す設定画面の画像デー
タを生成し、表示コントローラ１０９によりモニタ１１
０上に表示する。

【０１４５】そして、ユーザは、ＰＤ１０５を用いて、
図２０の設定画面（設定手段）の５０３で、登録されて
いる音声の中から第１の高さの音声を選択し、設定画面
の５０４で、登録されている音声の中から第２の高さの
音声を選択する。「ＯＫ」ボタン５０１を押下すること
により、上記図１のＲＡＭ１０６上に格納されている第
１の高さの音声、第２の高さの音声の設定の変数が書き
換えられ、選択が完了する。

【０１４６】また、「ｃａｎｃｅｌ」ボタン５０２を押
下したときは、ＲＡＭ１０６上に格納されている第１の
高さの音声、第２の高さの音声の設定の変数が書き換え
られず、選択は破棄されて音声の高さの設定モードは終
了する。尚、第３の高さ以降の音声がある場合は、上記
５０３、５０４と同じ形式で第３の高さの音声等が選択
できるようになっていればよい。

【０１４７】以上説明したように、本発明の第４の実施
の形態に係る音声合成装置によれば、複数の音声出力の
重なり合いを検知し、それぞれの音声を違う高さの音声
で出力することで、聞き取りが容易になるという効果を
奏する。

【０１４８】本実施形態を用いれば、例えばインターネ
ットで接続された複数のユーザ端末同士がサーバコンピ
ュータを介してテキストデータで会話を行うチャットシ
ステムにおいて、サーバコンピュータから送られてきた
他のユーザの発言であるテキストデータを音声出力する
際に、複数のユーザからのテキストデータが重なり合う
場合に聞き取りを容易にすることができるという効果を
奏する。

【０１４９】［他の実施の形態］上述した本発明の実施
の形態においては、インターネットを利用してテキスト
データで会話を行うチャットシステムに本発明を適用し
た例を上げたが、インターネット以外の他の通信媒体を
利用してテキストデータで会話を行うシステムにも本発
明を適用可能である。

【０１５０】尚、本発明は、複数の機器から構成される
システムに適用しても、１つの機器からなる装置に適用
してもよい。上述した実施形態の機能を実現するソフト
ウエアのプログラムコードを記憶した記憶媒体を、シス
テム或いは装置に供給し、そのシステム或いは装置のコ
ンピュータ（またはＣＰＵやＭＰＵ）が記憶媒体等の媒
体に格納されたプログラムコードを読み出し実行するこ
とによっても、達成されることは言うまでもない。

【０１５１】この場合、記憶媒体等の媒体から読み出さ
れたプログラムコード自体が上述した実施形態の機能を
実現することになり、そのプログラムコードを記憶した
記憶媒体等の媒体は本発明を構成することになる。プロ
グラムコードを供給するための記憶媒体等の媒体として
は、例えば、フロッピディスク、ハードディスク、光デ
ィスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、磁
気テープ、不揮発性のメモリカード、ＲＯＭ、或いはネ
ットワークを介してのダウンロードの方法などを用いる
ことができる。

【０１５２】また、コンピュータが読み出したプログラ
ムコードを実行することにより、上述した実施形態の機
能が実現されるだけでなく、そのプログラムコードの指
示に基づき、コンピュータ上で稼働しているＯＳなどが
実際の処理の一部または全部を行い、その処理によって
上述した実施形態の機能が実現される場合も含まれるこ
とは言うまでもない。

【０１５３】更に、記憶媒体等の媒体から読出されたプ
ログラムコードが、コンピュータに挿入された機能拡張
ボードやコンピュータに接続された機能拡張ユニットに
備わるメモリに書込まれた後、そのプログラムコードの
指示に基づき、その機能拡張ボードや機能拡張ユニット
に備わるＣＰＵなどが実際の処理の一部または全部を行
い、その処理によって上述した実施形態の機能が実現さ
れる場合も含まれることは言うまでもない。

【０１５４】

【発明の効果】以上説明したように、請求項１〜９記載
の音声出力装置、請求項１３〜２１記載の音声出力シス
テム、請求項２５〜３３記載の音声出力方法、請求項３
７〜４５記載の記憶媒体によれば、複数のテキストデー
タの合成音声を重ね合わせて発声する場合、複数のテキ
ストデータをそれぞれ異なる種類の音声で音声合成し出
力させるため、容易に複数のテキストデータの音声を聞
き分けることができる音声出力装置を提供できるという
効果を奏する。

【０１５５】また、請求項１０、１１記載の音声出力装
置、請求項２２、２３記載の音声出力システム、請求項
３４、３５記載の音声出力方法、請求項４６、４７記載
の記憶媒体によれば、複数のテキストデータの合成音声
を重ね合わせて発声する場合、複数のテキストデータの
音声をそれぞれ異なる発声手段で発声させるため、容易
に複数のテキストデータの音声を聞き分けることができ
る音声出力装置を提供できるという効果を奏する。

【０１５６】また、請求項１２記載の音声出力装置、請
求項２４記載の音声出力システム、請求項３６記載の音
声出力方法、請求項４８記載の記憶媒体によれば、イン
ターネットを介してテキストデータで会話を行うシステ
ムにおいても、上記と同様に、容易に複数のテキストデ
ータの音声を聞き分けることができるという効果を奏す
る。

【図面の簡単な説明】

【図１】本発明の第１、第３、第４の実施の形態に係る
音声合成装置の概略構成を示すブロック図である。

【図２】本発明の第１、第３の実施の形態に係る音声合
成装置のプログラムのモジュール関係を示す説明図であ
る。

【図３】本発明の第１、第３、第４の実施の形態に係る
音声合成装置のプログラムのモジュールにおける音声出
力部の詳細構成を示す説明図である。

【図４】本発明の第１の実施の形態に係る音声合成装置
の音声波形生成部の処理を示す流れ図である。

【図５】本発明の第１の実施の形態に係る音声合成装置
における主性別での出力音声と副性別での出力音声の時
間的な関係を示す概念図である。

【図６】本発明の第１の実施の形態に係る音声合成装置
の性別設定モード画面を示す説明図である。

【図７】本発明の第２の実施の形態に係る音声合成装置
の概略構成を示すブロック図である。

【図８】本発明の第２、第４の実施の形態に係る音声合
成装置のプログラムのモジュール関係を示す説明図であ
る。

【図９】本発明の第２の実施の形態に係る音声合成装置
のプログラムのモジュールにおける音声出力部の詳細構
成を示す説明図である。

【図１０】本発明の第２の実施の形態に係る音声合成装
置の音声出力部の処理を示す流れ図である。

【図１１】本発明の第２の実施の形態に係る音声合成装
置における両方のスピーカでの再生音声と別々のスピー
カでの再生音声の時間的な関係を示す概念図である。

【図１２】本発明の第２の実施の形態に係る音声合成装
置のスピーカ設定モード画面を示す説明図である。

【図１３】本発明の第３の実施の形態に係る音声合成装
置の音声波形生成部の処理を示す流れ図である。

【図１４】本発明の第３の実施の形態に係る音声合成装
置の音声波形生成部の処理を示す流れ図である。

【図１５】本発明の第３の実施の形態に係る音声合成装
置における第１音声での出力音声と第２音声での出力音
声の時間的な関係を示す概念図である。

【図１６】本発明の第３の実施の形態に係る音声合成装
置の音声種類設定モード画面を示す説明図である。

【図１７】本発明の第４の実施の形態に係る音声合成装
置の音声出力部の処理を示す流れ図である。

【図１８】本発明の第４の実施の形態に係る音声合成装
置の音声出力部の処理を示す流れ図である。

【図１９】本発明の第４の実施の形態に係る音声合成装
置における第１の高さの音声での出力音声と第２の高さ
の音声での出力音声の時間的な関係を示す概念図であ
る。

【図２０】本発明の第４の実施の形態に係る音声合成装
置の声の高さ設定モード画面を示す説明図である。

【図２１】本発明の音声出力方法を実行するプログラム
及び関連データを記憶した記憶媒体の記憶内容の構成例
を示す説明図である。

【図２２】本発明の音声出力方法を実行するプログラム
及び関連データが記憶媒体から装置に供給される概念例
を示す説明図である。

【符号の説明】

１０１ＣＰＵ１１０モニタ１１２Ｒ、１１２Ｌスピーカ２０９音声波形生成部２１０音声出力部

Claims

【特許請求の範囲】

【請求項１】テキストデータを合成音声に変換して出
力する音声出力装置であって、前記テキストデータの音声波形を生成する音声波形生成
手段と、複数の前記テキストデータをそれぞれ異なる種
類の音声で音声合成し出力させる音声出力手段とを有す
ることを特徴とする音声出力装置。
【請求項２】前記異なる種類の音声は互いに周波数帯
域が異なることを特徴とする請求項１記載の音声出力装
置。
【請求項３】前記音声出力手段は、前記異なる種類の
音声に対応する複数種類の音声素片データを記憶する音
声素片記憶部と、前記異なる種類の音声に対応する処理
パラメータに従って前記音声素片データを処理し、合成
音声を生成する音声波形生成部とを有することを特徴と
する請求項１記載の音声出力装置。
【請求項４】前記処理パラメータは、周波数帯域と、
音声レベルと、音声速度のうちの少なくとも１つを含む
ことを特徴とする請求項３記載の音声出力装置。
【請求項５】前記異なる種類の音声は、互いに異なる
性別に対応する音声であることを特徴とする請求項１記
載の音声出力装置。
【請求項６】所定数の複数種類の音声のうち、任意の
音声を選択する選択手段を備え、前記音声出力手段は前
記選択された音声に従い合成音声を生成して出力するこ
とを特徴とする請求項１記載の音声出力装置。
【請求項７】前記異なる種類の音声は互いに高さが異
なることを特徴とする請求項１記載の音声出力装置。
【請求項８】前記音声出力手段は、所定数の複数種類
の音声を所定の順序で選択的に出力することを特徴とす
る請求項１記載の音声出力装置。
【請求項９】前記異なる種類の音声は、互いに異なる
年齢に対応する音声であることを特徴とする請求項１記
載の音声出力装置。
【請求項１０】テキストデータを合成音声に変換して
出力する音声出力装置であって、前記テキストデータの音声波形を生成する音声波形生成
手段と、複数の前記テキストデータの音声出力が重なり
合うことを検知した場合は、それぞれの音声を異なる発
声手段から出力させる音声出力手段とを有することを特
徴とする音声出力装置。
【請求項１１】使用する前記発声手段を任意に設定可
能な設定手段を有することを特徴とする請求項１０記載
の音声出力装置。
【請求項１２】インターネットを介して前記テキスト
データで会話を行うシステムに適用可能であることを特
徴とする請求項１乃至１１の何れかに記載の音声出力装
置。
【請求項１３】テキストデータを合成音声に変換して
出力する音声出力装置と、該音声出力装置に前記テキス
トデータを送信する外部装置とを具備してなる音声出力
システムであって、前記音声出力装置は、前記テキストデータの音声波形を
生成する音声波形生成手段と、複数の前記テキストデー
タをそれぞれ異なる種類の音声で音声合成し出力させる
音声出力手段とを有することを特徴とする音声出力シス
テム。
【請求項１４】前記異なる種類の音声は互いに周波数
帯域が異なることを特徴とする請求項１３記載の音声出
力システム。
【請求項１５】前記音声出力手段は、前記異なる種類
の音声に対応する複数種類の音声素片データを記憶する
音声素片記憶部と、前記異なる種類の音声に対応する処
理パラメータに従って前記音声素片データを処理し、合
成音声を生成する音声波形生成部とを有することを特徴
とする請求項１３記載の音声出力システム。
【請求項１６】前記処理パラメータは、周波数帯域
と、音声レベルと、音声速度のうちの少なくとも１つを
含むことを特徴とする請求項１５記載の音声出力システ
ム。
【請求項１７】前記異なる種類の音声は、互いに異な
る性別に対応する音声であることを特徴とする請求項１
３記載の音声出力システム。
【請求項１８】前記音声出力装置は、所定数の複数種
類の音声のうち、任意の音声を選択する選択手段を備
え、前記音声出力手段は前記選択された音声に従い合成
音声を生成して出力することを特徴とする請求項１３記
載の音声出力システム。
【請求項１９】前記異なる種類の音声は互いに高さが
異なることを特徴とする請求項１３記載の音声出力シス
テム。
【請求項２０】前記音声出力手段は、所定数の複数種
類の音声を所定の順序で選択的に出力することを特徴と
する請求項１３記載の音声出力システム。
【請求項２１】前記異なる種類の音声は、互いに異な
る年齢に対応する音声であることを特徴とする請求項１
３記載の音声出力システム。
【請求項２２】テキストデータを合成音声に変換して
出力する音声出力装置と、該音声出力装置に前記テキス
トデータを送信する外部装置とを具備してなる音声出力
システムであって、前記音声出力装置は、前記テキストデータの音声波形を
生成する音声波形生成手段と、複数の前記テキストデー
タの音声出力が重なり合うことを検知した場合は、それ
ぞれの音声を異なる発声手段から出力させる音声出力手
段とを有することを特徴とする音声出力システム。
【請求項２３】前記音声出力装置は、使用する前記発
声手段を任意に設定可能な設定手段を有することを特徴
とする請求項２２記載の音声出力システム。
【請求項２４】インターネットを介して前記テキスト
データで会話を行うシステムに適用可能であることを特
徴とする請求項１３乃至２３の何れかに記載の音声出力
システム。
【請求項２５】テキストデータを合成音声に変換して
出力する音声出力装置に適用される音声出力方法であっ
て、前記テキストデータの音声波形を生成する音声波形生成
工程と、複数の前記テキストデータをそれぞれ異なる種
類の音声で音声合成し出力させる音声出力工程とを有す
ることを特徴とする音声出力方法。
【請求項２６】前記異なる種類の音声は互いに周波数
帯域が異なることを特徴とする請求項２５記載の音声出
力方法。
【請求項２７】前記音声出力工程は、前記異なる種類
の音声に対応する複数種類の音声素片データを記憶する
音声素片記憶工程と、前記異なる種類の音声に対応する
処理パラメータに従って前記音声素片データを処理し、
合成音声を生成する音声波形生成工程とを有することを
特徴とする請求項２５記載の音声出力方法。
【請求項２８】前記処理パラメータは、周波数帯域
と、音声レベルと、音声速度のうちの少なくとも１つを
含むことを特徴とする請求項２７記載の音声出力方法。
【請求項２９】前記異なる種類の音声は、互いに異な
る性別に対応する音声であることを特徴とする請求項２
５記載の音声出力方法。
【請求項３０】所定数の複数種類の音声のうち、任意
の音声を選択する選択工程を有し、前記音声出力工程で
は前記選択された音声に従い合成音声を生成して出力す
ることを特徴とする請求項２５記載の音声出力方法。
【請求項３１】前記異なる種類の音声は互いに高さが
異なることを特徴とする請求項２５記載の音声出力方
法。
【請求項３２】前記音声出力工程では、所定数の複数
種類の音声を所定の順序で選択的に出力することを特徴
とする請求項２５記載の音声出力方法。
【請求項３３】前記異なる種類の音声は、互いに異な
る年齢に対応する音声であることを特徴とする請求項２
５記載の音声出力方法。
【請求項３４】テキストデータを合成音声に変換して
出力する音声出力装置に適用される音声出力方法であっ
て、前記テキストデータの音声波形を生成する音声波形生成
工程と、複数の前記テキストデータの音声出力が重なり
合うことを検知した場合は、それぞれの音声を異なる発
声手段から出力させる音声出力工程とを有することを特
徴とする音声出力方法。
【請求項３５】使用する前記発声手段を任意に設定可
能な設定工程を有することを特徴とする請求項３４記載
の音声出力方法。
【請求項３６】インターネットを介して前記テキスト
データで会話を行うシステムに適用可能であることを特
徴とする請求項２５乃至３５の何れかに記載の音声出力
方法。
【請求項３７】テキストデータを合成音声に変換して
出力する音声出力装置に適用される音声出力方法を実行
するプログラムを記憶したコンピュータにより読み出し
可能な記憶媒体であって、前記音声出力方法は、前記テキストデータの音声波形を
生成するように制御する音声波形生成ステップと、複数
の前記テキストデータをそれぞれ異なる種類の音声で音
声合成し出力させるように制御する音声出力ステップと
を有することを特徴とする記憶媒体。
【請求項３８】前記異なる種類の音声は互いに周波数
帯域が異なることを特徴とする請求項３７記載の記憶媒
体。
【請求項３９】前記音声出力ステップは、前記異なる
種類の音声に対応する複数種類の音声素片データを記憶
するように制御する音声素片記憶ステップと、前記異な
る種類の音声に対応する処理パラメータに従って前記音
声素片データを処理し、合成音声を生成するように制御
する音声波形生成ステップとを有することを特徴とする
請求項３７記載の記憶媒体。
【請求項４０】前記処理パラメータは、周波数帯域
と、音声レベルと、音声速度のうちの少なくとも１つを
含むことを特徴とする請求項３９記載の記憶媒体。
【請求項４１】前記異なる種類の音声は、互いに異な
る性別に対応する音声であることを特徴とする請求項３
７記載の記憶媒体。
【請求項４２】所定数の複数種類の音声のうち、任意
の音声を選択する選択ステップを有し、前記音声出力ス
テップでは前記選択された音声に従い合成音声を生成し
て出力するように制御することを特徴とする請求項３７
記載の記憶媒体。
【請求項４３】前記異なる種類の音声は互いに高さが
異なることを特徴とする請求項３７記載の記憶媒体。
【請求項４４】前記音声出力ステップでは、所定数の
複数種類の音声を所定の順序で選択的に出力するように
制御することを特徴とする請求項３７記載の記憶媒体。
【請求項４５】前記異なる種類の音声は、互いに異な
る年齢に対応する音声であることを特徴とする請求項３
７記載の記憶媒体。
【請求項４６】テキストデータを合成音声に変換して
出力する音声出力装置に適用される音声出力方法を実行
するプログラムを記憶したコンピュータにより読み出し
可能な記憶媒体であって、前記音声出力方法は、前記テキストデータの音声波形を
生成するように制御する音声波形生成ステップと、複数
の前記テキストデータの音声出力が重なり合うことを検
知した場合は、それぞれの音声を異なる発声手段から出
力させるように制御する音声出力ステップとを有するこ
とを特徴とする記憶媒体。
【請求項４７】使用する前記発声手段を任意に設定可
能な設定ステップを有することを特徴とする請求項４６
記載の記憶媒体。
【請求項４８】インターネットを介して前記テキスト
データで会話を行うシステムに適用可能であることを特
徴とする請求項３７乃至４７の何れかに記載の記憶媒
体。