JP2001005476A

JP2001005476A - プレゼンテーション装置

Info

Publication number: JP2001005476A
Application number: JP11175315A
Authority: JP
Inventors: Takahisa Mori; 卓久森
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1999-06-22
Filing date: 1999-06-22
Publication date: 2001-01-12

Abstract

(57)【要約】【課題】画像の切り替えと同期して、音声合成でテキ
ストデータの読み上げを自動的に行うプレゼンテーショ
ン装置を提供する。【解決手段】言語処理部１０７は、テキストデータ記
憶部１０６内のテキストデータを順次読み出し、対応す
る画像への切り替えを表示制御部１０４に指示すると共
に、当該データの言語解析を行ってその内容を音声情報
に変換し、音声合成部１１０に順次出力する。表示制御
部１０４は、上記指示に従って画像データ記憶部１０２
内の画像データを順次読み出し、画像表示部１０３に出
力する。画像表示部１０３は、画像データを画面上に表
示する。音声データ記憶部１０８には、合成音声を出力
するのに必要な波形データ等が格納されている。音声合
成部１１０は、入力する音声情報に基づいて必要な波形
データを音声データ記憶部１０８から読み出し、順次音
声出力部１０９に出力する。音声出力部１０９は、波形
データに従って合成音声を出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、プレゼンテーショ
ン装置に関し、より特定的には、テキストデータをコン
ピュータによって解析し、テキストの内容を合成音声と
して出力する音声合成装置をナレーションとして使用す
るプレゼンテーション装置に関する。

【０００２】

【従来の技術】近年、コンピュータを用いた言語解析技
術と音声合成技術の進歩により、テキストデータをコン
ピュータに入力して解析し、このテキストの内容を人間
の音声で読み上げる装置が数多く実現されている。ま
た、単一の音質で発声するだけでなく、例えば、特開平
８−２７２３８８号公報に記載の「音声合成装置及びそ
の方法」のように、男性の声と女性の声とを切り替え
て、複数の音質でテキストを読み上げることも可能にな
っている。

【０００３】ところで、従来、講演会や会議などにおい
て、予め用意された原稿の内容を予め定められた発表時
間内で読むために、発表者は事前に何度も原稿を読み上
げて原稿の量を調整し、試行錯誤を重ねて原稿を仕上げ
ていた。また、どうしても原稿の内容を増減できない場
合は、発表時に話す速度を調整することにより、時間内
に発表が終了するようにしていた。

【０００４】このように、原稿が完成するまでに多くの
試行錯誤が必要な上、同じ人間でも、常に同じ速度で話
すには練習・熟練が必要であった。さらに、原稿の作成
者と発表者が異なる場合は、原稿増減についてやりとり
を重ねる必要があり、原稿完成までに多大な労力を必要
としていた。

【０００５】そこで、上記問題点を解決するために、特
開平８−３２８５７７号公報に記載の「音声合成装置及
び読み上げ時間演算装置」では、与えられたテキストデ
ータを標準的な速度で合成音声により読み上げた場合の
読み上げ所要時間を算出し、この所要時間と設定された
所望の読み上げ時間とを比較することにより、設定時間
およびテキスト分量に合わせた速度の合成音声でテキス
トを読み上げることを可能にして、原稿作成の際の作業
負担を軽減している。

【０００６】

【発明が解決しようとする課題】一方、近年、講演会や
会議などにおいて、コンピュータを用いて表示装置に画
像を表示し、この画像を次々と切り替えながら、プレゼ
ンテーション（発表）を行う方法が広く用いられてい
る。しかし、このような画像表示を伴うプレゼンテーシ
ョンにおいては、音声による説明と対応する画像の切り
替えとを同期させないと、表示内容と説明内容とがずれ
てしまう。

【０００７】上述した特開平８−３２８５７７号公報に
記載の「音声合成装置及び読み上げ時間演算装置」を用
いて、画像表示を伴うプレゼンテーションを行う場合、
音声合成装置のテキスト読み上げに合わせて逐一手作業
で画像を順次切り替えるか、予め定めたテキストの読み
上げ所要時間に合わせて画像ごとに切り替え時間を設定
するか、または、逆に画像の切り替え時間に合わせてテ
キストの読み上げ時間を設定して、双方の同期をとらな
ければならない。このため、一度、これらの画像切り替
え時間を設定した後で原稿の長さに変更が生じると、画
像切り替え時間を再度設定しなければならない等の問題
点があった。

【０００８】それ故、本発明の目的は、音声合成装置を
用いて画像表示を伴うプレゼンテーションを行うにあた
り、定められた時間内に発表を終了するための事前発表
練習を不要とし、説明に対応する画像切り替え操作を発
表者に課すことなく自動的にプレゼンテーションを行う
プレゼンテーション装置を提供することである。

【０００９】

【課題を解決するための手段および発明の効果】第１の
発明は、テキストデータに基づいて生成される合成音声
の出力と、当該テキストデータに対応する画像データの
表示とを、自動的に行うプレゼンテーション装置であっ
て、画像データを入力する画像入力手段と、画像入力手
段が入力した画像データを、複数記憶する画像データ記
憶手段と、言語処理手段の指示に従って、画像データ記
憶手段から対応する画像データを順次読み出して出力す
る表示制御手段と、表示制御手段が出力する画像データ
を画像表示する画像表示手段と、テキストデータを入力
するテキスト入力手段と、テキスト入力手段が入力した
テキストデータを、対応する画像データを指示する画像
指示情報と共に、複数記憶するテキストデータ記憶手段
と、テキストデータ記憶手段から、予め定めた順序に従
ってテキストデータを順次読み出し、当該読み出したテ
キストデータの画像指示情報を、画像切り替えタイミン
グに同期して表示制御手段に出力すると共に、当該読み
出したテキストデータを解析して音声情報を生成する言
語処理手段と、音声を合成するための音声波形データを
複数記憶する音声データ記憶手段と、言語処理手段が生
成した音声情報に基づいて、音声データ記憶手段から対
応する音声波形データを順次読み出して出力する音声合
成手段と、音声合成手段が出力する音声波形データを、
合成音声として順次出力する音声出力手段とを備える。

【００１０】上記のように、第１の発明によれば、テキ
ストデータを言語処理手段でそれぞれ解析し、音声出力
手段での各テキストの読み上げに同期して、対応する画
像データを順次切り替えて、画像表示手段に表示する。
これにより、発表者に対し、発表時において必要な手動
操作を課すことがなくなるだけでなく、発表者が居なく
ても自動的にプレゼンテーションを行うことが可能とな
る。

【００１１】第２の発明は、第１の発明に従属する発明
であって、テキストデータの読み上げを開始してから終
了するまでの所要時間（以下、必要読み上げ時間とい
う）を設定する読み上げ時間設定手段をさらに備え、言
語処理手段は、読み出したテキストデータを所定の速度
で読み上げたときの読み上げ所要時間（以下、標準読み
上げ時間という）を算出して必要読み上げ時間と比較
し、実際の読み上げに要する時間が、必要読み上げ時間
と一致するように、読み上げ速度を調整した音声情報を
生成することを特徴とする。

【００１２】上記のように、第２の発明によれば、テキ
ストごとに読み上げ時間設定手段に予め設定された必要
読み上げ時間と言語処理手段で解析する標準読み上げ時
間とを比較し、第１の発明において、テキストの読み上
げが必要読み上げ時間に合わせて完了するように、読み
上げ速度を調整した音声情報をそれぞれ生成する。これ
により、第１の発明の効果に加えさらに、読み上げ時間
設定手段に予め設定する時間でテキストの読み上げを確
実に完了することができ、テキストデータの量に左右さ
れず、所望の時間でプレゼンテーションを行うことがで
きる。従って、原稿のテキストデータ作成を簡易にする
ことが可能となる。

【００１３】第３の発明は、第２の発明に従属する発明
であって、言語処理手段は、比較の結果、標準読み上げ
時間が必要読み上げ時間より短い場合は、読み上げ速度
の調整を行わずに音声情報を生成することを特徴とす
る。

【００１４】上記のように、第３の発明によれば、第２
の発明において、必要読み上げ時間が標準読み上げ時間
よりも長い場合は、読み上げ速度の調整を行わない。こ
れにより、必要読み上げ時間の遵守よりも、出力する合
成音声の聞き易さを重視することができる。

【００１５】第４の発明は、Ｎ種類のテキストデータ
（Ｎは、２以上の整数）に基づいて生成されるＮ種類の
合成音声の出力と、当該テキストデータに対応する画像
データの表示とを、自動的に行うプレゼンテーション装
置であって、画像データを入力する画像入力手段と、画
像入力手段が入力した画像データを、複数記憶する画像
データ記憶手段と、音声出力同期手段の指示に従って、
画像データ記憶手段から対応する画像データを順次読み
出して出力する表示制御手段と、表示制御手段が出力す
る画像データを画像表示する画像表示手段と、Ｎ種類の
テキストデータを入力するテキスト入力手段と、テキス
ト入力手段が入力したＮ種類のテキストデータを、対応
する画像データを指示する画像指示情報と共に、各種類
ごとにそれぞれ複数記憶するＮ個のテキストデータ記憶
手段と、音声出力同期手段の指示に従って、Ｎ個のテキ
ストデータ記憶手段から、予め定めた順序に従ってそれ
ぞれのテキストデータを並行して順次読み出し、当該読
み出したテキストデータを解析して音声情報をそれぞれ
生成するＮ個の言語処理手段と、Ｎ個の言語処理手段が
それぞれ生成した音声情報の出力がすべて完了した時点
で、Ｎ個の言語処理手段に対し次の処理の開始を指示す
ると共に、当該指示に同期して、予め定められた順序に
従って、次の画像に関する画像指示情報を表示制御手段
に出力する音声出力同期手段と、音声を合成するための
異なる音声波形データをそれぞれ複数記憶するＮ個の音
声データ記憶手段と、Ｎ個の言語処理手段が生成した音
声情報にそれぞれ基づいて、Ｎ個の音声データ記憶手段
から対応する音声波形データを順次読み出してそれぞれ
出力するＮ個の音声合成手段と、Ｎ個の音声合成手段が
出力する音声波形データを、合成音声としてそれぞれ順
次出力するＮ個の音声出力手段とを備える。

【００１６】上記のように、第４の発明によれば、画像
データ記憶手段に記憶されている画像データの各々に対
し、複数のテキストデータを有しており、この複数のテ
キストデータを各言語処理手段でそれぞれ解析し、各音
声出力手段での各テキストの同時読み上げに同期して、
対応する画像データを順次切り替えて、画像表示手段に
表示する。これにより、発表者に対し、発表時において
必要な手動操作を課すことがなくなるだけでなく、発表
者が居なくても自動的にプレゼンテーションを行うこと
が可能となると共に、１つの画像データを表示しなが
ら、複数の言語で同時にプレゼンテーションを行うこと
ができる。

【００１７】第５の発明は、第４の発明に従属する発明
であって、音声出力同期手段には、Ｎ種類のテキストデ
ータの必要読み上げ時間が各々予め設定されており、Ｎ
個の言語処理手段は、それぞれ、並行して読み出された
Ｎ個のテキストデータの各標準読み上げ時間を算出して
必要読み上げ時間と比較し、実際の読み上げに要する時
間が、必要読み上げ時間と一致するように、読み上げ速
度を調整した音声情報を生成することを特徴とする。

【００１８】上記のように、第５の発明によれば、各テ
キストごとに読み上げ時間設定手段に予め設定された必
要読み上げ時間と言語処理手段で解析する標準読み上げ
時間とをそれぞれ比較し、第４の発明において、各テキ
ストの読み上げが必要読み上げ時間に合わせて完了する
ように、読み上げ速度を調整した音声情報をそれぞれ生
成する。これにより、第４の発明の効果に加えさらに、
読み上げ時間設定手段に予め設定する時間で各テキスト
の読み上げを確実に完了することができ、各テキストデ
ータの量に左右されず、所望の時間でプレゼンテーショ
ンを行うことができる。従って、原稿のテキストデータ
作成を簡易にすることが可能となる。

【００１９】第６の発明は、第５の発明に従属する発明
であって、Ｎ個の言語処理手段は、それぞれ、比較の結
果、標準読み上げ時間が必要読み上げ時間より短い場合
は、読み上げ速度の調整を行わずに音声情報を生成する
ことを特徴とする。

【００２０】上記のように、第６の発明によれば、第５
の発明において、必要読み上げ時間が標準読み上げ時間
よりも長い場合は、読み上げ速度の調整を行わない。こ
れにより、必要読み上げ時間の遵守よりも、出力する合
成音声の聞き易さを重視することができる。

【００２１】第７の発明は、第１〜第６の発明に従属す
る発明であって、テキストデータに、テキストの所定の
箇所で読み上げを一定時間停止するための読み上げ停止
情報が付加されている場合、言語処理手段は、テキスト
データの解析によって読み上げ停止情報を検出し、所定
の箇所でテキストの読み上げを一定時間だけ停止する情
報を含んだ音声情報を生成することを特徴とする。

【００２２】上記のように、第７の発明によれば、第１
〜第６の発明において、テキストデータに付加される読
み上げ停止情報に従って、所定の箇所でテキストの読み
上げを一定時間だけ停止する。これにより、テキストを
連続的に読み上げるだけでなく、必要に応じて一定時間
読み上げを停止することができ、より自然なテキスト読
み上げが可能となる。

【００２３】第８の発明は、第１〜第７の発明に従属す
る発明であって、音声データ記憶手段には、複数の音質
の音声波形データがさらに記憶されており、テキストデ
ータに、テキストの所定の箇所で音声の音質を変更する
音質変更情報が付加されている場合、言語処理手段は、
テキストデータの解析によって音質変更情報を検出し、
所定の箇所で音質変更を指示する情報を含んだ音声情報
を生成し、音声合成手段は、音声情報に含まれる音質変
更を指示する情報に基づいて、所定の箇所で音声データ
記憶手段から読み出す音声波形データを選択的に切り替
えることを特徴とする。

【００２４】上記のように、第８の発明によれば、第１
〜第７の発明において、テキストデータに付加される音
質変更情報に従って、所定の箇所で音質の変更を行う。
これにより、１種類の声質だけでなく複数種類の声質で
のテキスト読み上げを行うことができ、例えば、二人で
会話をしながら行う形式のプレゼンテーション等が可能
となる。

【００２５】第９の発明は、第１〜第８の発明に従属す
る発明であって、音声データ記憶手段には、効果音を合
成するための効果音波形データがさらに記憶されてお
り、テキストデータに、テキストの所定の箇所で予め定
められた効果音を発するための効果音情報が付加されて
いる場合、言語処理手段は、テキストデータの解析によ
って効果音情報を検出し、所定の箇所で指定された効果
音を発する指示の情報を含んだ音声情報を生成し、音声
合成手段は、音声情報に含まれる効果音を発する指示の
情報に基づいて、所定の箇所で音声データ記憶手段から
対応する効果音波形データを読み出して出力することを
特徴とする。

【００２６】上記のように、第９の発明によれば、第１
〜第８の発明において、テキストデータに付加される効
果音情報に従って、所定の箇所で効果音を発する。これ
により、テキストを読み上げる際、所定の場所で効果音
を鳴らすことができ、プレゼンテーションの効果を高め
ることができる。

【００２７】第１０の発明は、テキストデータに基づい
て生成される合成音声の出力と、当該テキストデータに
対応する画像データの表示とを、自動的に行うプレゼン
テーション方法であって、画像データを入力して複数記
憶するステップと、テキストデータを入力して複数記憶
するステップと、音声を合成するための音声波形データ
を予め複数記憶するステップと、記憶した複数のテキス
トデータから、予め定めた順序に従ってテキストデータ
を順次読み出すステップと、記憶した複数の画像データ
から、読み出したテキストデータに対応する画像データ
を、当該テキストデータに同期して順次読み出して出力
するステップと、読み出したテキストデータを解析して
音声情報を生成するステップと、音声情報に基づいて、
記憶した複数の音声波形データから、対応する音声波形
データを順次読み出して出力するステップと、出力する
画像データを画像表示するステップと、出力する音声波
形データを合成音声として順次出力するステップとを備
える。

【００２８】上記のように、第１０の発明によれば、テ
キストデータをそれぞれ解析し、各テキストの読み上げ
に同期して、対応する画像データを順次切り替えて表示
する。これにより、発表者に対し、発表時において必要
な手動操作を課すことがなくなるだけでなく、発表者が
居なくても自動的にプレゼンテーションを行うことが可
能となる。

【００２９】第１１の発明は、テキストデータに基づい
て生成される合成音声の出力と、当該テキストデータに
対応する画像データの表示とを、自動的に行うプレゼン
テーション方法を、コンピュータ装置において実行させ
るためのプログラムを記録した媒体であって、画像デー
タを入力して複数記憶するステップと、テキストデータ
を入力して複数記憶するステップと、音声を合成するた
めの音声波形データを予め複数記憶するステップと、記
憶した複数のテキストデータから、予め定めた順序に従
ってテキストデータを順次読み出すステップと、記憶し
た複数の画像データから、読み出したテキストデータに
対応する画像データを、当該テキストデータに同期して
順次読み出して出力するステップと、読み出したテキス
トデータを解析して音声情報を生成するステップと、音
声情報に基づいて、記憶した複数の音声波形データか
ら、対応する音声波形データを順次読み出して出力する
ステップと、出力する画像データを画像表示するステッ
プと、出力する音声波形データを合成音声として順次出
力するステップとを含む動作環境を、コンピュータ装置
上において実現するためのプログラムを記録している。

【００３０】上記のように、第１１の発明は、第１０の
発明のプレゼンテーション方法を実行するためのプログ
ラムを記録した記録媒体である。これは、既存の装置に
対し、第１０の発明のプレゼンテーション方法を、ソフ
トウエアの形態で供給することに対応させたものであ
る。

【００３１】

【発明の実施の形態】以下、本発明の各実施形態につい
て、図面を参照して順に説明する。（第１の実施形態）図１は、本発明の第１の実施形態に
係るプレゼンテーション装置の構成を示すブロック図で
ある。図１において、第１の実施形態に係るプレゼンテ
ーション装置は、画像入力部１０１と、画像データ記憶
部１０２と、画像表示部１０３と、表示制御部１０４
と、テキスト入力部１０５と、テキストデータ記憶部１
０６と、言語処理部１０７と、音声データ記憶部１０８
と、音声出力部１０９と、音声合成部１１０とを備え
る。

【００３２】まず、図１を参照して、第１の実施形態に
係るプレゼンテーション装置の各構成を説明する。画像
入力部１０１は、静止画（イメージ）データ、動画（ビ
デオ）データ、グラフィック（テキストを含むベクトル
グラフィック）データ、または画面を構成するグラフィ
ックデータの一部もしくはすべてを予め定められたスケ
ジュールに従って移動させるグラフィックアニメーショ
ンデータ等を入力し、画像データとして生成・編集して
画像データ記憶部１０２に出力する。この画像入力部１
０１としては、例えば、入力するデータが静止画データ
であればイメージスキャナ、動画データであればビデオ
キャプチャ装置、グラフィックデータであればグラフィ
ックデータを作成するためのグラフィック作成ツール、
グラフィックアニメーションデータであればグラフィッ
クアニメーションを作成するためのアニメーション作成
ツール等が相当する。なお、画像入力部１０１は、上述
したように入力するデータから画像データを直接生成・
編集するのではなく、フロッピーディスクドライブ等の
ファイル入力装置を用い、別の編集装置で作成済みの画
像データをファイルとして読み込むようにしてもよい。
この画像入力部１０１が出力する画像データとしては、
静止画，動画，グラフィック，グラフィックアニメーシ
ョン等、画像ごとに異なる種類の画像にしてもよいし、
さらには、１つの画像データの中にこれらを混在させて
含んでいるものであってもよい。

【００３３】画像データ記憶部１０２は、画像入力部１
０１から出力される画像データを記憶する。表示制御部
１０４は、言語処理部１０７の指示（後述する）に従っ
て、画像データ記憶部１０２から対応する画像データを
順次読み出し、画像表示部１０３に出力する。画像表示
部１０３は、画像データを画面上に表示するディスプレ
イ装置であって、例えば、ＣＲＴやプロジェクター等で
ある。

【００３４】テキスト入力部１０５は、例えば、キーボ
ード装置等であり、テキストデータを入力してテキスト
データ記憶部１０６に出力する。なお、テキスト入力部
１０５は、フロッピーディスクドライブ等のファイル入
力装置を用い、別の編集装置で作成済みのテキストデー
タをファイルとして読み込むようにしてもよい。テキス
トデータ記憶部１０６は、テキスト入力部１０５から出
力されるテキストデータを記憶する。ここで、テキスト
データ記憶部１０６は、プレゼンテーションの場面構成
に合わせてテキストデータを複数のブロック（以下、テ
キストブロックと呼ぶ）に分割し、各テキストブロック
を順序付けて、すなわち、画像データと対応させて記憶
および管理する。

【００３５】言語処理部１０７は、テキストデータ記憶
部１０６に記憶されているテキストブロックを順次読み
出す。そして、言語処理部１０７は、読み出したテキス
トブロックがどの画像データに対応するかを、表示制御
部１０４に指示する。さらに、言語処理部１０７は、読
み出したテキストブロックの言語解析を行って、このテ
キストブロックのテキスト内容を発音記号などの音声情
報に変換し、音声合成部１１０に順次出力する。なお、
第１の実施形態では、言語処理部１０７は、日本語のテ
キストデータを解析するものとして以下説明を行う。

【００３６】音声データ記憶部１０８には、合成音声を
出力するのに必要な音声（例えば、日本語の発音に必要
な男性の声や女性の声）の波形データや、（識別番号で
区別される）効果音の波形データ等が格納されている。
音声合成部１１０は、言語処理部１０７が順次出力する
音声情報に基づいて、その音声を発音するのに必要な波
形データを、音声データ記憶部１０８からそれぞれ読み
出し、これらを順次音声出力部１０９に出力する。音声
出力部１０９は、例えば、スピーカ装置等であって、音
声合成部１１０が出力する波形データに従って、合成音
声を出力する。

【００３７】次に、上記構成による第１の実施形態に係
るプレゼンテーション装置が行う動作（プレゼンテーシ
ョン方法）を、図２および図３をさらに参照して、具体
例を挙げて説明する。図２は、プレゼンテーションに用
いる画像と、各画像が表示されたときに読み上げられる
テキストブロックの一例を示す図である。図２におい
て、テキストブロックＴＢ２１〜ＴＢ２３は、それぞれ
画像ＳＣ２１〜ＳＣ２３が表示されたときに読み上げら
れるテキストブロック単位のテキストデータである。ま
た、図２のテキストブロックＴＢ２１の中にある“＜Ｓ
ＯＵＮＤ１５＞”は、効果音情報であり、この効果音
情報がある箇所で識別番号“１５”の効果音を鳴らすこ
とを表している。また、図２のテキストブロックＴＢ２
２の中にある“＜ＰＡＵＳＥ５＞”および“＜ＰＡＵ
ＳＥ１０＞”は、読み上げ停止情報であり、それぞれ
テキストの読み上げを５秒および１０秒間停止する（無
音状態にする）ことを表している。さらに、図２のテキ
ストブロックＴＢ２３の中にある“＜ＦＥＭＡＬＥ＞”
および“＜ＭＡＬＥ＞”は、音質変更情報であり、以降
のテキストをそれぞれ女性の声および男性の声で出力す
ることを表している。なお、以下の説明においては、初
期状態として男性の声の波形データを用いて合成音声を
出力している。図３は、図１の言語処理部１０７が出力
する音声情報の一例を示す図である。

【００３８】まず、プレゼンテーションの準備として、
画像ＳＣ２１〜ＳＣ２３に対応する画像データが、画像
入力部１０１を介して、画像データ記憶部１０２にそれ
ぞれ記憶されている。また、テキストブロックＴＢ２１
〜ＴＢ２３が、テキスト入力部１０５を介して、ＴＢ２
１，ＴＢ２２，ＴＢ２３の順にテキストデータ記憶部１
０６にそれぞれ記憶されている。

【００３９】プレゼンテーションを開始すると、言語処
理部１０７は、最初のテキストブロックＴＢ２１をテキ
ストデータ記憶部１０６から読み出して、表示制御部１
０４に対し、テキストブロックＴＢ２１に対応する画像
ＳＣ２１を画面表示するように画像データ切り替えの指
示を行う。この指示を受けて、表示制御部１０４は、画
像データ記憶部１０２から最初の画像ＳＣ２１に関する
画像データを読み出して、画像表示部１０３に出力す
る。これにより、画像表示部１０３に画像ＳＣ２１が表
示される。

【００４０】次に、言語処理部１０７は、テキストブロ
ックＴＢ２１のデータ「営業部営業３課の○○でござい
ます。これより、２０００年の…」を解析し、図３
（ａ）に示すような音声情報「ｅｉｇｙｏｏｂｕ，ｅｉ
ｇｙｏｏｓａｎｋａ…」に変換して、音声合成部１１０
に出力する。なお、図３において、各々の１マスは、１
つの音節データになっており、「，」は読み上げ中に間
をおくことを表している。具体的には、「，」によって
予め定められた時間だけ、音声合成部１１０の出力が停
止し、音声出力部１０９からの出力が無音になる。そし
て、音声合成部１１０は、言語処理部１０７が出力する
音声情報に従って、図３（ａ）に示す各音節の発音に必
要な男性の音声の波形データ（この例においては、初期
状態で男性の声を発音するようにしているため）を、音
声データ記憶部１０８から逐次読み出し、音声出力部１
０９に出力する。これにより、音声出力部１０９から、
男性の声でテキストブロックＴＢ２１の「営業部営業３
課…」の内容を読み上げた合成音声が出力される。

【００４１】続けてデータ解析を進めて行き、テキスト
ブロックＴＢ２１中に付加されている効果音情報“＜Ｓ
ＯＵＮＤ１５＞”を検出すると、言語処理部１０７
は、通常の音声情報の代わりに図３（ｂ）に示すような
特殊な音声情報「＃Ｓ１５」を、音声合成部１１０に出
力する。図３（ｂ）において、「＃Ｓ」はこれが効果音
出力を指示する特殊な音声情報であることを表し、「１
５」は効果音の識別番号を表している。そして、音声合
成部１１０は、この特殊な音声情報に対し、音声データ
記憶部１０８から識別番号“１５”に対応する効果音の
波形データを読み出し、これを音声出力部１０９に出力
する。これにより、音声出力部１０９から、識別番号
“１５”の効果音が出力される（鳴らされる）。この効
果音の出力が終わると、言語処理部１０７は、引き続き
以降のテキストブロックＴＢ２１のデータ解析を行う。

【００４２】このようにして、テキストブロックＴＢ２
１すべてのデータ解析、すなわち、すべての内容の読み
上げが終了すると、言語処理部１０７は、次のテキスト
ブロックＴＢ２２をテキストデータ記憶部１０６から読
み出して、表示制御部１０４に対し、テキストブロック
ＴＢ２２に対応する画像ＳＣ２２を画面表示するように
画像データ切り替えの指示を行う。この指示を受けて、
表示制御部１０４は、画像データ記憶部１０２から次の
画像ＳＣ２２に関する画像データを読み出して、画像表
示部１０３に出力する。これにより、画像表示部１０３
に画像ＳＣ２２が表示される。

【００４３】次に、言語処理部１０７は、テキストブロ
ックＴＢ２２のデータを解析する。ここで、上述したテ
キストブロックＴＢ２１の処理では、言語処理部１０７
は、テキストブロックＴＢ２１のデータを解析し、即座
に音声情報を音声合成部１１０に出力したので、画像Ｓ
Ｃ２１が画像表示部１０３に表示されると、すぐにテキ
ストブロックＴＢ２１の読み上げ音声が音声出力部１０
９から出力された。これに対し、テキストブロックＴＢ
２２の先頭には、読み上げ停止情報“＜ＰＡＵＳＥ５
＞”が存在するので、言語処理部１０７は、上述したテ
キストブロックＴＢ２１の処理の場合とは異なり、まず
無音を表す音声情報を出力し、この後５秒間待ってから
通常の音声情報を音声合成部１１０に出力し始める。従
って、画像表示部１０３に画像ＳＣ２２が表示された
後、５秒経ってから以降のデータ「まず、最初に１９９
９年度の…」の読み上げ音声が音声出力部１０９から出
力される。

【００４４】なお、この例のテキストブロックＴＢ２２
には、先頭だけでなく途中にも読み上げ停止情報“＜Ｐ
ＡＵＳＥ１０＞”が含まれているので、「…以上が販
売の実績です。」の読み上げが終わった後、１０秒間音
声の出力が停止して無音状態となり、その後「これに対
して、利益は…」の読み上げが再開する。なお、テキス
トブロックＴＢ２２の読み上げについても、テキストブ
ロックＴＢ２１と同様、男性の声で発音される。

【００４５】このようにして、テキストブロックＴＢ２
２すべてのデータ解析、すなわち、すべての内容の読み
上げが終了すると、言語処理部１０７は、次のテキスト
ブロックＴＢ２３をテキストデータ記憶部１０６から読
み出して、表示制御部１０４に対し、テキストブロック
ＴＢ２３に対応する画像ＳＣ２３を画面表示するように
画像データ切り替えの指示を行う。この指示を受けて、
表示制御部１０４は、画像データ記憶部１０２から次の
画像ＳＣ２３に関する画像データを読み出して、画像表
示部１０３に出力する。これにより、画像表示部１０３
に画像ＳＣ２３が表示される。

【００４６】次に、言語処理部１０７は、テキストブロ
ックＴＢ２３のデータを解析する。ここで、上述したテ
キストブロックＴＢ２１，ＴＢ２２の処理では、特に音
質の指定がなかったので、音声合成部１１０は、初期状
態のまま男性の声で音声を合成していた。これに対し、
テキストブロックＴＢ２３の先頭には、音質変更情報
“＜ＦＥＭＡＬＥ＞”が存在するので、言語処理部１０
７は、まず図３（ｃ）に示すような女性の声への音質変
更の音声情報「＃Ｆ」を、音声合成部１１０に出力す
る。次に、言語処理部１０７は、テキストブロックＴＢ
２３のデータ「次に、２０００年度の目標について…」
を解析し、図３（ｃ）に示すような音声情報「ｔｓｕｇ
ｉｎｉ，ｎｉｓｅｎｎｅｎｄｏｎｏ…」に変換して、音
質変更の音声情報「＃Ｆ」に続いて音声合成部１１０に
出力する。そして、音声合成部１１０は、まず言語処理
部１０７が出力する音質変更の音声情報「＃Ｆ」に従っ
て、音声データ記憶部１０８から読み出す波形データの
対象を、女性の声の発音に必要な音声の波形データに変
更する。そして、音声合成部１１０は、図３（ｃ）に示
す各音節の発音に必要な女性の声の波形データを、音声
データ記憶部１０８から逐次読み出し、音声出力部１０
９に出力する。なお、音声合成部１１０は、この音質変
更の指示内容を、次の新たな音質変更の指示があるまで
維持する。これにより、データ「次に、２０００年度の
目標について…」以降は、音声出力部１０９から、女性
の声でテキストブロックＴＢ２３の内容を読み上げた合
成音声が出力される。

【００４７】同様に、言語処理部１０７は、テキストブ
ロックＴＢ２３に存在する音質変更情報“＜ＭＡＬＥ
＞”に従って、まず図３（ｄ）に示すような男性の声へ
の音質変更の音声情報「＃Ｍ」を、続いて音声情報「ｔ
ｓｕｚｕｋｉｍａｓｉｔｅ…」を、音声合成部１１０に
出力する。そして、音声合成部１１０は、まず言語処理
部１０７が出力する音質変更の音声情報「＃Ｍ」に従っ
て、音声データ記憶部１０８から読み出す波形データの
対象を、男性の声の発音に必要な音声の波形データに再
変更する。そして、音声合成部１１０は、図３（ｄ）に
示す各音節の発音に必要な男性の声の波形データを、音
声データ記憶部１０８から逐次読み出し、音声出力部１
０９に出力する。これにより、データ「続きまして…」
以降は、音声出力部１０９から、男性の声でテキストブ
ロックＴＢ２３の内容を読み上げた合成音声が出力され
る。

【００４８】以上のように、本発明の第１の実施形態に
係るプレゼンテーション装置によれば、テキストブロッ
クのデータを言語処理部１０７でそれぞれ解析し、音声
出力部１０９での各テキストの読み上げに同期して、対
応する画像データを順次切り替えて、画像表示部１０３
に表示する。これにより、発表者に対し、発表時におい
て必要な手動操作を課すことがなくなるだけでなく、発
表者が居なくても自動的にプレゼンテーションを行うこ
とが可能となる。また、テキストデータに効果音情報を
付加することで、テキストを読み上げる際、所定の場所
で効果音を鳴らすことができ、プレゼンテーションの効
果を高めることができる。また、テキストデータに読み
上げ停止情報を付加することで、テキストを連続的に読
み上げるだけでなく、必要に応じて一定時間読み上げを
停止することができ、より自然なテキスト読み上げが可
能となる。さらに、テキストデータに音質変更情報を付
加することで、１種類の声質だけでなく複数種類の声質
でのテキスト読み上げを行うことができ、例えば、二人
で会話をしながら行う形式のプレゼンテーション等が可
能となる。

【００４９】なお、上記第１の実施形態では、言語処理
部１０７が出力する音声情報として、ローマ字で表現し
た情報を一例に挙げて説明したが、これ以外にも発音記
号や同等の情報を符号化した情報であってもよい。ま
た、上記第１の実施形態では、読み上げ停止情報や音質
変更情報を、テキストブロックのテキストの途中に埋め
込んだ場合を一例に挙げて説明したが、これ以外にも、
例えば、埋め込むべき場所を指したポインタ情報と共
に、テキストの先頭や末尾に一括して記述したり、別フ
ァイルに格納する等してもよい。また、上記第１の実施
形態で述べた効果音情報、読み上げ停止情報および音質
変更情報等は、１つのテキストブロックの中で混在して
もよく、またそれぞれ複数あっても構わない。さらに、
上記第１の実施形態では、音質の種類が、男性の声と女
性の声との２種類である場合を一例に挙げて説明した
が、これ以外にも、例えば、高い声と低い声等というよ
うに複数の男性の声または複数の女性の声の波形データ
を音声データ記憶部１０８に記憶しておき、それらを適
宜切り替えて使用してもよい。なお、この場合、音質変
更情報の種類が音質の種類の数だけ必要になることは、
言うまでもない。

【００５０】（第２の実施形態）図４は、本発明の第２
の実施形態に係るプレゼンテーション装置の構成を示す
ブロック図である。図４において、第２の実施形態に係
るプレゼンテーション装置は、画像入力部１０１と、画
像データ記憶部１０２と、画像表示部１０３と、表示制
御部１０４と、テキスト入力部１０５と、テキストデー
タ記憶部１０６と、言語処理部４０７と、音声データ記
憶部１０８と、音声出力部１０９と、音声合成部１１０
と、読み上げ時間設定部４１１とを備える。

【００５１】図４に示すように、第２の実施形態に係る
プレゼンテーション装置は、上記第１の実施形態に係る
プレゼンテーション装置の言語処理部１０７を言語処理
部４０７に代え、さらに読み上げ時間設定部４１１を加
えた構成である。なお、第２の実施形態に係るプレゼン
テーション装置の他の構成は、上記第１の実施形態に係
るプレゼンテーション装置と同様であるため、当該他の
構成部分については同一の参照番号を付して説明を省略
する。

【００５２】まず、図４を参照して、第２の実施形態に
係るプレゼンテーション装置の構成を、上記第１の実施
形態に係るプレゼンテーション装置と異なる構成を中心
に説明する。読み上げ時間設定部４１１は、テキストデ
ータ記憶部１０６に記憶されている各テキストブロック
に関し、テキストブロックごとに予め設定された必要な
テキスト読み上げの所要時間（以下、必要読み上げ時間
という）を記憶する。

【００５３】言語処理部４０７は、音声情報を音声合成
部１１０に出力する前に、テキストデータ記憶部１０６
から読み出したテキストブロック全体の解析を行い、テ
キストブロックごとに、標準速度でテキストの読み上げ
を行った際のテキスト読み上げの所要時間（以下、標準
読み上げ時間という）を算出する。そして、言語処理部
４０７は、算出した標準読み上げ時間と読み上げ時間設
定部４１１に記憶されている必要読み上げ時間とを、テ
キストブロックごとに比較する。なお、テキストブロッ
クのデータ中に、上記第１の実施形態で述べた読み上げ
停止情報や効果音情報が付加されている場合には、言語
処理部４０７は、テキストブロック全体の標準読み上げ
時間を算出する際に、その読み上げ停止時間や効果音情
報の再生時間の合計を標準読み上げ時間に加えることを
行う。

【００５４】そして、言語処理部４０７は、音声合成部
１１０への音声情報の出力速度を、必要読み上げ時間が
標準読み上げ時間より短ければ標準速度より速く、必要
読み上げ時間が標準読み上げ時間より長ければ標準速度
より遅くして、読み上げ時間設定部４１１に予め設定さ
れている必要読み上げ時間に合わせてテキストの読み上
げが完了するように制御する。なお、読み上げ時間設定
部４１１に必要読み上げ時間が予め設定されていないテ
キストブロックに関しては、言語処理部４０７は、音声
合成部１１０に対して標準速度で音声情報を出力する。

【００５５】次に、上記構成による第２の実施形態に係
るプレゼンテーション装置が行う動作（プレゼンテーシ
ョン方法）を、図５および図６をさらに参照して、具体
例を挙げて説明する。図５は、プレゼンテーションに用
いる画像と、各画像が表示されたときに読み上げられる
テキストブロックの一例を示す図である。図５におい
て、テキストブロックＴＢ５１〜ＴＢ５３は、それぞれ
画像ＳＣ５１〜ＳＣ５３が表示されたときに読み上げら
れるテキストブロック単位のテキストデータである。図
６は、図４の読み上げ時間設定部４１１に予め設定され
ている各テキストブロックごとの必要読み上げ時間の一
例を示す図である。図６においては、テキストブロック
ＴＢ５１を「１６８秒」で、テキストブロックＴＢ５３
を「２４３秒」で読み上げるように設定されており、テ
キストブロックＴＢ５２については、何も設定されてい
ない。なお、図６における欄外のカッコ書きで示す数値
は、言語処理部４０７が解析した各テキストブロックＴ
Ｂ５１〜ＴＢ５３についての標準読み上げ時間をそれぞ
れ示している。

【００５６】まず、プレゼンテーションの準備として、
上記第１の実施形態と同様に、画像ＳＣ５１〜ＳＣ５３
に対応する画像データが、画像入力部１０１を介して、
画像データ記憶部１０２にそれぞれ記憶されている。ま
た、テキストブロックＴＢ５１〜ＴＢ５３が、テキスト
入力部１０５を介して、ＴＢ５１，ＴＢ５２，ＴＢ５３
の順にテキストデータ記憶部１０６にそれぞれ記憶され
ている。また、読み上げ時間設定部４１１には、図６に
示す各必要読み上げ時間が予め設定されている。

【００５７】プレゼンテーションを開始すると、言語処
理部４０７は、最初のテキストブロックＴＢ５１をテキ
ストデータ記憶部１０６から読み出して、表示制御部１
０４に対し、テキストブロックＴＢ５１に対応する画像
ＳＣ５１を画面表示するように画像データ切り替えの指
示を行う。この指示を受けて、表示制御部１０４は、画
像データ記憶部１０２から最初の画像ＳＣ５１に関する
画像データを読み出して、画像表示部１０３に出力す
る。これにより、画像表示部１０３に画像ＳＣ５１が表
示される。

【００５８】次に、言語処理部４０７は、テキストブロ
ックＴＢ５１全体のデータを解析して、標準読み上げ時
間（図６の例では「１６０秒」）を算出し、読み上げ時
間設定部４１１に設定されているテキストブロックＴＢ
５１の必要読み上げ時間と比較する。図６に示すよう
に、テキストブロックＴＢ５１の必要読み上げ時間は
「１６８秒」であり、標準読み上げ時間「１６０秒」に
比べて５％長いので、言語処理部４０７は、音声合成部
１１０に対する音声情報の出力速度を５％遅くする処理
を行う。そして、音声情報の出力速度を決定した後、言
語処理部４０７は、上記第１の実施形態で述べた言語処
理部１０７と同様にデータ解析を行い、得た音声情報を
音声合成部１１０に順次出力する。これにより、テキス
トブロックＴＢ５１についてのテキスト読み上げは、読
み上げ時間設定部４１１に設定された「１６８秒」で完
了するように行われる。

【００５９】このようにして、テキストブロックＴＢ５
１すべてのデータ解析、すなわち、すべての内容の読み
上げが終了すると、言語処理部４０７は、次のテキスト
ブロックＴＢ５２をテキストデータ記憶部１０６から読
み出して、表示制御部１０４に対し、テキストブロック
ＴＢ５２に対応する画像ＳＣ５２を画面表示するように
画像データ切り替えの指示を行う。この指示を受けて、
表示制御部１０４は、画像データ記憶部１０２から次の
画像ＳＣ５２に関する画像データを読み出して、画像表
示部１０３に出力する。これにより、画像表示部１０３
に画像ＳＣ５２が表示される。

【００６０】次に、言語処理部４０７は、テキストブロ
ックＴＢ５２全体のデータを解析する。ここで、図６に
示すように、読み上げ時間設定部４１１にはテキストブ
ロックＴＢ５２についての必要読み上げ時間が設定され
ていないので、言語処理部４０７は、テキストブロック
ＴＢ５２のテキストデータについては、データ解析して
得た音声情報を標準速度で音声合成部１１０に出力す
る。これにより、テキストブロックＴＢ５２についての
テキスト読み上げは、標準読み上げ時間の「２６０秒」
で完了するように行われる。

【００６１】このようにして、テキストブロックＴＢ５
２すべてのデータ解析、すなわち、すべての内容の読み
上げが終了すると、言語処理部４０７は、次のテキスト
ブロックＴＢ５３をテキストデータ記憶部１０６から読
み出して、表示制御部１０４に対し、テキストブロック
ＴＢ５３に対応する画像ＳＣ５３を画面表示するように
画像データ切り替えの指示を行う。この指示を受けて、
表示制御部１０４は、画像データ記憶部１０２から次の
画像ＳＣ５３に関する画像データを読み出して、画像表
示部１０３に出力する。これにより、画像表示部１０３
に画像ＳＣ５３が表示される。

【００６２】次に、言語処理部４０７は、テキストブロ
ックＴＢ５３全体のデータを解析して、標準読み上げ時
間（図６の例では「２７０秒」）を算出し、読み上げ時
間設定部４１１に設定されているテキストブロックＴＢ
５３の必要読み上げ時間と比較する。図６に示すよう
に、テキストブロックＴＢ５３の必要読み上げ時間は
「２４３秒」であり、標準読み上げ時間「２７０秒」に
比べて１０％短いので、言語処理部４０７は、音声合成
部１１０に対する音声情報の出力速度を１０％速くする
処理を行う。そして、音声情報の出力速度を決定した
後、言語処理部４０７は、上記第１の実施形態で述べた
言語処理部１０７と同様にデータ解析を行い、得た音声
情報を音声合成部１１０に順次出力する。これにより、
テキストブロックＴＢ５３についてのテキスト読み上げ
は、読み上げ時間設定部４１１に設定された「２４３
秒」で完了するように行われる。

【００６３】以上のように、本発明の第２の実施形態に
係るプレゼンテーション装置によれば、上記第１の実施
形態で述べた処理に加え、テキストブロックごとに、読
み上げ時間設定部４１１に予め設定された必要読み上げ
時間と言語処理部４０７で解析する標準読み上げ時間と
を比較し、テキストの読み上げが必要読み上げ時間に合
わせて完了するように、音声合成部１１０への音声情報
の出力速度をそれぞれ変化させる。これにより、上記第
１の実施形態の効果に加えさらに、読み上げ時間設定部
４１１に予め設定する時間でテキストの読み上げを確実
に完了することができ、テキストデータの量に左右され
ず、所望の時間でプレゼンテーションを行うことができ
る。従って、原稿のテキストデータ作成を簡易にするこ
とが可能となる。

【００６４】なお、上記第２の実施形態において、言語
処理部４０７は、必要読み上げ時間の方が標準読み上げ
時間より長い場合、必要読み上げ時間に合わせてテキス
トの読み上げが完了するように、音声合成部１１０への
音声情報の出力速度を変化させる制御を行うように記載
したが、この制御以外にも、出力速度は標準速度のまま
で、テキスト読み上げが終了してから必要読み上げ時間
に達するまでの時間を無音にする制御を行ってもよい。
また、言語処理部４０７は、必要読み上げ時間に合わせ
てテキストの読み上げが必ず完了するように、音声合成
部１１０への音声情報の出力速度を変化させる制御を行
うように記載したが、予め出力速度の上限または下限の
しきい値を設定すると共に、必要読み上げ時間を設定す
る際に前もって該当するテキストブロックの標準読み上
げ時間を算出し、必要読み上げ時間と標準読み上げ時間
とを比較して、比較結果がこのしきい値を越える場合に
は、必要読み上げ時間の設定を受け付けないようにして
もよい。例えば、速度変化を２０％まで許容するように
設定した場合、標準読み上げ時間が「１２０秒」である
テキストブロックに対しては、「９６秒」より短い時間
または「１４４秒」より長い必要読み上げ時間を設定で
きないようにしてもよい。さらに、言語処理部４０７
は、必要読み上げ時間に合わせてテキストの読み上げが
完了するように、音声合成部１１０への音声情報の出力
速度を変化させる制御を行うように記載したが、この制
御以外にも、無音部分を適宜挿入することによって、結
果的に読み上げ時間が長くなるように制御したり、逆
に、音声を聞き取りやすくするために挿入されている無
音部分（間の部分）を削除または短くすることによっ
て、結果的に読み上げ時間が短くなるように制御しても
よい。

【００６５】（第３の実施形態）図７は、本発明の第３
の実施形態に係るプレゼンテーション装置の構成を示す
ブロック図である。図７において、第３の実施形態に係
るプレゼンテーション装置は、画像入力部１０１と、画
像データ記憶部１０２と、画像表示部１０３と、表示制
御部７１４と、テキスト入力部７０５と、音声出力同期
部７１２と、日本語テキストデータ記憶部７１６と、日
本語言語処理部７１７と、日本語音声データ記憶部７１
８と、日本語音声出力部７１９と、日本語音声合成部７
２０と、英語テキストデータ記憶部７２６と、英語言語
処理部７２７と、英語音声データ記憶部７２８と、英語
音声出力部７２９と、英語音声合成部７３０とを備え
る。

【００６６】なお、第３の実施形態に係るプレゼンテー
ション装置における画像入力部１０１、画像データ記憶
部１０２および画像表示部１０３は、それぞれ上記第１
の実施形態に係るプレゼンテーション装置の各構成と同
様であるため、同一の参照番号を付している。以下、こ
れらの構成については、説明を省略する。

【００６７】まず、図７を参照して、第３の実施形態に
係るプレゼンテーション装置の構成を、上記第１の実施
形態に係るプレゼンテーション装置と異なる構成を中心
に説明する。表示制御部７１４は、音声出力同期部７１
２の指示（後述する）に従って、画像データ記憶部１０
２から対応する画像データを順次読み出し、画像表示部
１０３に出力する。

【００６８】テキスト入力部７０５は、例えば、キーボ
ード装置等であり、日本語および英語のテキストデータ
を入力して、日本語テキストデータ記憶部７１６および
英語テキストデータ記憶部７２６に出力する。なお、テ
キスト入力部７０５は、フロッピーディスクドライブ等
のファイル入力装置を用い、別の編集装置で作成済みの
テキストデータをファイルとして読み込むようにしても
よい。日本語テキストデータ記憶部７１６は、テキスト
入力部７０５から出力される日本語テキストデータを記
憶する。ここで、日本語テキストデータ記憶部７１６
は、プレゼンテーションの場面構成に合わせて日本語テ
キストデータを複数のテキストブロックに分割し、各テ
キストブロックを順序付けて、すなわち、画像データと
対応させて記憶および管理する。英語テキストデータ記
憶部７２６は、テキスト入力部７０５から出力される英
語テキストデータを記憶する。ここで、英語テキストデ
ータ記憶部７２６は、プレゼンテーションの場面構成に
合わせて英語テキストデータを複数のテキストブロック
に分割し、各テキストブロックを順序付けて、すなわ
ち、画像データと対応させて記憶および管理する。

【００６９】日本語言語処理部７１７は、日本語テキス
トデータ記憶部７１６に記憶されているテキストブロッ
クを順次読み出し、読み出したテキストブロックの日本
語の言語解析を行って、このテキストブロックのテキス
トの内容を発音記号などの音声情報に変換し、日本語音
声合成部７２０に順次出力する。また、日本語言語処理
部７１７は、１つのテキストブロックの読み上げが終了
すると、音声出力同期部７１２にその旨を通知する。日
本語音声データ記憶部７１８には、日本語の合成音声を
出力するのに必要な音声（例えば、日本語の発音に必要
な男性の声や女性の声）の波形データや、（識別番号で
区別される）効果音の波形データ等が格納されている。
日本語音声合成部７２０は、日本語言語処理部７１７が
順次出力する音声情報に基づいて、その音声を発音する
のに必要な波形データを、日本語音声データ記憶部７１
８からそれぞれ読み出し、これらを順次日本語音声出力
部７１９に出力する。日本語音声出力部７１９は、例え
ば、ヘッドホンやイヤホン等であって、日本語音声合成
部７２０が出力する波形データに従って、日本語の合成
音声を出力する。なお、日本語音声出力部７１９が出力
する日本語の合成音声は、後述する英語音声出力部７２
９が出力する英語の合成音声とは、別個独立に出力され
る。

【００７０】同様に、英語言語処理部７２７は、英語テ
キストデータ記憶部７２６に記憶されているテキストブ
ロックを順次読み出し、読み出したテキストブロックの
英語の言語解析を行って、このテキストブロックのテキ
ストの内容を発音記号などの音声情報に変換し、英語音
声合成部７３０に順次出力する。また、英語言語処理部
７２７は、１つのテキストブロックの読み上げが終了す
ると、音声出力同期部７１２にその旨を通知する。英語
音声データ記憶部７２８には、英語の合成音声を出力す
るのに必要な音声（例えば、英語の発音に必要な男性の
声や女性の声）の波形データや、（識別番号で区別され
る）効果音の波形データ等が格納されている。英語音声
合成部７３０は、英語言語処理部７２７が順次出力する
音声情報に基づいて、その音声を発音するのに必要な波
形データを、英語音声データ記憶部７２８からそれぞれ
読み出し、これを順次英語音声出力部７２９に出力す
る。英語音声出力部７２９は、例えば、ヘッドホンや、
イヤホン等であって、英語音声合成部７３０が出力する
波形データに従って、英語の合成音声を出力する。な
お、英語音声出力部７２９が出力する英語の合成音声
は、上述した日本語音声出力部７１９が出力する日本語
の合成音声とは、別個独立に出力される。

【００７１】音声出力同期部７１２は、日本語言語処理
部７１７および英語言語処理部７２７が出力するテキス
トブロック読み上げの終了通知を待つ。そして、音声出
力同期部７１２は、日本語言語処理部７１７および英語
言語処理部７２７の双方からテキストブロック読み上げ
の終了通知を受け取った時点で、表示制御部７１４に対
し次の画像データを表示するように指示すると共に、日
本語言語処理部７１７および英語言語処理部７２７に、
それぞれ次のテキストブロックの解析処理を開始するよ
うに指示する。

【００７２】次に、上記構成による第３の実施形態に係
るプレゼンテーション装置が行う動作（プレゼンテーシ
ョン方法）を、図８をさらに参照して、具体例を挙げて
説明する。図８は、プレゼンテーションに用いる画像
と、各画像が表示されたときに読み上げられるテキスト
ブロックの一例を示す図である。図８において、日本語
テキストブロックＪＴＢ８１〜ＪＴＢ８３は、それぞれ
画像ＳＣ８１〜ＳＣ８３が表示されたときに読み上げら
れるテキストブロック単位の日本語テキストデータであ
り、英語テキストブロックＥＴＢ８１〜ＥＴＢ８３は、
それぞれ画像ＳＣ８１〜ＳＣ８３が表示されたときに読
み上げられるテキストブロック単位の英語テキストデー
タである。

【００７３】まず、プレゼンテーションの準備として、
画像ＳＣ８１〜ＳＣ８３に対応する画像データが、画像
入力部１０１を介して、画像データ記憶部１０２にそれ
ぞれ記憶されている。また、日本語テキストブロックＪ
ＴＢ８１〜ＪＴＢ８３が、テキスト入力部７０５を介し
て、ＪＴＢ８１，ＪＴＢ８２，ＪＴＢ８３の順に日本語
テキストデータ記憶部７１６に、英語テキストブロック
ＥＴＢ８１〜ＥＴＢ８３が、テキスト入力部７０５を介
して、ＥＴＢ８１，ＥＴＢ８２，ＥＴＢ８３の順に英語
テキストデータ記憶部７２６に、それぞれ記憶されてい
る。

【００７４】プレゼンテーションを開始すると、音声出
力同期部７１２は、表示制御部７１４に対し、日本語テ
キストブロックＪＴＢ８１および英語テキストブロック
ＥＴＢ８１に対応する画像ＳＣ８１を画面表示するよう
に画像データ切り替えの指示を行う。この指示を受け
て、表示制御部７１４は、画像データ記憶部１０２から
最初の画像ＳＣ８１に関する画像データを読み出して、
画像表示部１０３に出力する。これにより、画像表示部
１０３に画像ＳＣ８１が表示される。続いて、音声出力
同期部７１２は、日本語言語処理部７１７および英語言
語処理部７２７に、言語解析処理の開始を指示する。

【００７５】上記音声出力同期部７１２の指示に従っ
て、日本語言語処理部７１７は、日本語テキストデータ
記憶部７１６から最初の日本語テキストブロックＪＴＢ
８１を読み出し、言語解析を行って、日本語テキストブ
ロックＪＴＢ８１のテキストを読み上げるための音声情
報を日本語音声合成部７２０に出力する。そして、日本
語音声合成部７２０は、この音声情報に基づいて、日本
語音声データ記憶部７１８から合成音声を出力するのに
必要な日本語音声の波形データを読み出して、逐次日本
語音声出力部７１９に出力する。一方、英語言語処理部
７２７は、日本語言語処理部７１７と同時に、音声出力
同期部７１２が出力する指示に従って、英語テキストデ
ータ記憶部７２６から最初の英語テキストブロックＥＴ
Ｂ８１を読み出し、言語解析を行って、英語テキストブ
ロックＥＴＢ８１のテキストを読み上げるための音声情
報を英語音声合成部７３０に出力する。そして、英語音
声合成部７３０は、この音声情報に基づいて、英語音声
データ記憶部７２８から合成音声を出力するのに必要な
英語音声の波形データを読み出して、逐次英語音声出力
部７２９に出力する。

【００７６】このようにして、日本語音声出力部７１９
から、日本語テキストブロックＪＴＢ８１の内容を読み
上げた合成音声が出力されるのと同時に、英語音声出力
部７２９からは、英語テキストブロックＥＴＢ８１の内
容を読み上げた合成音声が出力される。

【００７７】日本語言語処理部７１７は、日本語テキス
トブロックＪＴＢ８１の解析処理が終了すると、音声出
力同期部７１２に処理終了の旨を通知し、解析処理を停
止する。同様に、英語言語処理部７２７も、英語テキス
トブロックＥＴＢ８１の解析処理が終了すると、音声出
力同期部７１２に処理終了の旨を通知し、解析処理を停
止する。音声出力同期部７１２は、日本語言語処理部７
１７および英語言語処理部７２７からの処理終了通知を
待ち、双方から処理終了通知を受け取った時点で、表示
制御部７１４に対し、次の画像ＳＣ８２を画面表示する
ように指示すると共に、日本語言語処理部７１７および
英語言語処理部７２７に、それぞれ次の日本語テキスト
ブロックＪＴＢ８２および英語テキストブロックＥＴＢ
８２の解析処理を開始するよう指示する。表示制御部７
１４は、この指示を受けて、画像データ記憶部１０２か
ら次の画像ＳＣ８２に関する画像データを読み出して、
画像表示部１０３に出力する。これにより、画像表示部
１０３に画像ＳＣ８２が表示される。

【００７８】以降、上述した動作を繰り返すことによ
り、画像表示部１０３に画像ＳＣ８２が表示されている
間には、日本語テキストブロックＪＴＢ８２および英語
テキストブロックＥＴＢ８２の読み上げ音声が、画像表
示部１０３に画像ＳＣ８３が表示されている間には、日
本語テキストブロックＪＴＢ８３および英語テキストブ
ロックＥＴＢ８３の読み上げ音声が、日本語音声出力部
７１９および英語音声出力部７２９からそれぞれ同時に
出力される。

【００７９】以上のように、本発明の第３の実施形態に
係るプレゼンテーション装置によれば、画像データ記憶
部１０２に記憶されている画像データの各々に対し、日
本語と英語の２種類のテキストデータを有し、上記第１
の実施形態で述べた処理を双方のテキストデータに関し
て行って、１つの画像データの表示において２種類の合
成音声を同時に出力する。これにより、上記第１の実施
形態の効果に加えさらに、１つの画像データを表示しな
がら、日英２カ国語で同時にプレゼンテーションを行う
ことができる。

【００８０】（第４の実施形態）図９は、本発明の第４
の実施形態に係るプレゼンテーション装置の構成を示す
ブロック図である。図９において、第４の実施形態に係
るプレゼンテーション装置は、画像入力部１０１と、画
像データ記憶部１０２と、画像表示部１０３と、表示制
御部７１４と、テキスト入力部７０５と、読み上げ時間
設定部９１１と、日本語テキストデータ記憶部７１６
と、日本語言語処理部９１７と、日本語音声データ記憶
部７１８と、日本語音声出力部７１９と、日本語音声合
成部７２０と、英語テキストデータ記憶部７２６と、英
語言語処理部９２７と、英語音声データ記憶部７２８
と、英語音声出力部７２９と、英語音声合成部７３０と
を備える。

【００８１】図９に示すように、第４の実施形態に係る
プレゼンテーション装置は、上記第３の実施形態に係る
プレゼンテーション装置の日本語言語処理部７１７、英
語言語処理部７２７および音声出力同期部７１２を、日
本語言語処理部９１７、英語言語処理部９２７および読
み上げ時間設定部９１１にそれぞれ代えた構成である。
なお、第４の実施形態に係るプレゼンテーション装置の
他の構成は、上記第３の実施形態に係るプレゼンテーシ
ョン装置と同様であるため、当該他の構成部分について
は同一の参照番号を付して説明を省略する。

【００８２】まず、図９を参照して、第４の実施形態に
係るプレゼンテーション装置の構成を、上記第３の実施
形態に係るプレゼンテーション装置と異なる構成を中心
に説明する。読み上げ時間設定部９１１は、日本語テキ
ストデータ記憶部７１６および英語テキストデータ記憶
部７２６に記憶されている各日本語テキストブロックお
よび各英語テキストブロックに関し、テキストブロック
ごとに予め設定された必要読み上げ時間を記憶する。た
だし、この必要読み上げ時間は、同じ画像データに対応
する日本語テキストブロックと英語テキストブロックの
各データについては、常に同じ値が設定される。

【００８３】日本語言語処理部９１７は、まず、音声情
報を日本語音声合成部７２０に出力する前に、日本語テ
キストデータ記憶部７１６から読み出した日本語テキス
トブロック全体の解析を行い、日本語テキストブロック
ごとに標準読み上げ時間を算出する。次に、日本語言語
処理部９１７は、算出した標準読み上げ時間と読み上げ
時間設定部９１１に記憶されている必要読み上げ時間と
を、日本語テキストブロックごとに比較する。そして、
日本語言語処理部９１７は、日本語音声合成部７２０へ
の音声情報の出力速度を、必要読み上げ時間が標準読み
上げ時間より短ければ標準速度より速く、必要読み上げ
時間が標準読み上げ時間より長ければ標準速度より遅く
して、読み上げ時間設定部９１１に予め設定されている
必要読み上げ時間に合わせてテキストの読み上げが完了
するように制御する。

【００８４】同様に、英語言語処理部９２７は、まず、
音声情報を英語音声合成部７３０に出力する前に、英語
テキストデータ記憶部７２６から読み出した英語テキス
トブロック全体の解析を行い、英語テキストブロックご
とに標準読み上げ時間を算出する。次に、英語言語処理
部９２７は、算出した標準読み上げ時間と読み上げ時間
設定部９１１に記憶されている必要読み上げ時間とを、
英語テキストブロックごとに比較する。そして、英語言
語処理部９２７は、英語音声合成部７３０への音声情報
の出力速度を、必要読み上げ時間が標準読み上げ時間よ
り短ければ標準速度より速く、必要読み上げ時間が標準
読み上げ時間より長ければ標準速度より遅くして、読み
上げ時間設定部９１１に予め設定されている必要読み上
げ時間に合わせてテキストの読み上げが完了するように
制御する。

【００８５】これによって、１つの画像データに対応す
る日本語テキストブロックと英語テキストブロックの読
み上げが同時に終了し、読み上げ時間設定部９１１は、
表示制御部７１４に次の画像の表示を指示するととも
に、日本語言語処理部９１７および英語言語処理部９２
７に、それぞれ次のテキストブロックの処理を開始する
よう指示する。

【００８６】次に、上記構成による第４の実施形態に係
るプレゼンテーション装置が行う動作（プレゼンテーシ
ョン方法）を、上記図８をさらに参照して、具体例を挙
げて説明する。なお、読み上げ時間設定部９１１に予め
設定されている日本語テキストブロックＪＴＢ８１およ
び英語テキストブロックＥＴＢ８１の必要読み上げ時間
を、ｔ１とする。

【００８７】プレゼンテーションを開始すると、読み上
げ時間設定部９１１は、表示制御部７１４に対し、日本
語テキストブロックＪＴＢ８１および英語テキストブロ
ックＥＴＢ８１に対応する画像ＳＣ８１を画面表示する
ように画像データ切り替えの指示を行う。この指示を受
けて、表示制御部７１４は、画像データ記憶部１０２か
ら最初の画像ＳＣ８１に関する画像データを読み出し
て、画像表示部１０３に出力する。これにより、画像表
示部１０３に画像ＳＣ８１が表示される。続いて、読み
上げ時間設定部９１１は、日本語言語処理部９１７およ
び英語言語処理部９２７に、言語解析処理の開始をそれ
ぞれ指示する。

【００８８】上記読み上げ時間設定部９１１の指示に従
って、日本語言語処理部９１７は、日本語テキストデー
タ記憶部７１６から最初の日本語テキストブロックＪＴ
Ｂ８１を読み出し、日本語テキストブロックＪＴＢ８１
全体のデータを解析して標準読み上げ時間を算出し、読
み上げ時間設定部９１１に設定されている必要読み上げ
時間ｔ１と比較する。この比較の結果、日本語言語処理
部９１７は、日本語音声合成部７２０への音声情報の出
力速度を、標準読み上げ時間より必要読み上げ時間ｔ１
の方が短ければ標準速度より速くし、標準読み上げ時間
より必要読み上げ時間ｔ１の方が長ければ標準速度より
遅くする。そして、音声情報の出力速度を決定した後、
日本語言語処理部９１７は、上記第３の実施形態で述べ
た日本語言語処理部７１７と同様にデータ解析を行い、
得た音声情報を日本語音声合成部７２０に順次出力す
る。これにより、日本語テキストブロックＪＴＢ８１に
ついてのテキスト読み上げは、読み上げ時間設定部９１
１に設定された必要読み上げ時間ｔ１で完了するように
行われる。

【００８９】同様に、上記読み上げ時間設定部９１１の
指示に従って、英語言語処理部９２７は、英語テキスト
データ記憶部７２６から最初の英語テキストブロックＥ
ＴＢ８１を読み出し、英語テキストブロックＥＴＢ８１
全体のデータを解析して標準読み上げ時間を算出し、読
み上げ時間設定部９１１に設定されている必要読み上げ
時間ｔ１と比較する。この比較の結果、英語言語処理部
９２７は、英語音声合成部７３０への音声情報の出力速
度を、標準読み上げ時間より必要読み上げ時間ｔ１の方
が短ければ標準速度より速くし、標準読み上げ時間より
必要読み上げ時間ｔ１の方が長ければ標準速度より遅く
する。そして、音声情報の出力速度を決定した後、英語
言語処理部９２７は、上記第３の実施形態で述べた英語
言語処理部７２７と同様にデータ解析を行い、得た音声
情報を英語音声合成部７３０に順次出力する。これによ
り、英語テキストブロックＥＴＢ８１についてのテキス
ト読み上げは、読み上げ時間設定部９１１に設定された
必要読み上げ時間ｔ１で完了するように行われる。

【００９０】このようにして、日本語音声出力部７１９
から、日本語テキストブロックＪＴＢ８１の内容を読み
上げた合成音声が出力されるのと同時に、英語音声出力
部７２９からは、英語テキストブロックＥＴＢ８１の内
容を読み上げた合成音声が出力され、これら双方のテキ
スト読み上げ音声出力は、読み上げ時間設定部９１１に
予め設定された必要読み上げ時間ｔ１経過後に同時に終
了する。

【００９１】そして、読み上げ時間設定部９１１は、日
本語テキストブロックＪＴＢ８１および英語テキストブ
ロックＥＴＢ８１の読み上げ音声出力がそれぞれ終了す
ると、表示制御部７１４に対し、次の画像ＳＣ８２を画
面表示するように指示すると共に、日本語言語処理部９
１７および英語言語処理部９２７に、それぞれ次の日本
語テキストブロックＪＴＢ８２および英語テキストブロ
ックＥＴＢ８２の解析処理を開始するよう指示する。表
示制御部７１４は、この指示を受けて、画像データ記憶
部１０２から次の画像ＳＣ８２に関する画像データを読
み出して、画像表示部１０３に出力する。これにより、
画像表示部１０３に画像ＳＣ８２が表示される。

【００９２】以降、上述した動作を繰り返すことによ
り、画像表示部１０３に１つの画像データを表示するご
とに、当該画像データに対応付けられた日本語テキスト
データと英語テキストデータとを音声合成により同時
に、かつ、同一所要時間（必要読み上げ時間）で読み上
げる。

【００９３】以上のように、本発明の第４の実施形態に
係るプレゼンテーション装置によれば、上記第３の実施
形態で述べた処理に加え、日本語テキストブロックおよ
び英語テキストブロックごとに、読み上げ時間設定部９
１１に予め設定された必要読み上げ時間と日本語言語処
理部９１７および英語言語処理部９２７で解析する標準
読み上げ時間とをそれぞれ比較し、各々のテキスト読み
上げが必要読み上げ時間に合わせて完了するように、日
本語音声合成部７２０および英語音声合成部７３０への
音声情報の出力速度をそれぞれ変化させる。これによ
り、上記第３の実施形態の効果に加えさらに、読み上げ
時間設定部９１１に予め設定する時間で日本語および英
語のテキストの読み上げを確実に完了することができ、
複数言語で同時にプレゼンテーションを行う場合でも、
各テキストデータの量に左右されず、所望の時間でプレ
ゼンテーションを行うことができる。

【００９４】なお、本発明の第１〜第４の実施形態にお
いて、画像データ記憶部１０２に記憶されるグラフィッ
クアニメーションを構成するグラフィックとは、いわゆ
るベクトル図形だけでなく、テキストやイメージデータ
でもよく、例えば、箇条書きの各項目のテキストを移動
させながら表示させるようなものも含んでいる。また、
本発明の第１〜第４の実施形態においては、画像表示部
１０３および音声出力部１０９（日本語音声出力部７１
９、英語音声出力部７２９）の構成として、ディスプレ
イ装置やスピーカ装置等を用いた場合を挙げて説明した
が、これ以外にも、例えば、ＶＴＲ装置または同等の記
録装置を用い、出力する画像信号や音声信号を記録する
ようにしてもよい。さらに、本発明の第１〜第４の実施
形態における言語処理部１０７（日本語言語処理部７１
７，９１７、英語言語処理部７２７，９２７）は、各テ
キストブロックの言語解析を行いながら、順次音声情報
を出力してもよいし、テキストブロック全体の言語解析
をすべて終了してから、まとめて音声情報を出力するよ
うにしてもよい。

【００９５】また、本発明の第１〜第４の実施形態にお
いて、テキストデータ記憶部１０６（日本語テキストデ
ータ記憶部７１６、英語テキストデータ記憶部７２６）
に記憶されているすべてまたは一部のテキストブロック
について、予め言語解析を済ませて前もって出力すべき
音声情報を記憶しておくようにしてもよい。さらに、本
発明の第２および第４の実施形態における言語処理部１
０７（日本語言語処理部７１７，９１７、英語言語処理
部７２７，９２７）は、テキストデータ記憶部１０６
（日本語テキストデータ記憶部７１６、英語テキストデ
ータ記憶部７２６）に記憶されているすべてまたは一部
のテキストブロックについて、予め標準読み上げ時間を
算出して記憶しておくようにしてもよい。

【００９６】また、本発明の第３および第４の実施形態
では、日本語と英語の各々について言語処理部，音声デ
ータ記憶部，音声合成部の各構成をそれぞれ設け、日本
語と英語の２カ国語を同時に読み上げる場合を一例に挙
げて説明したが、これ以外の言語に対する当該各構成を
設けることにより、日本語および英語以外の言語にも対
応することができる。また、上記各構成を３組以上設け
ることにより、同時に３種類以上の言語でプレゼンテー
ションすることも可能である。さらに、設ける上記各構
成が、すべて異なる言語に対応したものである必要はな
く、例えば、２つの言語処理部および２つの音声合成部
をそれぞれ設け、一方の音声出力部からは大人用の説明
を出力し、他方の音声出力部からは子供用の説明を出力
するなどしてもよい。

【００９７】なお、典型的なハードウェア環境では、上
記第１〜第４の実施形態に係るプレゼンテーション装置
が実現する各機能は、所定のプログラムデータが格納さ
れた記憶装置（ＲＯＭ，ＲＡＭ，ハードディスク等）と
ＣＰＵ（セントラル・プロセッシング・ユニット）とに
よって実現される。この場合、各プログラムデータは、
ＣＤ−ＲＯＭやフロッピーディスク等の記録媒体を介し
て導入されてもよい。

【図面の簡単な説明】

【図１】本発明の第１の実施形態に係るプレゼンテーシ
ョン装置の構成を示すブロック図である。

【図２】本発明の第１の実施形態に係るプレゼンテーシ
ョン装置で用いるプレゼンテーションデータの一例を示
す図である。

【図３】図１の言語処理部１０７が出力する音声情報の
一例を示す図である。

【図４】本発明の第２の実施形態に係るプレゼンテーシ
ョン装置の構成を示すブロック図である。

【図５】本発明の第２の実施形態に係るプレゼンテーシ
ョン装置で用いるプレゼンテーションデータの一例を示
す図である。

【図６】図４の読み上げ時間設定部４１１に予め設定さ
れている各テキストブロックごとの必要読み上げ時間の
一例を示す図である。

【図７】本発明の第３の実施形態に係るプレゼンテーシ
ョン装置の構成を示すブロック図である。

【図８】本発明の第３の実施形態に係るプレゼンテーシ
ョン装置で用いるプレゼンテーションデータの一例を示
す図である。

【図９】本発明の第４の実施形態に係るプレゼンテーシ
ョン装置の構成を示すブロック図である。

【符号の説明】

１０１…画像入力部１０２…画像データ記憶部１０３…画像表示部１０４，７１４…表示制御部１０５，７０５…テキスト入力部１０６，７１６，７２６…テキストデータ記憶部１０７，４０７，７１７，７２７，９１７，９２７…言
語処理部１０８，７１８，７２８…音声データ記憶部１０９，７１９，７２９…音声出力部１１０，７２０，７３０…音声合成部４１１，９１１…読み上げ時間設定部７１２…音声出力同期部ＳＣ２１〜ＳＣ２３，ＳＣ５１〜ＳＣ５３，ＳＣ８１〜
ＳＣ８３…画像ＴＢ２１〜ＴＢ２３，ＴＢ５１〜ＴＢ５３，ＪＴＢ８１
〜ＪＴＢ８３，ＥＴＢ８１〜ＥＴＢ８３…テキストブロ
ック

Claims

【特許請求の範囲】

【請求項１】テキストデータに基づいて生成される合
成音声の出力と、当該テキストデータに対応する画像デ
ータの表示とを、自動的に行うプレゼンテーション装置
であって、前記画像データを入力する画像入力手段と、前記画像入力手段が入力した前記画像データを、複数記
憶する画像データ記憶手段と、言語処理手段の指示に従って、前記画像データ記憶手段
から対応する前記画像データを順次読み出して出力する
表示制御手段と、前記表示制御手段が出力する前記画像データを画像表示
する画像表示手段と、前記テキストデータを入力するテキスト入力手段と、前記テキスト入力手段が入力した前記テキストデータ
を、対応する前記画像データを指示する画像指示情報と
共に、複数記憶するテキストデータ記憶手段と、前記テキストデータ記憶手段から、予め定めた順序に従
って前記テキストデータを順次読み出し、当該読み出し
たテキストデータの前記画像指示情報を、画像切り替え
タイミングに同期して前記表示制御手段に出力すると共
に、当該読み出したテキストデータを解析して音声情報
を生成する前記言語処理手段と、音声を合成するための音声波形データを複数記憶する音
声データ記憶手段と、前記言語処理手段が生成した前記音声情報に基づいて、
前記音声データ記憶手段から対応する前記音声波形デー
タを順次読み出して出力する音声合成手段と、前記音声合成手段が出力する前記音声波形データを、合
成音声として順次出力する音声出力手段とを備える、プ
レゼンテーション装置。
【請求項２】前記テキストデータの読み上げを開始し
てから終了するまでの所要時間（以下、必要読み上げ時
間という）を設定する読み上げ時間設定手段をさらに備
え、前記言語処理手段は、前記読み出したテキストデータを
所定の速度で読み上げたときの読み上げ所要時間（以
下、標準読み上げ時間という）を算出して前記必要読み
上げ時間と比較し、実際の読み上げに要する時間が、前
記必要読み上げ時間と一致するように、読み上げ速度を
調整した前記音声情報を生成することを特徴とする、請
求項１に記載のプレゼンテーション装置。
【請求項３】前記言語処理手段は、比較の結果、前記
標準読み上げ時間が前記必要読み上げ時間より短い場合
は、読み上げ速度の調整を行わずに前記音声情報を生成
することを特徴とする、請求項２に記載のプレゼンテー
ション装置。
【請求項４】Ｎ種類のテキストデータ（Ｎは、２以上
の整数）に基づいて生成されるＮ種類の合成音声の出力
と、当該テキストデータに対応する画像データの表示と
を、自動的に行うプレゼンテーション装置であって、前記画像データを入力する画像入力手段と、前記画像入力手段が入力した前記画像データを、複数記
憶する画像データ記憶手段と、音声出力同期手段の指示に従って、前記画像データ記憶
手段から対応する前記画像データを順次読み出して出力
する表示制御手段と、前記表示制御手段が出力する前記画像データを画像表示
する画像表示手段と、Ｎ種類の前記テキストデータを入力するテキスト入力手
段と、前記テキスト入力手段が入力したＮ種類の前記テキスト
データを、対応する前記画像データを指示する画像指示
情報と共に、各種類ごとにそれぞれ複数記憶するＮ個の
テキストデータ記憶手段と、前記音声出力同期手段の指示に従って、前記Ｎ個のテキ
ストデータ記憶手段から、予め定めた順序に従ってそれ
ぞれの前記テキストデータを並行して順次読み出し、当
該読み出したテキストデータを解析して音声情報をそれ
ぞれ生成するＮ個の言語処理手段と、前記Ｎ個の言語処理手段がそれぞれ生成した前記音声情
報の出力がすべて完了した時点で、前記Ｎ個の言語処理
手段に対し次の処理の開始を指示すると共に、当該指示
に同期して、予め定められた順序に従って、次の画像に
関する前記画像指示情報を前記表示制御手段に出力する
前記音声出力同期手段と、音声を合成するための異なる音声波形データをそれぞれ
複数記憶するＮ個の音声データ記憶手段と、前記Ｎ個の言語処理手段が生成した前記音声情報にそれ
ぞれ基づいて、前記Ｎ個の音声データ記憶手段から対応
する前記音声波形データを順次読み出してそれぞれ出力
するＮ個の音声合成手段と、前記Ｎ個の音声合成手段が出力する前記音声波形データ
を、合成音声としてそれぞれ順次出力するＮ個の音声出
力手段とを備える、プレゼンテーション装置。
【請求項５】前記音声出力同期手段には、前記Ｎ種類
のテキストデータの読み上げを開始してから終了するま
での所要時間（以下、必要読み上げ時間という）が各々
予め設定されており、前記Ｎ個の言語処理手段は、それぞれ、前記並行して読
み出されたＮ個のテキストデータを各々所定の速度で読
み上げたときの読み上げ所要時間（以下、標準読み上げ
時間という）を算出して前記必要読み上げ時間と比較
し、実際の読み上げに要する時間が、前記必要読み上げ
時間と一致するように、読み上げ速度を調整した前記音
声情報を生成することを特徴とする、請求項４に記載の
プレゼンテーション装置。
【請求項６】前記Ｎ個の言語処理手段は、それぞれ、
比較の結果、前記標準読み上げ時間が前記必要読み上げ
時間より短い場合は、読み上げ速度の調整を行わずに前
記音声情報を生成することを特徴とする、請求項５に記
載のプレゼンテーション装置。
【請求項７】前記テキストデータに、テキストの所定
の箇所で読み上げを一定時間停止するための読み上げ停
止情報が付加されている場合、前記言語処理手段は、前記テキストデータの解析によっ
て前記読み上げ停止情報を検出し、所定の箇所でテキス
トの読み上げを一定時間だけ停止する情報を含んだ前記
音声情報を生成することを特徴とする、請求項１〜６の
いずれかに記載のプレゼンテーション装置。
【請求項８】前記音声データ記憶手段には、複数の音
質の前記音声波形データがさらに記憶されており、前記テキストデータに、テキストの所定の箇所で音声の
音質を変更する音質変更情報が付加されている場合、前記言語処理手段は、前記テキストデータの解析によっ
て前記音質変更情報を検出し、所定の箇所で音質変更を
指示する情報を含んだ前記音声情報を生成し、前記音声合成手段は、前記音声情報に含まれる前記音質
変更を指示する情報に基づいて、所定の箇所で前記音声
データ記憶手段から読み出す前記音声波形データを選択
的に切り替えることを特徴とする、請求項１〜７のいず
れかに記載のプレゼンテーション装置。
【請求項９】前記音声データ記憶手段には、効果音を
合成するための効果音波形データがさらに記憶されてお
り、前記テキストデータに、テキストの所定の箇所で予め定
められた効果音を発するための効果音情報が付加されて
いる場合、前記言語処理手段は、前記テキストデータの解析によっ
て前記効果音情報を検出し、所定の箇所で指定された効
果音を発する指示の情報を含んだ前記音声情報を生成
し、前記音声合成手段は、前記音声情報に含まれる前記効果
音を発する指示の情報に基づいて、所定の箇所で前記音
声データ記憶手段から対応する前記効果音波形データを
読み出して出力することを特徴とする、請求項１〜８の
いずれかに記載のプレゼンテーション装置。
【請求項１０】テキストデータに基づいて生成される
合成音声の出力と、当該テキストデータに対応する画像
データの表示とを、自動的に行うプレゼンテーション方
法であって、前記画像データを入力して複数記憶するステップと、前記テキストデータを入力して複数記憶するステップ
と、音声を合成するための音声波形データを予め複数記憶す
るステップと、記憶した複数の前記テキストデータから、予め定めた順
序に従って前記テキストデータを順次読み出すステップ
と、記憶した複数の前記画像データから、前記読み出したテ
キストデータに対応する前記画像データを、当該テキス
トデータに同期して順次読み出して出力するステップ
と、前記読み出したテキストデータを解析して音声情報を生
成するステップと、前記音声情報に基づいて、記憶した複数の前記音声波形
データから、対応する前記音声波形データを順次読み出
して出力するステップと、出力する前記画像データを画像表示するステップと、出力する前記音声波形データを合成音声として順次出力
するステップとを備える、プレゼンテーション方法。
【請求項１１】テキストデータに基づいて生成される
合成音声の出力と、当該テキストデータに対応する画像
データの表示とを、自動的に行うプレゼンテーション方
法を、コンピュータ装置において実行させるためのプロ
グラムを記録した媒体であって、前記画像データを入力して複数記憶するステップと、前記テキストデータを入力して複数記憶するステップ
と、音声を合成するための音声波形データを予め複数記憶す
るステップと、記憶した複数の前記テキストデータから、予め定めた順
序に従って前記テキストデータを順次読み出すステップ
と、記憶した複数の前記画像データから、前記読み出したテ
キストデータに対応する前記画像データを、当該テキス
トデータに同期して順次読み出して出力するステップ
と、前記読み出したテキストデータを解析して音声情報を生
成するステップと、前記音声情報に基づいて、記憶した複数の前記音声波形
データから、対応する前記音声波形データを順次読み出
して出力するステップと、出力する前記画像データを画像表示するステップと、出力する前記音声波形データを合成音声として順次出力
するステップとを含む動作環境を、前記コンピュータ装
置上において実現するためのプログラムを記録した記録
媒体。