JPH10222187A

JPH10222187A - 発話文書作成装置，発話文書作成方法および発話文書作成手順をコンピュータに実行させるプログラムを格納したコンピュータ読み取り可能な記録媒体

Info

Publication number: JPH10222187A
Application number: JP9083124A
Authority: JP
Inventors: Nobuhide Yamazaki; 信英山崎
Original assignee: JustSystems Corp
Current assignee: JustSystems Corp
Priority date: 1996-12-04
Filing date: 1997-04-01
Publication date: 1998-08-21
Anticipated expiration: 2017-04-01
Also published as: JP3270356B2

Abstract

(57)【要約】【課題】文字情報と音声情報という２つの表現形態の
情報を整合性の取れた形で複合した情報（発話文書）を
作成すること。【解決手段】文字列情報等から構成される喋り方デー
タを，文字列情報に基づいて，グループ化して記憶した
喋り方データ記憶部１０３と，文字列を入力する文字列
入力手段（制御部１０１，アプリケーション記憶部１０
２，キー入力部１０６，表示部１０７）と，文字列と同
一の文字列情報を有するグループを喋り方データ記憶部
１０３から検索する検索手段（制御部１０１）と，声色
データを複数記憶した声色データ記憶部１０４と，音声
を合成する音声合成部１０５と，合成された音声から所
望の音声を選択する音声選択手段（制御部１０１，キー
入力部１０６）と，選択された音声に対応する喋り方デ
ータを入力された文字列と対応させて発話文書として記
憶する発話文書記憶部１１０とを有する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は，文書を構成する文
字列に，それぞれの文字列の喋り方を特定する喋り方デ
ータを付加して発話文書を作成する発話文書作成装置，
発話文書作成方法および発話文書作成手順をコンピュー
タに実行させるプログラムを格納したコンピュータ読み
取り可能な記録媒体に関する。

【０００２】

【従来の技術】情報の伝達・保管方法の一つとして文字
情報を用いる方法が知られている。この文字情報を用い
る方法として，近年，日本語ワードプロセッサ，英文ワ
ードプロセッサ等の文書作成装置や，ワープロ機能を有
したパソコンを用いて，文書作成者が所望の文書を作成
し，作成した文書をネットワークを介して転送したり，
作成した文書を磁気ディスクや，光ディスク等の記録媒
体に記憶させる方法が使用されるようになっている。こ
れは，コンピュータ関連技術の発展に伴って文書作成装
置自体が高機能化・低価格化を実現していると共に，オ
フィスのペーパレス化の推進や，通信網の整備，電子メ
ールの普及等による作業環境の変化に負うところが大き
い。

【０００３】また，情報の伝達・保管等に使用される他
の方法として，音声情報を用いる方法や，音声情報と映
像情報とを用いる方法が知られている。例えば，音声情
報を用いる方法では，情報の伝達は電話等を介して直
接，音声情報を転送し，情報の保管は録音機器を用いて
テープ等に録音して保管している。また，音声情報と映
像情報とを用いる方法では，情報の伝達はモニターとス
ピーカーを有する通信装置を用いて音声情報と映像情報
を転送し，情報の保管はビデオ装置等の録画機器を用い
てビデオテープや，光ディスク等に保管している。

【０００４】なお，上述した情報の伝達・保管方法のう
ち，文字情報を用いる方法は，他の方法と比較して，デ
ータ量が少なく，情報の編集が容易であること，さらに
デジタル情報としてコンピュータ上で使用可能であるこ
とから，最も汎用性が高く，広く使用されている。

【０００５】

【発明が解決しようとする課題】しかしながら，上記従
来の文字情報を用いる方法では，作成した文書が視覚的
な言語情報（すなわち，文字言語情報）に限定された情
報であるため，非言語情報にあたる感情等の表現を情報
として付加することはできなかった。なお，音声を用い
た言語情報（すなわち，音声言語情報）では，アクセン
トや，声の大きさ（音量），声の高さ等の喋り方を変え
ることで，非言語情報にあたる感情等の表現を情報とし
て付加していた。

【０００６】また，従来の技術において，文字情報と音
声情報という２つの表現形態の情報を整合性の取れた形
で複合した情報を作成する装置および方法は提供されて
いなかった。

【０００７】また，音声情報の編集は，基本的に聴覚を
用いて（すなわち，再生させた音声情報を耳で聞いて）
行うのが一般的であり，一々再生して所望の音声情報の
位置（場所）を確認する必要があるため，作業が煩雑
で，面倒であるという問題点もあった。

【０００８】なお，従来の音声合成技術の一つであるテ
キスト音声合成技術を用いることにより，テキスト文書
（すなわち，文字情報）から音声を合成することも可能
であるが，テキストからの音声合成では，辞書に入って
いない固有名詞を読み間違えたり，違ったアクセントで
発音するという問題点があった。さらに非言語情報であ
る感情等の表現ができないことや，文書作成者の意図す
る喋り方で正確に音声を合成することができないという
問題点もあった。

【０００９】本発明は上記に鑑みてなされたものであっ
て，文字情報と音声情報という２つの表現形態の情報を
整合性の取れた形で複合した情報（発話文書）を作成す
ることができる装置および方法を提供することを目的と
する。

【００１０】また，本発明は上記に鑑みてなされたもの
であって，文字情報と文書作成者の意図する喋り方を含
む音声情報（喋り方データ）との整合性をとった情報
（発話文書）を作成して，文書中に非言語情報にあたる
感情等の表現を付加できるようにすることを目的とす
る。

【００１１】また，本発明は上記に鑑みてなされたもの
であって，音声情報の編集を文字情報を介して視覚的に
行って作業性の向上を図ると共に，文書作成者の意図す
る喋り方で正確に音声を合成できるようにすることを目
的とする。

【００１２】

【課題を解決するための手段】上記の目的を達成するた
めに，請求項１に係る発話文書作成装置は，単語，文節
または文から成る文字列情報，前記文字列情報の文字に
対応した音韻から成る音韻列情報，前記音韻列情報中の
各音韻の継続時間長，前記音韻列情報の任意の時点での
相対的なピッチを指定するピッチ情報および前記音韻列
情報の各音韻の音量を指定するベロシティ情報から構成
される喋り方データを，前記喋り方データの文字列情報
に基づいて，前記文字列情報が同一の喋り方データをグ
ループ化してグループ毎に記憶した喋り方データ記憶手
段と，単語，文節または文を構成する文字列を入力する
ための文字列入力手段と，前記文字列入力手段を介して
入力された文字列を用いて，前記文字列と同一の文字列
情報を有するグループを前記喋り方データ記憶手段から
検索する検索手段と，合成する音声に声色を付加するた
めの声色データを複数記憶した声色データ記憶手段と，
前記検索手段で検索したグループ中の喋り方データを順
次読み出して，前記読み出した喋り方データの音韻列情
報，継続時間長，ピッチ情報およびベロシティ情報と前
記声色データ記憶手段に記憶されている声色データの一
つとを用いて音声を合成する音声合成手段と，前記音声
合成手段で合成された音声から所望の音声を選択するた
めの音声選択手段と，前記音声選択手段を用いて選択さ
れた音声に対応する喋り方データを前記文字列入力手段
を介して入力された文字列と対応させて発話文書として
記憶する発話文書記憶手段と，を備えたものである。

【００１３】また，請求項２に係る発話文書作成装置
は，単語，文節または文から成る文字列情報，前記文字
列情報の文字に対応した音韻から成る音韻列情報，前記
音韻列情報中の各音韻の継続時間長，前記音韻列情報の
任意の時点での相対的なピッチを指定するピッチ情報お
よび前記音韻列情報の任意の時点での相対的な音量を指
定するベロシティ情報から構成される喋り方データを，
前記喋り方データの文字列情報に基づいて，前記文字列
情報が同一の喋り方データをグループ化してグループ毎
に記憶した喋り方データ記憶手段と，単語，文節または
文を構成する文字列を入力するための文字列入力手段
と，前記文字列入力手段を介して入力された文字列を用
いて，前記文字列と同一の文字列情報を有するグループ
を前記喋り方データ記憶手段から検索する検索手段と，
合成する音声に声色を付加するための声色データを複数
記憶した声色データ記憶手段と，前記検索手段で検索し
たグループ中の喋り方データを順次読み出して，前記読
み出した喋り方データの音韻列情報，継続時間長，ピッ
チ情報およびベロシティ情報と前記声色データ記憶手段
に記憶されている声色データの一つとを用いて音声を合
成する音声合成手段と，前記音声合成手段で合成された
音声から所望の音声を選択するための音声選択手段と，
前記音声選択手段を用いて選択された音声に対応する喋
り方データを前記文字列入力手段を介して入力された文
字列と対応させて発話文書として記憶する発話文書記憶
手段と，を備えたものである。

【００１４】また，請求項３に係る発話文書作成装置
は，請求項１または２記載の発話文書作成装置におい
て，さらに，前記発話文書記憶手段に記憶されている発
話文書の再生を指定する再生指定手段を備え，前記発話
文書の再生が指定されると，前記音声合成手段が，前記
発話文書中の喋り方データを順次読み出して，音声を合
成するものである。

【００１５】また，請求項４に係る発話文書作成装置
は，請求項３記載の発話文書作成装置において，前記再
生指定手段が，前記発話文書を再生する範囲として，前
記発話文書中の任意の文字列単位，文章単位，ページ単
位または発話文書全体の指定が可能であるものである。

【００１６】また，請求項５に係る発話文書作成装置
は，単語，文節または文から成る文字列情報，前記文字
列情報の文字に対応した音韻から成る音韻列情報，前記
音韻列情報中の各音韻の継続時間長，前記音韻列情報の
任意の時点での相対的なピッチを指定するピッチ情報お
よび前記音韻列情報の各音韻の音量を指定するベロシテ
ィ情報から構成される喋り方データを，前記喋り方デー
タの文字列情報に基づいて，前記文字列情報が同一の喋
り方データをグループ化してグループ毎に記憶した喋り
方データ記憶手段と，単語，文節または文を構成する文
字列を入力するための文字列入力手段と，前記文字列入
力手段を介して入力された文字列を用いて，前記文字列
と同一の文字列情報を有するグループを前記喋り方デー
タ記憶手段から検索する検索手段と，合成する音声に声
色を付加するための声色データを複数記憶した声色デー
タ記憶手段と，前記声色データ記憶手段に記憶されてい
る声色データの一つを指定するための声色データ指定手
段と，前記検索手段で検索したグループ中の喋り方デー
タを順次読み出して，前記読み出した喋り方データの音
韻列情報，継続時間長，ピッチ情報およびベロシティ情
報と前記声色データ指定手段で指定された声色データと
を用いて音声を合成する音声合成手段と，前記音声合成
手段で合成された音声から所望の音声を選択するための
音声選択手段と，前記音声選択手段を用いて選択された
音声に対応する喋り方データおよび声色データを前記文
字列入力手段を介して入力された文字列と対応させて発
話文書として記憶する発話文書記憶手段と，を備えたも
のである。

【００１７】また，請求項６に係る発話文書作成装置
は，単語，文節または文から成る文字列情報，前記文字
列情報の文字に対応した音韻から成る音韻列情報，前記
音韻列情報中の各音韻の継続時間長，前記音韻列情報の
任意の時点での相対的なピッチを指定するピッチ情報お
よび前記音韻列情報の任意の時点での相対的な音量を指
定するベロシティ情報から構成される喋り方データを，
前記喋り方データの文字列情報に基づいて，前記文字列
情報が同一の喋り方データをグループ化してグループ毎
に記憶した喋り方データ記憶手段と，単語，文節または
文を構成する文字列を入力するための文字列入力手段
と，前記文字列入力手段を介して入力された文字列を用
いて，前記文字列と同一の文字列情報を有するグループ
を前記喋り方データ記憶手段から検索する検索手段と，
合成する音声に声色を付加するための声色データを複数
記憶した声色データ記憶手段と，前記声色データ記憶手
段に記憶されている声色データの一つを指定するための
声色データ指定手段と，前記検索手段で検索したグルー
プ中の喋り方データを順次読み出して，前記読み出した
喋り方データの音韻列情報，継続時間長，ピッチ情報お
よびベロシティ情報と前記声色データ指定手段で指定さ
れた声色データとを用いて音声を合成する音声合成手段
と，前記音声合成手段で合成された音声から所望の音声
を選択するための音声選択手段と，前記音声選択手段を
用いて選択された音声に対応する喋り方データおよび声
色データを前記文字列入力手段を介して入力された文字
列と対応させて発話文書として記憶する発話文書記憶手
段と，を備えたものである。

【００１８】また，請求項７に係る発話文書作成装置
は，請求項５または６記載の発話文書作成装置におい
て，さらに，前記喋り方データを作成して前記喋り方デ
ータ記憶手段に登録する喋り方データ作成・登録手段を
備えたものである。

【００１９】また，請求項８に係る発話文書作成装置
は，請求項７記載の発話文書作成装置において，前記喋
り方データ作成・登録手段が，あらかじめ収録した音声
波形データまたはユーザが発話した肉声を入力して，音
声波形データを表示する音声波形データ入力手段と，ユ
ーザによる入力または前記音声波形データを音韻分析し
て，各音韻の継続時間長を設定して表示する継続時間長
設定手段と，前記設定された継続時間長に対応する音韻
列情報を付加する音韻列情報付加手段と，前記音声波形
データをピッチ分析してピッチ曲線を表示するピッチ曲
線表示手段と，前記表示されたピッチ曲線および音韻列
情報とに基づいて，前記音韻列情報の任意の時点での相
対的なピッチの値を調整または追加してピッチ情報を生
成するピッチ情報生成手段と，前記音韻列情報の各音韻
の音量を調整してベロシティ情報を生成するベロシティ
情報生成手段と，前記音声波形データに対応する文字列
を入力して文字列情報を設定する文字列情報設定手段
と，前記文字列情報に基づいて前記喋り方データ記憶手
段中の該当するグループに，前記文字列情報，音韻列情
報，継続時間長，ピッチ情報およびベロシティ情報を喋
り方データとして登録する登録手段と，を備えたもので
ある。

【００２０】また，請求項９に係る発話文書作成装置
は，請求項５〜８記載のいずれか一つの発話文書作成装
置において，さらに，前記発話文書記憶手段に記憶され
ている発話文書の再生を指定する再生指定手段を備え，
前記発話文書の再生が指定されると，前記音声合成手段
が，前記発話文書中の喋り方データおよび声色データを
順次読み出して，音声を合成するものである。

【００２１】また，請求項１０に係る発話文書作成装置
は，請求項９記載の発話文書作成装置において，前記再
生指定手段が，前記発話文書を再生する範囲として，前
記発話文書中の任意の文字列単位，文章単位，ページ単
位または発話文書全体の指定が可能であるものである。

【００２２】また，請求項１１に係る発話文書作成装置
は，請求項５〜１０記載のいずれか一つの発話文書作成
装置において，さらに，前記文字列入力手段を用いて，
前記発話文書記憶手段に記憶されている発話文書を表示
し，前記表示した発話文書の任意の文字列を指定し，前
記指定した文字列の変更または再入力が可能であり，前
記変更または再入力された文字列を用いて，前記検索手
段による検索，前記声色データ指定手段による声色デー
タの指定，前記音声合成手段による音声の合成および前
記音声選択手段による音声の選択を行うことにより，前
記指定した文字列に対応する喋り方データおよび声色デ
ータの変更が可能であるものである。

【００２３】また，請求項１２に係る発話文書作成装置
は，請求項１，２，５または６記載の発話文書作成装置
において，前記複数の声色データが，男性の声，女性の
声，子供の声，老人の声，掠れた声，明瞭な声，太い
声，細い声，力強い声，やさしい声，機械的な声のよう
に，それぞれ感覚的に識別可能な声色データであるもの
である。

【００２４】また，請求項１３に係る発話文書作成装置
は，請求項１，２，５または６記載の発話文書作成装置
において，前記文字列入力手段が，仮名漢字変換機能を
有し，前記文字例入力手段で入力した文字列が，前記仮
名漢字変換機能を用いて変換した後の漢字仮名交じりの
テキストであるものである。

【００２５】また，請求項１４に係る発話文書作成装置
は，請求項５または６記載の発話文書作成装置におい
て，さらに，前記喋り方データの分類タイプを指定する
分類タイプ指定手段を備え，前記喋り方データが，前記
文字列情報，音韻列情報，継続時間長，ピッチ情報およ
びベロシティ情報に加えて，それぞれの喋り方データの
分類タイプを示すタイプ情報を有し，前記分類タイプ指
定手段を介して分類タイプが指定されると，前記検索手
段が，前記文字列入力手段を介して入力された文字列お
よび前記分類タイプ指定手段を介して指定された分類タ
イプを用いて，前記文字列と同一の文字列情報を有する
グループで，かつ，前記指定された分類タイプと同一の
タイプ情報を有する喋り方データを前記喋り方データ記
憶手段から検索し，前記音声合成手段が，前記検索手段
で検索した喋り方データを読み出して，前記読み出した
喋り方データの音韻列情報，継続時間長，ピッチ情報お
よびベロシティ情報と前記声色データ指定手段で指定さ
れた声色データとを用いて音声を合成するものである。

【００２６】また，請求項１５に係る発話文書作成装置
は，請求項１４記載の発話文書作成装置において，前記
分類タイプが，それぞれの喋り方データに対応する音声
を，東京型発音タイプ，大阪型発音タイプ，徳島型発音
タイプ等のように地域によって分類したものである。

【００２７】また，請求項１６に係る発話文書作成装置
は，請求項１４記載の発話文書作成装置において，前記
分類タイプが，それぞれの喋り方データに対応する音声
を，老人型発音タイプ，若者型発音タイプ，高校生型発
音タイプ等のように年齢によって分類したものである。

【００２８】また，請求項１７に係る発話文書作成装置
は，請求項５〜１６記載のいずれか一つの発話文書作成
装置において，前記文字列入力手段が，表示部を有して
おり，かつ，前記発話文書の各文字列毎に指定されてい
る声色データに基づいて，表示する文字列のフォント
や，装飾方法を変えて前記表示部に表示するものであ
る。

【００２９】また，請求項１８に係る発話文書作成方法
は，単語，文節または文を構成する文字列を入力する第
１の工程と，単語，文節または文から成る文字列情報，
前記文字列情報の文字に対応した音韻から成る音韻列情
報，前記音韻列情報中の各音韻の継続時間長，前記音韻
列情報の任意の時点での相対的なピッチを指定するピッ
チ情報および前記音韻列情報の各音韻の音量を指定する
ベロシティ情報から構成される喋り方データを，前記喋
り方データの文字列情報に基づいて，前記文字列情報が
同一の喋り方データをグループ化してグループ毎に記憶
したデータベースを参照して，前記第１の工程で入力さ
れた文字列と同一の文字列情報を有するグループを検索
する第２の工程と，合成する音声に声色を付加するため
声色データを指定する第３の工程と，前記第２の工程で
検索したグループ中の喋り方データを順次読み出して，
前記読み出した喋り方データの音韻列情報，継続時間
長，ピッチ情報およびベロシティ情報と，前記第３の工
程で指定された声色データとを用いて，音声を合成する
第４の工程と，前記第４の工程で合成された音声から所
望の音声を選択する第５の工程と，前記第５の工程で選
択した音声に対応する喋り方データを前記１の工程で入
力した文字列と対応させて発話文書として記憶する第６
の工程と，を含むものである。

【００３０】また，請求項１９に係る発話文書作成方法
は，単語，文節または文を構成する文字列を入力する第
１の工程と，単語，文節または文から成る文字列情報，
前記文字列情報の文字に対応した音韻から成る音韻列情
報，前記音韻列情報中の各音韻の継続時間長，前記音韻
列情報の任意の時点での相対的なピッチを指定するピッ
チ情報および前記音韻列情報の任意の時点での相対的な
音量を指定するベロシティ情報から構成される喋り方デ
ータを，前記喋り方データの文字列情報に基づいて，前
記文字列情報が同一の喋り方データをグループ化してグ
ループ毎に記憶したデータベースを参照して，前記第１
の工程で入力された文字列と同一の文字列情報を有する
グループを検索する第２の工程と，合成する音声に声色
を付加するため声色データを指定する第３の工程と，前
記第２の工程で検索したグループ中の喋り方データを順
次読み出して，前記読み出した喋り方データの音韻列情
報，継続時間長，ピッチ情報およびベロシティ情報と，
前記第３の工程で指定された声色データとを用いて，音
声を合成する第４の工程と，前記第４の工程で合成され
た音声から所望の音声を選択する第５の工程と，前記第
５の工程で選択した音声に対応する喋り方データを前記
１の工程で入力した文字列と対応させて発話文書として
記憶する第６の工程と，を含むものである。

【００３１】また，請求項２０に係る発話文書作成方法
は，請求項１８または１９記載の発話文書作成方法にお
いて，さらに，前記第６の工程で記憶した発話文書の再
生を指定する第７の工程と，前記第７の工程で前記発話
文書の再生が指定されると，前記発話文書中の喋り方デ
ータおよび声色データを順次読み出して，音声を合成す
る第８の工程と，を含むものである。

【００３２】また，請求項２１に係る発話文書作成方法
は，請求項２０記載の発話文書作成方法において，前記
第７の工程で，前記発話文書を再生する範囲として，前
記発話文書中の任意の文字列単位，文章単位，ページ単
位または発話文書全体の指定が可能であるものである。

【００３３】また，請求項２２に係る発話文書作成方法
は，請求項１８〜２１記載のいずれか一つの発話文書作
成方法において，さらに，前記第６の工程で記憶した発
話文書を表示し，前記表示した発話文書の任意の文字列
を指定し，前記指定した文字列の変更または再入力を行
う第９の工程とを含み，前記第９の工程で変更または再
入力された文字列を用いて，再度，前記第２の工程，第
３の工程，第４の工程，第５の工程および第６の工程を
実行することにより，前記発話文書の変更が可能である
ものである。

【００３４】また，請求項２３に係るコンピュータ読み
取り可能な記録媒体は，発話文書作成方法は，単語，文
節または文を構成する文字列を入力する第１の手順と，
単語，文節または文から成る文字列情報，前記文字列情
報の文字に対応した音韻から成る音韻列情報，前記音韻
列情報中の各音韻の継続時間長，前記音韻列情報の任意
の時点での相対的なピッチを指定するピッチ情報および
前記音韻列情報の各音韻の音量を指定するベロシティ情
報から構成される喋り方データを，前記喋り方データの
文字列情報に基づいて，前記文字列情報が同一の喋り方
データをグループ化してグループ毎に記憶したデータベ
ースを参照して，前記第１の手順で入力された文字列と
同一の文字列情報を有するグループを検索する第２の手
順と，合成する音声に声色を付加するため声色データを
指定する第３の手順と，前記第２の手順で検索したグル
ープ中の喋り方データを順次読み出して，前記読み出し
た喋り方データの音韻列情報，継続時間長，ピッチ情報
およびベロシティ情報と，前記第３の手順で指定された
声色データとを用いて，音声を合成する第４の手順と，
前記第４の手順で合成された音声から所望の音声を選択
する第５の手順と，前記第５の手順で選択した音声に対
応する喋り方データを前記１の手順で入力した文字列と
対応させて発話文書として記憶する第６の手順と，を含
むプログラムをコンピュータに実行させるものである。

【００３５】また，請求項２４に係るコンピュータ読み
取り可能な記録媒体は，単語，文節または文を構成する
文字列を入力する第１の手順と，単語，文節または文か
ら成る文字列情報，前記文字列情報の文字に対応した音
韻から成る音韻列情報，前記音韻列情報中の各音韻の継
続時間長，前記音韻列情報の任意の時点での相対的なピ
ッチを指定するピッチ情報および前記音韻列情報任意の
時点での相対的な音量を指定するベロシティ情報から構
成される喋り方データを，前記喋り方データの文字列情
報に基づいて，前記文字列情報が同一の喋り方データを
グループ化してグループ毎に記憶したデータベースを参
照して，前記第１の手順で入力された文字列と同一の文
字列情報を有するグループを検索する第２の手順と，合
成する音声に声色を付加するため声色データを指定する
第３の手順と，前記第２の手順で検索したグループ中の
喋り方データを順次読み出して，前記読み出した喋り方
データの音韻列情報，継続時間長，ピッチ情報およびベ
ロシティ情報と，前記第３の手順で指定された声色デー
タとを用いて，音声を合成する第４の手順と，前記第４
の手順で合成された音声から所望の音声を選択する第５
の手順と，前記第５の手順で選択した音声に対応する喋
り方データを前記１の手順で入力した文字列と対応させ
て発話文書として記憶する第６の手順と，を含むプログ
ラムをコンピュータに実行させるものである。

【００３６】また，請求項２５に係るコンピュータ読み
取り可能な記録媒体は，請求項２３または２４記載のコ
ンピュータ読み取り可能な記録媒体において，さらに，
前記第６の手順で記憶した発話文書の再生を指定する第
７の手順と，前記第７の手順で前記発話文書の再生が指
定されると，前記発話文書中の喋り方データおよび声色
データを順次読み出して，音声を合成する第８の手順
と，を含むプログラムをコンピュータに実行させるもの
である。

【００３７】また，請求項２６に係るコンピュータ読み
取り可能な記録媒体は，請求項２５記載のコンピュータ
読み取り可能な記録媒体において，前記第７の手順にお
いて，前記発話文書を再生する範囲として，前記発話文
書中の任意の文字列単位，文章単位，ページ単位または
発話文書全体の指定が可能であるものである。

【００３８】また，請求項２７に係るコンピュータ読み
取り可能な記録媒体は，請求項２３〜２６記載のいずれ
か一つのコンピュータ読み取り可能な記録媒体におい
て，さらに，前記第６の手順で記憶した発話文書を表示
し，前記表示した発話文書の任意の文字列を指定し，前
記指定した文字列の変更または再入力を行う第９の手順
とを含み，前記第９の手順で変更または再入力された文
字列を用いて，再度，前記第２の手順，第３の手順，第
４の手順，第５の手順および第６の手順を実行すること
により，前記発話文書の変更が可能であるものである。

【００３９】

【発明の実施の形態】以下，本発明の発話文書作成装
置，発話文書作成方法およびその発話文書作成手順をコ
ンピュータに実行させるプログラムを格納したコンピュ
ータ読み取り可能な記録媒体について，〔実施の形態
１〕，〔実施の形態２〕の順で，添付の図面を参照して
詳細に説明する。

【００４０】〔実施の形態１〕図１は，実施の形態１の
発話文書作成装置１００の概略ブロック図を示す。この
発話文書作成装置１００は，制御部１０１と，アプリケ
ーション記憶部１０２と，喋り方データ記憶部１０３
と，声色データ記憶部１０４と，音声合成部１０５と，
キー入力部１０６と，表示部１０７と，マイク１０８
と，スピーカ１０９と，発話文書記憶部１１０と，イン
タフェース（Ｉ／Ｆ）１１１と，フロッピーディスクド
ライブ（ＦＤドライブ）１１２と，ＣＤ−ＲＯＭドライ
ブ１１３と，通信部１１４と，から構成される。

【００４１】制御部１０１は，バスＢＳに結合された上
記各部を制御する中央処理ユニットであり，ＣＰＵ１０
１ａ，ＲＯＭ１０１ｂおよびＲＡＭ１０１ｃ等を備えて
いる。ＣＰＵ１０１ａはＲＯＭ１０１ｂに格納されたＯ
Ｓ（オペレーティングシステム）プログラムやアプリケ
ーション記憶部１０２に格納されたアプリケーションプ
ログラムに従って動作する。また，ＲＯＭ１０１ｂはＯ
Ｓプログラムを格納するメモリであり，ＲＡＭ１０１ｃ
は各種プログラムのワークエリアとして使用するメモリ
である。

【００４２】アプリケーション記憶部１０２は，後述す
る発話文書作成プログラム，発話文書再生プログラム，
喋り方データ作成・登録プログラム等の各種アプリケー
ションが記憶されている。また，実施の形態１の発話文
書作成装置１００は，仮名漢字変換機能を有しており，
この仮名漢字変換機能を実現する仮名漢字変換アプリケ
ーションもアプリケーション記憶部１０２に記憶されて
いる。

【００４３】喋り方データ記憶部１０３は，本発明の喋
り方データ記憶手段の役割を果たし，図２に示すよう
に，喋り方データ２０１の有する情報の一つである文字
列情報２０２に基づいて，該文字列情報２０２が同一の
喋り方データ２０１をグループ化し，文字列情報２０２
を用いてグループ単位で検索できるように記憶してい
る。

【００４４】なお，喋り方データ２０１は，単語，文節
または文から成る文字列情報２０２，文字列情報２０２
の文字に対応した音韻から成る音韻列情報２０３，音韻
列情報２０３中の各音韻の継続時間長２０４，音韻列情
報２０３の任意の時点での相対的なピッチを指定するピ
ッチ情報２０５，音韻列情報２０３の各音韻の音量を指
定するベロシティ情報２０６および各喋り方データの分
類タイプを示すタイプ情報２０７を有している。また，
詳細な説明は省略するが，文字列情報２０２以外の他の
情報（例えば音韻列情報２０３やタイプ情報２０７）を
それぞれ検索キーとして所望の喋り方データ２０１を検
索することも可能である。

【００４５】ここで，例えば，文字列情報２０２が『こ
んにちは』のグループを検索すると，音韻列情報２０３
が『コ，ン，ニ，チ，ワ』の３種類の喋り方データ２０
１が得られる。これらの喋り方データ２０１は，文字列
情報２０２と音韻列情報２０３が共通しているものの，
継続時間長２０４，ピッチ情報２０５，ベロシティ情報
２０６の何れかが異なることにより，異なる喋り方デー
タ２０１として区別することができる。

【００４６】また，例えば，文字列情報２０２が『今日
は』のグループを検索すると，音韻列情報２０３が
『コ，ン，ニ，チ，ワ』の３種類と音韻列情報２０３が
『キョ，ウ，ワ』の２種類の計５種類の喋り方データ２
０１が得られる。これらの喋り方データ２０１は，先
ず，音韻列情報２０３で２つに区別可能であり，さらに
継続時間長２０４，ピッチ情報２０５，ベロシティ情報
２０６の何れかが異なることにより，それぞれ異なる喋
り方データ２０１として区別することができる。

【００４７】なお，文字列情報２０２が『こんにちは』
のグループの３種類の喋り方データ２０１と，文字列情
報２０２が『今日は』のグループにおける音韻列情報２
０３が『コ，ン，ニ，チ，ワ』の３種類の喋り方データ
２０１は，文字列情報２０２が異なるだけで，他の情報
（音韻列情報２０３〜タイプ情報２０７）は同一であ
る。したがって，実施の形態１では説明を簡単にするた
めに，喋り方データ記憶部１０３における喋り方データ
２０１を図２に示すようにデータ・テーブルの形式で示
したが，喋り方データ２０１を，文字列情報２０２の部
分と，音韻列情報２０３〜ベロシティ情報２０６の部分
と，タイプ情報２０７の部分とに分けて，それぞれをリ
ンクして同一の情報を共通化したデータベースの形式で
記憶することにより，全体の情報の低減およびメモリの
効率的な使用が図れるのは明らかである。

【００４８】声色データ記憶部１０４は，本発明の声色
データ記憶手段の役割を果たし，合成する音声に声色を
付加するための声色データを複数記憶している。ここ
で，声色データは，例えば，音韻系列に対するスペクト
ル情報（時間的に変化していく情報であり，具体的に
は，ケプストラム，ＬＳＰパラメータ等で表現される）
の形態で記憶されている。また，複数の声色データとし
ては，図３に示すように，男性の声，女性の声，子供の
声，老人の声，掠れた声，明瞭な声，太い声，細い声，
力強い声，やさしい声，機械的な声のように，それぞれ
感覚的に識別可能な声色データが記憶されている。

【００４９】音声合成部１０５は，本発明の音声合成手
段の役割を果たし，制御部１０１が検索した喋り方デー
タ記憶部１０３のグループ中の喋り方データ２０１を順
次読み出して，読み出した喋り方データ２０１の音韻列
情報２０３，継続時間長２０４，ピッチ情報２０５およ
びベロシティ情報２０６と声色データ記憶部１０４に記
憶されている声色データの一つとを用いて音声を合成す
るものである。

【００５０】キー入力部１０６は，キーボード，マウス
等の入力デバイスを備えており，文字列の入力や，音声
の選択，発話文書の再生指定，発話文書の作成・登録等
の各種オペレーションを行うのに使用される。

【００５１】表示部１０７は，液晶表示装置またはＣＲ
Ｔディスプレイからなり，文字列の表示，発話文書の表
示，各種メッセージの表示等に使用される。

【００５２】マイク１０８は，喋り方データ２０１の作
成・登録時に，元音声波形データとなるオリジナルの肉
声をサンプリングするのに使用される。

【００５３】スピーカ１０９は，音声合成部１０５で合
成した音声の再生出力や，各種音の再生に使用される。

【００５４】発話文書記憶部１１０は，作成された発話
文書を記憶するメモリである。詳細は後述するが，発話
文書とは，選択された喋り方データ２０１および声色デ
ータを指定する声色選択番号と，キー入力部１０６を介
して入力された文字列とを対応させて作成した文書であ
る。

【００５５】Ｉ／Ｆ１１１は，バスＢＳとＦＤドライブ
１１２やＣＤ−ＲＯＭドライブ１１３との間でデータ授
受を行うユニットである。ＦＤドライブ１１２は着脱自
在のＦＤ１１２ａ（記録媒体）を装着してデータを読み
出したり書き込む動作を実施する。ＣＤ−ＲＯＭドライ
ブ１１３は着脱自在のＣＤ−ＲＯＭ１１３ａ（記録媒
体）を装着してデータを読み出す動作を実施する。な
お，発話文書記憶部１１０に記憶されている発話文書
を，Ｉ／Ｆ１１１およびＦＤドライブ１１２を介してＦ
Ｄ１１２ａに保存することも可能である。

【００５６】通信部１１４は，通信回線に接続されてお
り，その通信回線を介して外部装置との通信を行う。

【００５７】なお，実施の形態１では，制御部１０１，
キー入力部１０６および表示部１０７が本発明の文字列
入力手段および再生指定手段の役割を果たし，制御部１
０１が本発明の検索手段の役割を果たし，スピーカ１０
９，キー入力部１０６および制御部１０１が本発明の音
声選択手段および声色データ指定手段の役割を果たし，
制御部１０１および発話文書記憶部１１０が本発明の発
話文書記憶手段の役割を果たし，制御部１０１，キー入
力部１０６，表示部１０７，マイク１０８およびスピー
カ１０９が本発明の喋り方データ作成・登録手段の役割
を果たす。

【００５８】なお，実施の形態１では，キー入力部１０
６を介して文字列を入力する場合を例として説明する
が，特にこれに限定するものではなく，手書き入力装置
を接続して，手書きの文字を判別（文字認識）して文字
列を入力しても良く，さらにあらかじめ作成したワープ
ロ文書等から文字列を入力しても良い。

【００５９】図４は，実施の形態１の発話文書作成装置
１００の外観図を示す。図示の如く，ハードウェアの構
成としては，マイク１０８およびスピーカ１０９を有し
たパソコンを使用することが可能である。

【００６０】以上の構成において，発話文書の作成処理発話文書の再生処理タイプ情報を用いた発話文書の作成処理タイプ情報を用いた発話文書の再生処理喋り方データの作成・登録処理発話文書の変更処理の順で，その動作を説明する。

【００６１】発話文書の作成処理図５〜図９を参照して，発話文書の作成処理について説
明する。ここで，図５は発話文書の作成処理の概略フロ
ーチャートを示し，図６〜図９は発話文書の作成処理に
おける表示部１０７の表示画面の例を示す。なお，ここ
では発話文書作成装置１００の本体電源が投入される
と，制御部１０１がアプリケーション記憶部１０２に格
納されている発話文書作成プログラムを起動して，図５
の概略フローチャートを実行するものとする。

【００６２】先ず，文書作成者は，キー入力部１０６お
よび表示部１０７を用いて，単語，文節または文を構成
する文字列を入力する（Ｓ５０１：請求項１８の第１の
工程）。例えば，キー入力部１０６を介して文字列『こ
んにちは』を入力すると，表示部１０７には，図６
（ａ）の表示画面Ｄ１に示すように，文字列『こんにち
は』が表示される。なお，この文字列『こんにちは』を
そのまま使用することも可能であるが，ここでは，さら
に仮名漢字変換機能を用いて，図６（ｂ）の表示画面Ｄ
２に示すように，『こんにちは』→『今日は』の漢字仮
名交じりの文字列に変換したテキストを用いるものとす
る。

【００６３】次に，喋り方データ記憶部１０３から，ス
テップＳ５０１で入力した文字列『今日は』と同一の文
字列情報２０２を有するグループを検索する（Ｓ５０
２：請求項１８の第２の工程）。換言すれば，文字列
『今日は』に対応した喋り方データ２０１を検索する。
具体的には，図２に示したように，喋り方データ記憶部
１０３には，文字列『今日は』に対応する文字列情報２
０２のグループとして，音韻列情報２０３が『コ，ン，
ニ，チ，ワ』の３種類と音韻列情報２０３が『キョ，
ウ，ワ』の２種類の計５種類の喋り方データ２０１が得
られる。

【００６４】続いて，声色データの指定を選択し，合成
する音声に声色を付加するため声色データを指定する
（Ｓ５０３，Ｓ５０４：請求項１８の第３の工程）。具
体的には，例えば，図７（ａ）の表示画面Ｄ３に示すよ
うに，声色指定ボタン７０１を表示し，これをマウスで
クリックして，図７（ｂ）の表示画面Ｄ４に示すよう
に，声色データ記憶部１０４に記憶してある声色データ
を表示して選択することにより実現できる。なお，ここ
では，選択された声色データに対応する声色選択番号
（図７（ｂ）の声色データに対応する番号）を保持し，
以降，声色選択番号によって声色データを特定する。ま
た，声色データの指定を選択しない場合には，前回指定
した声色データ（すなわち，前回選択された声色選択番
号）が再度指定されたものと見做し，ステップＳ５０５
へ進むものとする。

【００６５】次に，音声合成部１０５が，ステップＳ５
０２で検索したグループ中の喋り方データ２０１を順次
読み出して，読み出した喋り方データ２０１の音韻列情
報２０３，継続時間長２０４，ピッチ情報２０５および
ベロシティ情報２０６と，指定された声色データとを用
いて，音声を合成し，スピーカ１０９を介して合成した
音声を出力する（Ｓ５０５：請求項１８の第４の工
程）。具体的には，検索したグループに属する音韻列情
報２０３が『コ，ン，ニ，チ，ワ』の３種類の喋り方デ
ータ２０１と音韻列情報２０３が『キョ，ウ，ワ』の２
種類の喋り方データ２０１が順次，音声合成されて出力
される。

【００６６】文書作成者は，順次再生される喋り方デー
タ２０１を聞いて，所望の音声を選択する（Ｓ５０６：
請求項１８の第５の工程）。ここで，所望の音声が選択
されるまで，ステップＳ５０５〜Ｓ５０６を繰り返す。

【００６７】ステップＳ５０６で所望の音声が選択され
ると，その時の声色データ（声色選択番号）と，選択し
た音声に対応する喋り方データ２０１と，ステップＳ５
０１で入力した文字列『今日は』と，を対応させて発話
文書データを作成し，発話文書記憶部１１０に記憶し
（Ｓ５０７：請求項１８の第６の工程），所定の終了キ
ーが指定されるまで，ステップＳ５０１〜Ｓ５０７を繰
り返す（Ｓ５０８）。

【００６８】図８は，上記発話文書の作成処理で作成し
た発話文書の画面表示例を示し，図９は，発話文書記憶
部１１０に記憶されている発話文書データの例を示す。
図８に示すような発話文書において，例えば，花子さん
の言葉である『今日は，一太郎さん』や，『いいえ，特
許図面の……』という部分の声色データとして女性の声
を指定し，それ以外の部分の声色データとして男性の声
を指定することにより，音声合成部１０５を介して再生
する際に，一つの発話文書を複数の声色データで再生す
ることが可能である。

【００６９】また，８０１で示す文字列『今日は』と８
０２で示す文字列『今日は』は，画面表示における文字
列は同じであるが，図９の発話文書データの９０１，９
０２で示すように，喋り方データ２０１の音韻列情報２
０３が異なるため，文字列８０１が（コ，ン，ニ，チ，
ワ）と発音され，文字列８０２が（キョ，ウ，ワ）と発
音される。したがって，文書作成者の意図した通りの読
み方で正確に文書を音声化することができる。

【００７０】前述したように発話文書の作成処理におい
て，入力した文字列（文字情報）と文書作成者の意図す
る喋り方を含む音声情報（喋り方データ）との整合性を
とった発話文書データを作成することができる。

【００７１】また，発話文書データ（換言すれば，喋り
方データ２０１）が音韻列情報２０３の他に，継続時間
長２０４，ピッチ情報２０５およびベロシティ情報２０
６を有しており，かつ，喋り方データ２０１を音声合成
した音声を文書作成者が実際に聞いて発話文書データを
作成できるので，アクセントや，声の大きさ（音量），
声の高さ等を調整して意図する喋り方を有した情報（発
話文書データ）を作成することにより，非言語情報にあ
たる感情等の表現を情報として付加することができる。

【００７２】感情等の表現としては，例えば，『わかり
ました』という文字列の喋り方データ２０１を音声合成
し，次の２種類を選択することにより，文書作成者の意
図する感情を表現することができる。

【００７３】１）『わかりました』という文字列を，し
り上がりの調子で喋る場合，わかったか否かを問いかけ
る疑問文となり，文章中における使い方によって，相手
がわかったか否か多少不安であるという感情等を含ませ
ることができる。２）『わかりました』という文字列を，例えば，『た』
の部分のみの音量を大きくして，短く喋る場合，文字通
りの意味で，理解したこと，または承諾したことを情報
として伝える一方で，文章中における使い方によって，
十分理解していること，理解したが不快であること，不
承不承の承諾であること等を感情として表現することが
できる。

【００７４】発話文書の再生処理次に，図１０〜図１３を参照して，発話文書の再生処理
について説明する。ここで，図１０は発話文書の再生処
理の概略フローチャートを示し，図１１〜図１３は発話
文書の再生処理における表示部１０７の表示画面の例を
示す。なお，図示を省略するが，表示部１０７の表示画
面上から発話文書の再生処理を選択すると，制御部１０
１がアプリケーション記憶部１０２に格納されている発
話文書再生プログラムを起動して，図１０の概略フロー
チャートを実行するものとする。

【００７５】先ず，発話文書記憶部１１０に記憶されて
いる発話文書の一覧を表示部１０７に表示し，文書作成
者に再生する発話文書の選択を促す。文書作成者がキー
入力部１０６を介して発話文書を選択する（Ｓ１００
１：請求項２０の第７の工程）と，選択された発話文書
を発話文書記憶部１１０から読み出して，表示部１０７
に表示する（Ｓ１００２）。このとき，図１１に示すよ
うに，発話文書の各文字列毎に指定されている声色デー
タに基づいて，表示する文字列のフォントや，装飾方法
（例えば，網点・反転表示等）を変えて表示することに
より，視覚的に声色データの違いを認識できるようにす
ると便利である。

【００７６】次に，キー入力部１０６および表示部１０
７を用いて発話文書を再生する再生範囲を，図１２の表
示画面上の１）発話文書中の任意の文字列単位，２）文
章単位，３）ページ単位，４）発話文書全体（文書単
位）の何れかから選択する（Ｓ１００３）。ここで，例
えば，１）の文字列単位を選択し，図１３（ａ）の表示
画面に示すように，発話文書中の任意の文字列単位（少
なくとも一つの文字列）を指定すると，指定された文字
列１３０１が反転表示される。また，２）の文章単位を
選択し，図１３（ｂ）の表示画面に示すように，発話文
書中の任意の文章単位（少なくとも一つの文章単位）を
指定すると，指定された文章１３０２が反転表示され
る。なお，３）のページ単位および４）の発話文書全体
を指定した場合には，画面表示は図１１のままで指定さ
れたページ番号または文書全体の指定を示すメッセージ
が表示されるものとする。

【００７７】ステップＳ１００３において再生範囲が指
定されると，音声合成部１０５が，指定された再生範囲
に基づいて，発話文書中の該当する発話文書データ（喋
り方データおよび声色データ）を順次読み出して，音声
を合成する（Ｓ１００４：請求項２０の第８の工程）。

【００７８】その後，指定された再生範囲の音声合成が
終了すると，表示部１０７上の所定の再生処理の終了ボ
タン（図示せず）が選択されるまで，ステップＳ１００
３〜Ｓ１００４を繰り返す（Ｓ１００５）。

【００７９】前述したように発話文書の再生処理では，
あらかじめ発話文書が，文字列（文字情報）と文書作成
者の意図する喋り方を含む音声情報（喋り方データ）と
の整合性をとった発話文書データとして作成されている
ので，表示画面上に表示された発話文書（表示された文
字列）から再生したい音声だけを視覚的に選択すること
ができる。

【００８０】また，発話文書データ（換言すれば，喋り
方データ２０１）が，音韻列情報２０３の他に，継続時
間長２０４，ピッチ情報２０５およびベロシティ情報２
０６を有しており，かつ，喋り方データ２０１を音声合
成した音声を文書作成者が実際に聞いて作成したもので
あるため，非言語情報にあたる感情等の表現が付加され
た音声として再生することができる。

【００８１】タイプ情報を用いた発話文書の作成処理タイプ情報を用いた発話文書の作成処理について説明す
る。図１４は，タイプ情報を用いた発話文書の作成処理
の概略フローチャートを示し，図示を省略するが，表示
部１０７の表示画面上からタイプ情報を用いた発話文書
の作成処理を選択すると，制御部１０１がアプリケーシ
ョン記憶部１０２に格納されているタイプ情報を用いた
発話文書作成プログラムを起動して，図１４の概略フロ
ーチャートを実行するものとする。

【００８２】なお，図１４の概略フローチャートは，基
本的に図５で示した発話文書の作成処理の概略フローチ
ャートと同じであるため，同一のステップは共通の符号
を付して，ここでは異なる部分のみを説明する。

【００８３】先ず，キー入力部１０６および表示部１０
７を用いて，喋り方データの分類タイプを指定する（Ｓ
１４０１）。ここで，分類タイプとは，例えば，それぞ
れの喋り方データに対応する音声を，東京型発音タイ
プ，大阪型発音タイプ，徳島型発音タイプ等のように地
域によって分類したものや，老人型発音タイプ，若者型
発音タイプ，高校生型発音タイプ等のように年齢によっ
て分類したものを用いることができる。換言すれば，あ
らかじめ分類タイプを決めて，その分類タイプに基づい
て，例えば，大阪型発音タイプの場合には，関西風の喋
り方データ２０１を作成し，大阪型発音タイプとして分
類し，それぞれの喋り方データ２０１のタイプ情報２０
７に登録しておく。

【００８４】図１５は分類タイプの指定画面の例を示
す。ここでは，ＴＹＰＥ１：東京型，ＴＹＰＥ２：大阪
型，ＴＹＰＥ３：老人型，ＴＹＰＥ４：若者型，ＴＹＰ
Ｅ５：高校生型の５つの分類タイプがあらかじめ用意さ
れているものとする。

【００８５】分類タイプの指定後，文字列の入力（Ｓ５
０１）が行われると，次に，喋り方データ記憶部１０３
から，ステップＳ５０１で入力された文字列と，指定さ
れた分類タイプを用いて，該文字列と同一の文字列情報
を有するグループで，かつ，指定された分類タイプと同
一のタイプ情報を有する喋り方データ２０１を喋り方デ
ータ記憶部１０３から検索する（Ｓ１４０２）。換言す
れば，該当する分類タイプの喋り方データ２０１のみが
検索されることになる。この場合，喋り方データ記憶部
１０３内に，該当する分類タイプの喋り方データ２０１
が複数存在する場合には複数の喋り方データ２０１が検
索されることになる。

【００８６】続いて，声色データの指定（Ｓ５０３，Ｓ
５０４）が実行される。

【００８７】次に，音声合成部１０５が，ステップＳ１
４０２で検索した喋り方データ２０１を読み出して，読
み出した喋り方データ２０１の音韻列情報２０３，継続
時間長２０４，ピッチ情報２０５およびベロシティ情報
２０６と，指定された声色データとを用いて，音声を合
成し，スピーカ１０９を介して合成した音声を出力する
（Ｓ５０５）。ここでは，分類タイプが指定されている
ので，該当する喋り方データ２０１のみが音声合成され
る。

【００８８】その後，所望の音声を選択すると（Ｓ５０
６），発話文書データを作成して発話文書記憶部１１０
に記憶し（Ｓ５０７），所定の終了キーが指定されるま
で，ステップＳ１４０１，Ｓ５０１，Ｓ１４０２および
Ｓ５０２〜Ｓ５０７を繰り返す（Ｓ５０８）。なお，２
回目以降のステップＳ１４０１では，特に分類タイプの
変更を行わないかぎり，すぐにステップＳ５０１へ進
み，文字列の入力が行えるものとする。

【００８９】前述したようにタイプ情報を用いた発話文
書の作成処理において，音声合成を行って再生する喋り
方データ２０１の分類タイプを指定することができるの
で，喋り方に所定の特徴を有するタイプの発話文書デー
タ（すなわち，発話文書）を容易に作成することがで
き，便利である。また，発話文書の作成時間の短縮を図
ることができる。

【００９０】なお，図１４のフローチャートでは，文字
列を入力する度に，ステップＳ５０３〜ステップＳ５０
６を実行して，声色データの指定および音声の選択を行
うようにしたが，特にこれに限定するものではなく，ス
テップＳ１４０２で該当する分類タイプの喋り方データ
２０１を検索すると，ステップＳ５０７へ進み，検索し
た喋り方データ２０１を用いて自動的に発話文書を記憶
するようにしても良い。この場合には，発話文書を構成
する文字列をある程度入力した後，後からステップＳ５
０３〜ステップＳ５０６を実行して，それぞれの文字列
に対して声色データの指定が行えるようにする。

【００９１】タイプ情報を用いた発話文書の再生処理タイプ情報を用いた発話文書の再生処理とは，再生に使
用する分類タイプを指定し，指定された分類タイプと，
の発話文書の作成処理で作成した発話文書（発話文書
記憶部１１０に記憶されている発話文書）の中の文字列
情報２０２および音韻列情報２０３とを用いて，喋り方
データ記憶部１０３から該当する喋り方データ２０１を
検索し，検索した喋り方データ２０１との発話文書の
作成処理で作成した発話文書（発話文書記憶部１１０に
記憶されている発話文書）の中の声色データとを用い
て，音声合成部１０５で音声を合成し，スピーカ１０９
を介して再生出力するものである。

【００９２】換言すれば，の発話文書の作成処理で指
定した喋り方データ２０１の継続時間長２０４，ピッチ
情報２０５およびベロシティ情報２０６を使用せずに，
タイプ情報２０７によって特定された喋り方データ２０
１の継続時間長２０４，ピッチ情報２０５およびベロシ
ティ情報２０６を用いるものである。

【００９３】図１６は，タイプ情報を用いた発話文書の
再生処理の概略フローチャートを示し，図示を省略する
が，表示部１０７の表示画面上からタイプ情報を用いた
発話文書の再生処理を選択すると，制御部１０１がアプ
リケーション記憶部１０２に格納されているタイプ情報
を用いた発話文書再生プログラムを起動して，図１６の
概略フローチャートを実行するものとする。

【００９４】先ず，発話文書記憶部１１０に記憶されて
いる発話文書の一覧を表示部１０７に表示し，文書作成
者に再生する発話文書の選択を促す。文書作成者がキー
入力部１０６を介して発話文書を選択する（Ｓ１６０
１）と，選択された発話文書を発話文書記憶部１１０か
ら読み出して，表示部１０７に表示する（Ｓ１６０
２）。

【００９５】次に，キー入力部１０６および表示部１０
７を用いて，再生に使用する分類タイプを指定する（Ｓ
１６０３）。なお，分類タイプの指定は，図１５の表示
画面を使用して指定することができる。

【００９６】続いて，指定された分類タイプと，選択さ
れた発話文書の中の文字列情報２０２および音韻列情報
２０３とを用いて，喋り方データ記憶部１０３から該当
する喋り方データ２０１を検索する（Ｓ１６０４）。

【００９７】次に，音声合成部１０５が，検索した喋り
方データ２０１の音韻列情報２０３，継続時間長２０
４，ピッチ情報２０５およびベロシティ情報２０６と，
選択された発話文書の中の声色データ（検索に使用した
音韻列情報２０３を含む発話文書データの声色データ）
とを用いて，音声を合成し，スピーカ１０９を介して再
生出力する（Ｓ１６０５）。これによって，指定された
分類タイプおよび声色データで，該当する文字列情報２
０２および音韻列情報２０３が，音声合成されたことに
なる。

【００９８】その後，選択された発話文書の全ての文字
列を音声合成したか否か判定し（Ｓ１６０６），該当す
る発話文書中の文字列を全て音声合成して出力するま
で，ステップＳ１６０４，Ｓ１６０５を繰り返し，出力
が終わると処理を終了する。

【００９９】前述したようにタイプ情報を用いた発話文
書の再生処理を実行することにより，既に作成した発話
文書で，喋り方（すなわち，喋り方データ２０１）が設
定されている場合でも，分類タイプを指定することで，
異なる喋り方で音声を再生することが可能である。

【０１００】喋り方データの作成・登録処理次に，図１７〜図２５を参照して，新規に喋り方データ
２０１を作成して，喋り方データ記憶部１０３に登録す
る方法について説明する。喋り方データ２０１は，図２
で示したように，文字列情報２０２，音韻列情報２０
３，継続時間長２０４，ピッチ情報２０５，ベロシティ
情報２０６およびタイプ情報２０７から構成される。し
たがって，喋り方データ２０１の作成とは，これらの情
報を作成または設定することである。

【０１０１】なお，喋り方データ２０１は，原則とし
て，あらかじめ標準となるものが作成されて喋り方デー
タ記憶部１０３に複数登録されているものとするが，文
書作成者の個々の感覚によって自由に喋り方データ２０
１を作成し，登録することにより，喋り方（音声）の選
択を広げることができ，さらに発話文書の表現力を増す
ことができる。

【０１０２】図１７は，喋り方データの作成・登録処理
の概略フローチャートを示す。先ず，あらかじめ収録し
た音声波形データを入力またはマイク１０８を用いて自
然音声（ユーザが発話した肉声）を入力し（Ｓ１７０
１），入力した自然音声を解析してデジタル化した後，
音声波形データを生成して表示部１０７に表示する（Ｓ
１７０２）。なお，ここで，あらかじめ収録した音声波
形データとは，発話文書作成装置１００において，事前
にマイク１０８を用いて自然音声を入力し，アプリケー
ション記憶部１０２や，Ｉ／Ｆ１１１およびＦＤドライ
ブ１１２を介してＦＤ１１２ａに保存しておいた音声波
形データを示す。また，他の装置で収録した音声波形デ
ータを入力して用いても良い。

【０１０３】生成された音声波形データは，図１８の１
０Ｂで示すように表示部１０７の表示画面上に表示され
る。なお，図１８は，表示部１０７に表示される喋り方
データの作成・登録処理の表示画面を示し，音韻列情報
２０３を表示するウインドである音節表示ウインド１０
Ａと，入力した自然音声から生成した音声波形データを
表示するウインドである元波形表示ウインド１０Ｂと，
喋り方データ２０１から合成した波形データを表示する
ウインドである合成波形表示ウインド１０Ｃと，ピッチ
情報２０５を表示するウインドであるピッチ表示ウイン
ド１０Ｄと，ベロシティ情報２０６を表示するウインド
であるベロシティ表示ウインド１０Ｅと，元波形表示ウ
インド１０Ｂに表示されている音声波形データの音声再
生／停止を指定するための元音声再生／停止ボタン１０
Ｆと，合成波形表示ウインド１０Ｃに表示されている波
形データの音声再生／停止を指定するための音声再生／
停止ボタン１０Ｇと，ピッチ情報２０５のピッチ基準を
設定するためのピッチ基準設定目盛り１０Ｈと，文字列
情報２０２を入力するための文字列入力エリア１０Ｙ
と，を有している。

【０１０４】次に，ステップＳ１７０２で生成した音声
波形データの音韻分析を行って各音韻の継続時間長を求
め，求めた各音韻の継続時間長を時間軸上で視覚化した
ラベルを生成し，表示部１０７に表示する（Ｓ１７０
３）。ここで，視覚化したラベルとは，図１９の表示画
面に示すように，各ウインド１０Ａ〜１０Ｅを縦方向に
横切る線１０Ｉを示す。なお，音韻分析によって自動的
に付与された各ラベル１０Ｉの位置は，キー入力部１０
６のマウスを用いて，マニュアルで移動（または変更）
可能とする。これは，音韻分析の精度が低い場合に，よ
り適切な位置にラベル１０Ｉを付与できるようにするた
めである。

【０１０５】続いて，設定されたラベル（すなわち，継
続時間長）１０Ｉで仕切られたスペースに対応する音韻
列情報を入力する（Ｓ１７０４）。具体的には，キー入
力部１０６を用いたマニュアル操作で，音節表示ウイン
ド１０Ａのラベル１０Ｉの間に該当する音韻（文字）を
入力する。図２０は，音韻列情報２０３を入力した例を
示し，時間軸上，先頭から「ヨ」，「ロ」，「Ｕシ」，
「イ」，「デ」，「Ｕス」，「，」，「カ」の順で音韻
入力された例を示している。この入力された音韻の内，
「Ｕシ」および「Ｕス」は無声化音韻を示し，その他は
有声化音韻を示す。

【０１０６】続くステップＳ１７０５では，音声波形デ
ータをピッチ分析してピッチ曲線を表示する。図２１に
は，ピッチ表示ウインド１０Ｄに表示されたピッチ分析
後のピッチ曲線が示されている。

【０１０７】続くステップＳ１７０６では，ピッチ調整
が行われる。このピッチ調整には，後述するピッチラベ
ルの追加や削除，ピッチ基準のピッチ値の変更等の操作
が含まれている。すなわち，ステップＳ１７０６では，
音韻列情報２０３の任意の時点でのピッチの値を調整ま
たは追加してピッチ情報２０５を生成する。図２２は，
ピッチ調整においてピッチラベル１０Ｊを追加した例を
示し，音韻を仕切るラベル１０Ｉにさらにピッチラベル
１０Ｊが追加されている。この追加操作は，ピッチ表示
ウインド１０Ｄ内に直接マウス等でラベル位置を指定す
れば良い。このようにして新たに付与されたピッチは隣
り合うピッチと直線で結ばれるので，一つの音韻の中に
所望のピッチ変化を与えることができ，理想とする声質
に加工することが容易となる。

【０１０８】続くステップＳ１７０７では，ステップＳ
１７０６までの処理でピッチ調整を終えた段階での合成
波形が生成され，例えば，図２３の表示画面に示すよう
に，合成波形表示ウインド１０Ｃに合成した波形データ
が表示される。このとき，ベロシティは未設定であるた
め，図示の如く，ベロシティ表示ウインド１０Ｅにはプ
レーンなベロシティが表示される。

【０１０９】なお，詳細な説明は省略するが，ステップ
Ｓ１７０７において，合成波形表示ウインド１０Ｃに表
示されている合成した波形データと，元波形表示ウイン
ド１０Ｂに表示されているオリジナルの音声波形データ
とを比較再生させることが可能である。また，この段階
では，合成される音声の声色の種類（声色データ）はデ
フォルトの声色とする。具体的には，音声再生／停止ボ
タン１０Ｇを操作して合成した波形データの再生または
停止を行うことができ，元音声再生／停止ボタン１０Ｆ
を操作して音声波形データの再生または停止を行うこと
ができる。

【０１１０】続くステップＳ１７０８では，音韻の音量
を示すベロシティ（ベロシティ情報２０６）をマニュア
ル操作で調整する。すなわち，音韻列情報２０３の各音
韻の音量を調整してベロシティ情報２０６を生成する。
このベロシティの調整は，図２４に示すように，音韻毎
に行われ，あらかじめ決められた段階の範囲（例えば，
１６段階）で調整される。

【０１１１】このベロシティの調整後に，再び合成した
波形データの再生が操作されると，音韻毎に声の強さが
変化して，プレーンなベロシティ状態と比較して，声
（音声）に抑揚を付加される。

【０１１２】次に，ステップＳ１７０９において，文書
作成者（ここでは喋り方データの作成者）が意図する音
声波形データに対応する文字列を入力して文字列情報２
０２を設定する。例えば，図２５に示すように，キー入
力部１０６を介して文字列入力エリア１０Ｙに文字列
『宜しいですか』を入力すると，この文字列『宜しいで
すか』が文字列情報２０２として設定される。

【０１１３】続くステップＳ１７１０では，設定された
文字列情報２０２に基づいて，喋り方データ記憶部１０
３の該当するグループを検索し，検索したグループ中に
喋り方データ２０１を追加登録する。すなわち，文字列
入力エリア１０Ｙに設定された文字列情報２０２と，音
節表示ウインド１０Ａに入力された音韻列情報２０３
と，視覚化したラベルとして設定された継続時間長２０
４と，ピッチ表示ウインド１０Ｄに設定されたピッチ情
報２０５と，ベロシティ表示ウインド１０Ｅに設定され
たベロシティ情報２０６とから喋り方データ２０１を生
成し，喋り方データ記憶部１０３に記憶する。

【０１１４】なお，説明を省略するが，このように登録
した喋り方データ２０１のタイプ情報２０７は，喋り方
データ２０１の登録後に，別途，分類タイプ設定・変更
処理を実行して設定するものとする。これは，喋り方デ
ータ２０１の作成作業と分類タイプの設定作業を同時に
行うと，文書作成者の感覚が鈍り，タイプの分類が的確
に行えなくなることを考慮したものであり，上記ステッ
プＳ１７０９の後にステップを追加してタイプ情報２０
７の設定を行うようにしても良いのは勿論である。

【０１１５】また，実施の形態１では，マイク１０８を
用いて自然音声を入力して音声波形データを生成した
が，喋り方データ記憶部１０３に記憶されている喋り方
データ２０１の一つを指定して，オリジナルの音声波形
データとして入力し，この喋り方データ２０１の持つ，
継続時間長２０４，ピッチ情報２０５およびベロシティ
情報２０６を修正して，喋り方データ２０１の有する文
字列情報２０２および音韻列情報２０３と，修正後の継
続時間長２０４，ピッチ情報２０５およびベロシティ情
報２０６を用いて新規の喋り方データ２０１を作成し
て，喋り方データ記憶部１０３に登録しても良い。

【０１１６】また，実施の形態１では，ステップＳ１７
０３でラベルを生成した後，ステップＳ１７０４で音韻
列情報を入力する例を示したが，例えば，音韻列情報を
入力した後，ラベルを生成しても良い。さらに，音声認
識技術を用いることにより，音韻列情報の入力からラベ
ルの生成までを自動化することも可能である。

【０１１７】発話文書の変更処理発話文書の変更処理は，発話文書記憶部１１０に記憶さ
れている発話文書を再度表示部１０７に表示して，発話
文書を構成する文字列および喋り方データ２０１を変更
するものである。

【０１１８】図２６は，発話文書の変更処理の概略フロ
ーチャートを示す。先ず，発話文書記憶部１１０に記憶
されている発話文書の一覧を表示部１０７に表示し，文
書作成者に変更する発話文書の選択を促す。文書作成者
がキー入力部１０６を介して発話文書を選択する（Ｓ２
６０１）と，選択された発話文書を発話文書記憶部１１
０から読み出して，表示部１０７に表示する（Ｓ２６０
２）。

【０１１９】次に，表示画面（図示せず）から変更する
項目を指定する（Ｓ２６０３）。ここで，変更可能な項
目としては，１）発話文書中の文字列の変更，２）文字
列に対応する喋り方データの変更，３）喋り方データ中
の情報の変更，４）声色データの変更がある。

【０１２０】次に，変更の対象となる文字列を指定する
と（Ｓ２６０４），ステップＳ２６０３で指定された変
更項目を判定し（Ｓ２６０５），変更項目にしたがって
ステップＳ２６０６〜ステップＳ２６０９の何れかへ進
む。

【０１２１】１）発話文書中の文字列の変更の場合に
は，ステップＳ２６０６へ進み，文字列の変更処理を実
行する。この文字列の変更処理は，基本的に図５で示し
た発話文書の作成処理の概略フローチャートと同様の処
理を行うものである。異なる部分は，図５のステップＳ
５０７が，作成した発話文書（すなわち，入力した文字
列を用いて作成した発話文書）を用いて，変更指定され
た文字列部分の発話文書（喋り方データ記憶部１０３に
記憶されている元の発話文書）を置き換える点である。

【０１２２】２）文字列に対応する喋り方データの変更
の場合には，ステップＳ２６０７へ進み，喋り方データ
の変更処理を実行する。この喋り方データの変更処理
は，基本的に図５で示した発話文書の作成処理の概略フ
ローチャートからステップＳ５０１を除いた他のステッ
プを実行するものである。異なる部分は，図５のステッ
プＳ５０７が，作成した発話文書（すなわち，喋り方デ
ータ変更後の発話文書）を用いて，変更指定された文字
列部分の発話文書（喋り方データ記憶部１０３に記憶さ
れている元の発話文書）を置き換える点である。

【０１２３】３）喋り方データ中の情報の変更の場合に
は，ステップＳ２６０８へ進み，喋り方データ中の情報
の変更処理を実行する。喋り方データ中の情報の変更処
理は，基本的に図１７で示した喋り方データの作成・登
録処理と同様の方法で実現することできる。すなわち，
変更指定された文字列部分の喋り方データ２０１が有す
る文字列情報２０２，音韻列情報２０３，継続時間長２
０４，ピッチ情報２０５およびベロシティ情報２０６を
オリジナルの情報として，それぞれ文字列入力エリア１
０Ｙ，音節表示ウインド１０Ａ，視覚化したラベル，ピ
ッチ表示ウインド１０Ｄ，ベロシティ表示ウインド１０
Ｅに設定した後，視覚化したラベルの調整，ピッチの調
整，ベロシティの調整を行って喋り方データ２０１を変
更するものである。

【０１２４】４）声色データの変更の場合には，ステッ
プＳ２６０９へ進み，声色データの変更処理を実行す
る。この喋り方データの変更処理は，基本的に図５で示
した発話文書の作成処理の概略フローチャートのステッ
プＳ５０３とステップＳ５０４を実行するものである。
すなわち，声色データの変更が指定された文字列に対応
する発話文書（発話文書データ）中の声色データを，新
たに指定された声色データで置き換えるものである。

【０１２５】このように発話文書記憶部１１０に記憶さ
れている発話文書を変更することが可能であるため，作
成した発話文書を効率的に利用することが可能となる。
例えば，定型の発話文書を作成しておき，必要な部分の
みを変更して使用することができる。

【０１２６】前述したように実施の形態１によれば，文
字情報（文字列）と音声情報（喋り方データ）という２
つの表現形態の情報を整合性の取れた形で複合した情報
（発話文書）を作成することができる。

【０１２７】また，発話文書作成装置１００で作成した
発話文書は，文字情報と文書作成者の意図する喋り方を
含む音声情報（喋り方データ）とが１対１に対応してい
るため，通常の文書作成装置（日本語ワードプロセッ
サ，英文ワードプロセッサ）における文書の移動・複写
と同様の操作を行っても，文字情報と音声情報の整合が
崩れることがなく，発話文書の編集が容易に行える。し
たがって，聴くだけでなく，見ながら作業をすすめるこ
とができるため，音声情報の編集が容易にできる。

【０１２８】さらに，使用目的に応じて，文字と音声の
両方を同時に提示することができると共に，どちらか一
方の情報を切り出して，一方の情報のみを提示すること
もできる。例えば，本発明の発話文書作成装置で作成さ
れた発話文書を電子メール等で受信した場合に，外出先
から電話で音声情報（喋り方データを用いて合成した音
声）のみを取り出すことが可能である。

【０１２９】また，文書作成者が所望の音声（喋り方デ
ータ）を選択して発話文書を作成できるので，作成した
発話文書に基づいて音声合成を行った際に，読みや，ア
クセント等の間違いのない，換言すれば，文書作成者の
意図する正確な音声を出力することが可能となる。

【０１３０】また，実施の形態１で説明した発話文書作
成手順をプログラム化し，これをコンピュータ読み取り
可能な記録媒体に，コンピュータが実行可能なプログラ
ムとして格納することができる。

【０１３１】〔実施の形態２〕実施の形態２は，発話文
書の作成処理の中で喋り方データ２０１の編集（喋り方
データ中の情報の変更処理）を行えるようにすると共
に，喋り方データ２０１のベロシティ情報２０６を，音
韻列情報２０３の任意の時点での相対的な音量を指定す
る情報としたものである。なお，基本的な構成および動
作は，実施の形態１の発話文書作成装置１００と同様に
つき，ここでは異なる部分のみを説明する。

【０１３２】図２７は，実施の形態２の発話文書の作成
処理の概略フローチャートを示す。なお，基本的な動作
は，図５に示した実施の形態１の発話文書の作成処理と
同様につき，同一のステップは共通の符号を付けて簡単
に説明する。

【０１３３】先ず，文書作成者は，キー入力部１０６お
よび表示部１０７を用いて，単語，文節または文を構成
する文字列を入力する（Ｓ５０１：請求項１９の第１の
工程）。次に，喋り方データ記憶部１０３から，ステッ
プＳ５０１で入力した文字列と同一の文字列情報２０２
を有するグループを検索する（Ｓ５０２：請求項１９の
第２の工程）。

【０１３４】続いて，声色データの指定を選択し，合成
する音声に声色を付加するため声色データを指定する
（Ｓ５０３，Ｓ５０４：請求項１９の第３の工程）。こ
こでは，選択された声色データに対応する声色選択番号
を保持し，以降，声色選択番号によって声色データを特
定する。また，声色データの指定を選択しない場合に
は，前回指定した声色データ（すなわち，前回選択され
た声色選択番号）が再度指定されとものと見做し，ステ
ップＳ５０５へ進むものとする。

【０１３５】次に，音声合成部１０５が，ステップＳ５
０２で検索したグループ中の喋り方データ２０１を順次
読み出して，読み出した喋り方データ２０１の音韻列情
報２０３，継続時間長２０４，ピッチ情報２０５および
ベロシティ情報２０６と，指定された声色データとを用
いて，音声を合成し，スピーカ１０９を介して合成した
音声を出力する（Ｓ５０５：請求項１９の第５の工
程）。

【０１３６】続いて，文書作成者は，順次再生される喋
り方データ２０１を聞いて，所望の音声を選択するか，
または所望の音声が存在しない場合には喋り方データの
編集を選択した後，最も近い音声を選択する。なお，喋
り方データの編集の選択は，図７に示した声色データの
指定の表示画面と同様の方法で行うものとする。この選
択の有無にしたがって，ステップＳ５０６およびＳ２７
０１において，音声が選択されたか，または喋り方デー
タの編集が選択されたかを判定する。

【０１３７】所望の音声が選択されると，その時の声色
データ（声色選択番号）と，選択した音声に対応する喋
り方データ２０１と，ステップＳ５０１で入力した文字
列と，を対応させて発話文書データを作成し，発話文書
記憶部１１０に記憶し（Ｓ５０７：請求項１９の第６の
工程），所定の終了キーが指定されるまで，ステップＳ
５０１以下の処理を繰り返す（Ｓ５０８）。

【０１３８】一方，喋り方データの編集が選択される
と，ステップＳ２７０２へ進み，最も近い音声が選択さ
れたか否かを判定し，最も近い音声が選択されると，ス
テップＳ２７０３へ進み，後述するように，図２８の喋
り方データ中の情報の変更処理の概略フローチャートを
実行する。

【０１３９】その後，喋り方データ中の情報の変更処理
で変更した喋り方データ２０１と，その時の声色データ
（声色選択番号）と，ステップＳ５０１で入力した文字
列と，を対応させて発話文書データを作成し，発話文書
記憶部１１０に記憶し（Ｓ５０７），所定の終了キーが
指定されるまで，ステップＳ５０１以下の処理を繰り返
す（Ｓ５０８）。

【０１４０】図２８は，実施の形態２における喋り方デ
ータ中の情報の変更処理の概略フローチャートを示す。
先ず，選択した最も近い音声に対応する喋り方データ２
０１が有する文字列情報２０２，音韻列情報２０３，継
続時間長２０４，ピッチ情報２０５およびベロシティ情
報２０６を喋り方データ記憶部１０３から読み出す（Ｓ
２８０１）。

【０１４１】次に，図２９に示すように，ステップＳ２
８０１で読み出した文字列情報２０２，音韻列情報２０
３，継続時間長２０４，ピッチ情報２０５およびベロシ
ティ情報２０６を，それぞれ文字列入力エリア１０Ｙ，
音節表示ウインド１０Ａ，視覚化したラベル，ピッチ表
示ウインド１０Ｄ，ベロシティ表示ウインド１０Ｅに設
定（すなわち，表示）する（Ｓ２８０２）。また，この
とき喋り方データ２０１から合成した波形データを元波
形表示ウインド１０Ｂに表示する。

【０１４２】続いて，図２９の表示画面上において，視
覚化したラベルの調整，ピッチの調整またはベロシティ
の調整を行って喋り方データ２０１の情報を変更する
（Ｓ２８０３）。なお，実施の形態２では，喋り方デー
タ２０１のベロシティ情報２０６を，音韻列情報２０３
の単位とは無関係に音韻列情報２０３の任意の時点での
相対的な音量として指定および調整することが可能であ
る。具体的には，音韻列情報２０３の単位（区切り）を
示すラベル１０Ｉとは別に，任意の位置にラベル１０Ｋ
を指定し，音量（ベロシティ情報２０６）を調整するこ
とができるものとする。これによって，さらに喋り方を
多様に編集することができる。

【０１４３】次に，調整後の情報に基づいて合成波形を
生成し，例えば，図３０の表示画面に示すように，合成
波形表示ウインド１０Ｃに合成した波形データを表示す
ると共に，音声合成を行って再生する（Ｓ２８０４）。
なお，詳細な説明は省略するが，ステップＳ２８０２に
おいて，合成波形表示ウインド１０Ｃに表示されている
合成した波形データと，元波形表示ウインド１０Ｂに表
示されているオリジナルの喋り方データから合成した波
形データとを比較再生させることが可能であるものとす
る。

【０１４４】その後，所定の終了キーが指定されるま
で，ステップＳ２８０３〜Ｓ２８０４の処理を繰り返す
（Ｓ２８０５）。

【０１４５】前述したように実施の形態２によれば，発
話文書の作成中に，喋り方データ中の細部の情報の編集
（ラベルの調整，ピッチの調整およびベロシティの調
整）を行うことができるので，さらに利便性を向上させ
ることができる。

【０１４６】また，喋り方データ２０１のベロシティ情
報２０６を，音韻列情報２０３の任意の時点での相対的
な音量を指定する情報としたため，文書作成者の意図す
る喋り方データの作成が容易になると共に，さらに多彩
な表現の喋り方を作成することができる。

【０１４７】

【発明の効果】以上説明したように，本発明の発話文書
作成装置（請求項１）は，単語，文節または文から成る
文字列情報，文字列情報の文字に対応した音韻から成る
音韻列情報，音韻列情報中の各音韻の継続時間長，音韻
列情報の任意の時点での相対的なピッチを指定するピッ
チ情報および音韻列情報の各音韻の音量を指定するベロ
シティ情報から構成される喋り方データを，喋り方デー
タの文字列情報に基づいて，文字列情報が同一の喋り方
データをグループ化してグループ毎に記憶した喋り方デ
ータ記憶手段と，単語，文節または文を構成する文字列
を入力するための文字列入力手段と，文字列入力手段を
介して入力された文字列を用いて，文字列と同一の文字
列情報を有するグループを喋り方データ記憶手段から検
索する検索手段と，合成する音声に声色を付加するため
の声色データを複数記憶した声色データ記憶手段と，検
索手段で検索したグループ中の喋り方データを順次読み
出して，読み出した喋り方データの音韻列情報，継続時
間長，ピッチ情報およびベロシティ情報と声色データ記
憶手段に記憶されている声色データの一つとを用いて音
声を合成する音声合成手段と，音声合成手段で合成され
た音声から所望の音声を選択するための音声選択手段
と，音声選択手段を用いて選択された音声に対応する喋
り方データを文字列入力手段を介して入力された文字列
と対応させて発話文書として記憶する発話文書記憶手段
と，を備えたため，文字情報と音声情報という２つの表
現形態の情報を整合性の取れた形で複合した情報（発話
文書）を作成することができる。また，文字情報と文書
作成者の意図する喋り方を含む音声情報（喋り方デー
タ）との整合性をとった情報（発話文書）を作成して，
文書中に非言語情報にあたる感情等の表現を付加するこ
とができる。さらに，文書作成者の意図する喋り方で正
確に音声を合成することができる。

【０１４８】また，本発明の発話文書作成装置（請求項
２）は，単語，文節または文から成る文字列情報，文字
列情報の文字に対応した音韻から成る音韻列情報，音韻
列情報中の各音韻の継続時間長，音韻列情報の任意の時
点での相対的なピッチを指定するピッチ情報および音韻
列情報の任意の時点での相対的な音量を指定するベロシ
ティ情報から構成される喋り方データを，喋り方データ
の文字列情報に基づいて，文字列情報が同一の喋り方デ
ータをグループ化してグループ毎に記憶した喋り方デー
タ記憶手段と，単語，文節または文を構成する文字列を
入力するための文字列入力手段と，文字列入力手段を介
して入力された文字列を用いて，文字列と同一の文字列
情報を有するグループを喋り方データ記憶手段から検索
する検索手段と，合成する音声に声色を付加するための
声色データを複数記憶した声色データ記憶手段と，検索
手段で検索したグループ中の喋り方データを順次読み出
して，読み出した喋り方データの音韻列情報，継続時間
長，ピッチ情報およびベロシティ情報と声色データ記憶
手段に記憶されている声色データの一つとを用いて音声
を合成する音声合成手段と，音声合成手段で合成された
音声から所望の音声を選択するための音声選択手段と，
音声選択手段を用いて選択された音声に対応する喋り方
データを文字列入力手段を介して入力された文字列と対
応させて発話文書として記憶する発話文書記憶手段と，
を備えたため，文字情報と音声情報という２つの表現形
態の情報を整合性の取れた形で複合した情報（発話文
書）を作成することができる。また，文字情報と文書作
成者の意図する喋り方を含む音声情報（喋り方データ）
との整合性をとった情報（発話文書）を作成して，文書
中に非言語情報にあたる感情等の表現を付加することが
できる。さらに，文書作成者の意図する喋り方で正確に
音声を合成することができる。

【０１４９】また，本発明の発話文書作成装置（請求項
３）は，発話文書の再生を指定し，発話文書中の喋り方
データを順次読み出して，音声を合成することができる
ため，発話文書の確認が容易に行える。

【０１５０】また，本発明の発話文書作成装置（請求項
４）は，発話文書を再生する範囲として，発話文書中の
任意の文字列単位，文章単位，ページ単位または発話文
書全体の指定が可能であるため，発話文書の再生・確認
が容易に行える。

【０１５１】また，本発明の発話文書作成装置（請求項
５）は，単語，文節または文から成る文字列情報，文字
列情報の文字に対応した音韻から成る音韻列情報，音韻
列情報中の各音韻の継続時間長，音韻列情報の任意の時
点での相対的なピッチを指定するピッチ情報および音韻
列情報の各音韻の音量を指定するベロシティ情報から構
成される喋り方データを，喋り方データの文字列情報に
基づいて，文字列情報が同一の喋り方データをグループ
化してグループ毎に記憶した喋り方データ記憶手段と，
単語，文節または文を構成する文字列を入力するための
文字列入力手段と，文字列入力手段を介して入力された
文字列を用いて，文字列と同一の文字列情報を有するグ
ループを喋り方データ記憶手段から検索する検索手段
と，合成する音声に声色を付加するための声色データを
複数記憶した声色データ記憶手段と，声色データ記憶手
段に記憶されている声色データの一つを指定するための
声色データ指定手段と，検索手段で検索したグループ中
の喋り方データを順次読み出して，読み出した喋り方デ
ータの音韻列情報，継続時間長，ピッチ情報およびベロ
シティ情報と声色データ指定手段で指定された声色デー
タとを用いて音声を合成する音声合成手段と，音声合成
手段で合成された音声から所望の音声を選択するための
音声選択手段と，音声選択手段を用いて選択された音声
に対応する喋り方データおよび声色データを文字列入力
手段を介して入力された文字列と対応させて発話文書と
して記憶する発話文書記憶手段と，を備えたため，文字
情報と音声情報という２つの表現形態の情報を整合性の
取れた形で複合した情報（発話文書）を作成することが
できる。また，文字情報と文書作成者の意図する喋り方
を含む音声情報（喋り方データ）との整合性をとった情
報（発話文書）を作成して，文書中に非言語情報にあた
る感情等の表現を付加することができる。さらに，文書
作成者の意図する喋り方で正確に音声を合成することが
できる。

【０１５２】また，本発明の発話文書作成装置（請求項
６）は，単語，文節または文から成る文字列情報，文字
列情報の文字に対応した音韻から成る音韻列情報，音韻
列情報中の各音韻の継続時間長，音韻列情報の任意の時
点での相対的なピッチを指定するピッチ情報および音韻
列情報の任意の時点での相対的な音量を指定するベロシ
ティ情報から構成される喋り方データを，喋り方データ
の文字列情報に基づいて，文字列情報が同一の喋り方デ
ータをグループ化してグループ毎に記憶した喋り方デー
タ記憶手段と，単語，文節または文を構成する文字列を
入力するための文字列入力手段と，文字列入力手段を介
して入力された文字列を用いて，文字列と同一の文字列
情報を有するグループを喋り方データ記憶手段から検索
する検索手段と，合成する音声に声色を付加するための
声色データを複数記憶した声色データ記憶手段と，声色
データ記憶手段に記憶されている声色データの一つを指
定するための声色データ指定手段と，検索手段で検索し
たグループ中の喋り方データを順次読み出して，読み出
した喋り方データの音韻列情報，継続時間長，ピッチ情
報およびベロシティ情報と声色データ指定手段で指定さ
れた声色データとを用いて音声を合成する音声合成手段
と，音声合成手段で合成された音声から所望の音声を選
択するための音声選択手段と，音声選択手段を用いて選
択された音声に対応する喋り方データおよび声色データ
を文字列入力手段を介して入力された文字列と対応させ
て発話文書として記憶する発話文書記憶手段と，を備え
たため，文字情報と音声情報という２つの表現形態の情
報を整合性の取れた形で複合した情報（発話文書）を作
成することができる。また，文字情報と文書作成者の意
図する喋り方を含む音声情報（喋り方データ）との整合
性をとった情報（発話文書）を作成して，文書中に非言
語情報にあたる感情等の表現を付加することができる。
さらに，文書作成者の意図する喋り方で正確に音声を合
成することができる。

【０１５３】また，本発明の発話文書作成装置（請求項
７）は，喋り方データを作成して喋り方データ記憶手段
に登録する喋り方データ作成・登録手段を備えたため，
文書作成者が所望の喋り方データを作成・登録すること
ができ，発話文書を用いた音声（喋り方）の表現を豊か
にすることができる。

【０１５４】また，本発明の発話文書作成装置（請求項
８）は，喋り方データ中の情報である文字列情報，音韻
列情報，継続時間長，ピッチ情報およびベロシティ情報
をそれぞれ設定して喋り方データを作成し，喋り方デー
タ記憶手段に登録するため，文書作成者が所望の喋り方
データを作成・登録することができ，発話文書を用いた
音声（喋り方）の表現を豊かにすることができる。

【０１５５】また，本発明の発話文書作成装置（請求項
９）は，発話文書の再生を指定し，発話文書中の喋り方
データを順次読み出して，音声を合成することができる
ため，発話文書の確認が容易に行える。

【０１５６】また，本発明の発話文書作成装置（請求項
１０）は，発話文書を再生する範囲として，発話文書中
の任意の文字列単位，文章単位，ページ単位または発話
文書全体の指定が可能であるため，発話文書の再生・確
認が容易に行える。

【０１５７】また，本発明の発話文書作成装置（請求項
１１）は，文字列入力手段を用いて，発話文書記憶手段
に記憶されている発話文書を表示し，表示した発話文書
の任意の文字列を指定し，指定した文字列の変更または
再入力が可能であり，変更または再入力された文字列を
用いて，検索手段による検索，声色データ指定手段によ
る声色データの指定，音声合成手段による音声の合成お
よび音声選択手段による音声の選択を行うことにより，
指定した文字列に対応する喋り方データおよび声色デー
タの変更が可能であるため，発話文書の利用範囲，利便
性の向上を図ることができる。

【０１５８】また，本発明の発話文書作成装置（請求項
１２）は，複数の声色データとして，男性の声，女性の
声，子供の声，老人の声，掠れた声，明瞭な声，太い
声，細い声，力強い声，やさしい声，機械的な声のよう
に，それぞれ感覚的に識別可能な声色データを有してい
るため，発話文書の利用範囲，利便性の向上を図ること
ができる。また，より多彩な音声合成を行うことができ
る。

【０１５９】また，本発明の発話文書作成装置（請求項
１３）は，仮名漢字変換機能を有し，文字例入力手段で
入力した文字列として仮名漢字変換機能を用いて変換し
た後の漢字仮名交じりのテキストを用いることができる
ので，発話文書の利用範囲，利便性の向上を図ることが
できる。また，より自由な文書表現を行うことができ
る。

【０１６０】また，本発明の発話文書作成装置（請求項
１４）は，喋り方データが，文字列情報，音韻列情報，
継続時間長，ピッチ情報およびベロシティ情報に加え
て，それぞれの喋り方データの分類タイプを示すタイプ
情報を有し，分類タイプが指定されると，入力された文
字列と同一の文字列情報を有するグループで，かつ，指
定された分類タイプと同一のタイプ情報を有する喋り方
データを喋り方データ記憶手段から検索し，検索した喋
り方データを読み出して，読み出した喋り方データの音
韻列情報，継続時間長，ピッチ情報およびベロシティ情
報と声色データ指定手段で指定された声色データとを用
いて音声を合成するため，発話文書の作成効率および利
便性の向上を図ることができる。

【０１６１】また，本発明の発話文書作成装置（請求項
１５）は，分類タイプとして，それぞれの喋り方データ
に対応する音声を，東京型発音タイプ，大阪型発音タイ
プ，徳島型発音タイプ等のように地域によって分類した
ため，分類タイプを指定することで，各地域の喋り方で
音声合成が行える発話文書を容易に作成できる。

【０１６２】また，本発明の発話文書作成装置（請求項
１６）は，分類タイプとして，それぞれの喋り方データ
に対応する音声を，老人型発音タイプ，若者型発音タイ
プ，高校生型発音タイプ等のように年齢によって分類し
たため，分類タイプを指定することで，各年齢の喋り方
で音声合成が行える発話文書を容易に作成できる。

【０１６３】また，本発明の発話文書作成装置（請求項
１７）は，文字列入力手段が，表示部を有しており，か
つ，発話文書の各文字列毎に指定されている声色データ
に基づいて，表示する文字列のフォントや，装飾方法を
変えて表示部に表示するため，発話文書の作成・変更等
の作業が容易であると共に，声色データの指定状況を容
易に把握することができ，利便性が向上する。

【０１６４】また，本発明の発話文書作成方法（請求項
１８）は，単語，文節または文を構成する文字列を入力
する第１の工程と，単語，文節または文から成る文字列
情報，文字列情報の文字に対応した音韻から成る音韻列
情報，音韻列情報中の各音韻の継続時間長，音韻列情報
の任意の時点での相対的なピッチを指定するピッチ情報
および音韻列情報の各音韻の音量を指定するベロシティ
情報から構成される喋り方データを，喋り方データの文
字列情報に基づいて，文字列情報が同一の喋り方データ
をグループ化してグループ毎に記憶したデータベースを
参照して，第１の工程で入力された文字列と同一の文字
列情報を有するグループを検索する第２の工程と，合成
する音声に声色を付加するため声色データを指定する第
３の工程と，第２の工程で検索したグループ中の喋り方
データを順次読み出して，読み出した喋り方データの音
韻列情報，継続時間長，ピッチ情報およびベロシティ情
報と，第３の工程で指定された声色データとを用いて，
音声を合成する第４の工程と，第４の工程で合成された
音声から所望の音声を選択する第５の工程と，第５の工
程で選択した音声に対応する喋り方データを１の工程で
入力した文字列と対応させて発話文書として記憶する第
６の工程と，を含むため，文字情報と音声情報という２
つの表現形態の情報を整合性の取れた形で複合した情報
（発話文書）を作成することができる。また，文字情報
と文書作成者の意図する喋り方を含む音声情報（喋り方
データ）との整合性をとった情報（発話文書）を作成し
て，文書中に非言語情報にあたる感情等の表現を付加す
ることができる。さらに，文書作成者の意図する喋り方
で正確に音声を合成することができる。

【０１６５】また，本発明の発話文書作成方法（請求項
１９）は，単語，文節または文を構成する文字列を入力
する第１の工程と，単語，文節または文から成る文字列
情報，文字列情報の文字に対応した音韻から成る音韻列
情報，音韻列情報中の各音韻の継続時間長，音韻列情報
の任意の時点での相対的なピッチを指定するピッチ情報
および音韻列情報の任意の時点での相対的な音量を指定
するベロシティ情報から構成される喋り方データを，喋
り方データの文字列情報に基づいて，文字列情報が同一
の喋り方データをグループ化してグループ毎に記憶した
データベースを参照して，第１の工程で入力された文字
列と同一の文字列情報を有するグループを検索する第２
の工程と，合成する音声に声色を付加するため声色デー
タを指定する第３の工程と，第２の工程で検索したグル
ープ中の喋り方データを順次読み出して，読み出した喋
り方データの音韻列情報，継続時間長，ピッチ情報およ
びベロシティ情報と，第３の工程で指定された声色デー
タとを用いて，音声を合成する第４の工程と，第４の工
程で合成された音声から所望の音声を選択する第５の工
程と，第５の工程で選択した音声に対応する喋り方デー
タを１の工程で入力した文字列と対応させて発話文書と
して記憶する第６の工程と，を含むため，文字情報と文
書作成者の意図する喋り方を含む音声情報（喋り方デー
タ）との整合性をとった情報（発話文書）を作成するこ
とができる。また，文字情報と文書作成者の意図する喋
り方を含む音声情報（喋り方データ）との整合性をとっ
た情報（発話文書）を作成して，文書中に非言語情報に
あたる感情等の表現を付加することができる。さらに，
文書作成者の意図する喋り方で正確に音声を合成するこ
とができる。

【０１６６】また，本発明の発話文書作成方法（請求項
２０）は，第６の工程で記憶した発話文書の再生を指定
する第７の工程と，第７の工程で発話文書の再生が指定
されると，発話文書中の喋り方データおよび声色データ
を順次読み出して，音声を合成する第８の工程と，を含
むため，発話文書の確認が容易に行える。

【０１６７】また，本発明の発話文書作成方法（請求項
２１）は，第７の工程において，発話文書を再生する範
囲として，発話文書中の任意の文字列単位，文章単位，
ページ単位または発話文書全体の指定が可能であるた
め，発話文書の再生・確認が容易に行える。

【０１６８】また，本発明の発話文書作成方法（請求項
２２）は，第６の工程で記憶した発話文書を表示し，表
示した発話文書の任意の文字列を指定し，指定した文字
列の変更または再入力を行う第９の工程とを含み，第９
の工程で変更または再入力された文字列を用いて，再
度，第２の工程，第３の工程，第４の工程，第５の工程
および第６の工程を実行することにより，発話文書の変
更が可能であるため，発話文書の利用範囲，利便性の向
上を図ることができる。

【０１６９】また，本発明の発話文書作成手順をコンピ
ュータに実行させるプログラムを格納したコンピュータ
読み取り可能な記録媒体（請求項２３）は，単語，文節
または文を構成する文字列を入力する第１の手順と，単
語，文節または文から成る文字列情報，文字列情報の文
字に対応した音韻から成る音韻列情報，音韻列情報中の
各音韻の継続時間長，音韻列情報の任意の時点での相対
的なピッチを指定するピッチ情報および音韻列情報の各
音韻の音量を指定するベロシティ情報から構成される喋
り方データを，喋り方データの文字列情報に基づいて，
文字列情報が同一の喋り方データをグループ化してグル
ープ毎に記憶したデータベースを参照して，第１の手順
で入力された文字列と同一の文字列情報を有するグルー
プを検索する第２の手順と，合成する音声に声色を付加
するため声色データを指定する第３の手順と，第２の手
順で検索したグループ中の喋り方データを順次読み出し
て，読み出した喋り方データの音韻列情報，継続時間
長，ピッチ情報およびベロシティ情報と，第３の手順で
指定された声色データとを用いて，音声を合成する第４
の手順と，第４の手順で合成された音声から所望の音声
を選択する第５の手順と，第５の手順で選択した音声に
対応する喋り方データを１の手順で入力した文字列と対
応させて発話文書として記憶する第６の手順と，を含む
ため，文字情報と文書作成者の意図する喋り方を含む音
声情報（喋り方データ）との整合性をとった情報（発話
文書）を作成することができる。また，文字情報と文書
作成者の意図する喋り方を含む音声情報（喋り方デー
タ）との整合性をとった情報（発話文書）を作成して，
文書中に非言語情報にあたる感情等の表現を付加するこ
とができる。さらに，文書作成者の意図する喋り方で正
確に音声を合成することができる。

【０１７０】また，本発明の発話文書作成手順をコンピ
ュータに実行させるプログラムを格納したコンピュータ
読み取り可能な記録媒体（請求項２４）は，単語，文節
または文を構成する文字列を入力する第１の手順と，単
語，文節または文から成る文字列情報，文字列情報の文
字に対応した音韻から成る音韻列情報，音韻列情報中の
各音韻の継続時間長，音韻列情報の任意の時点での相対
的なピッチを指定するピッチ情報および音韻列情報任意
の時点での相対的な音量を指定するベロシティ情報から
構成される喋り方データを，喋り方データの文字列情報
に基づいて，文字列情報が同一の喋り方データをグルー
プ化してグループ毎に記憶したデータベースを参照し
て，第１の手順で入力された文字列と同一の文字列情報
を有するグループを検索する第２の手順と，合成する音
声に声色を付加するため声色データを指定する第３の手
順と，第２の手順で検索したグループ中の喋り方データ
を順次読み出して，読み出した喋り方データの音韻列情
報，継続時間長，ピッチ情報およびベロシティ情報と，
第３の手順で指定された声色データとを用いて，音声を
合成する第４の手順と，第４の手順で合成された音声か
ら所望の音声を選択する第５の手順と，第５の手順で選
択した音声に対応する喋り方データを１の手順で入力し
た文字列と対応させて発話文書として記憶する第６の手
順と，を含むため，文字情報と文書作成者の意図する喋
り方を含む音声情報（喋り方データ）との整合性をとっ
た情報（発話文書）を作成することができる。また，文
字情報と文書作成者の意図する喋り方を含む音声情報
（喋り方データ）との整合性をとった情報（発話文書）
を作成して，文書中に非言語情報にあたる感情等の表現
を付加することができる。さらに，文書作成者の意図す
る喋り方で正確に音声を合成することができる。

【０１７１】また，本発明の発話文書作成手順をコンピ
ュータに実行させるプログラムを格納したコンピュータ
読み取り可能な記録媒体（請求項２５）は，第６の手順
で記憶した発話文書の再生を指定する第７の手順と，第
７の手順で発話文書の再生が指定されると，発話文書中
の喋り方データおよび声色データを順次読み出して，音
声を合成する第８の手順と，を含むため，発話文書の確
認が容易に行える。

【０１７２】また，本発明の発話文書作成手順をコンピ
ュータに実行させるプログラムを格納したコンピュータ
読み取り可能な記録媒体（請求項２６）は，第７の手順
において，発話文書を再生する範囲として，発話文書中
の任意の文字列単位，文章単位，ページ単位または発話
文書全体の指定が可能であるため，発話文書の再生・確
認が容易に行える。

【０１７３】また，本発明の発話文書作成手順をコンピ
ュータに実行させるプログラムを格納したコンピュータ
読み取り可能な記録媒体（請求項２７）は，第６の手順
で記憶した発話文書を表示し，表示した発話文書の任意
の文字列を指定し，指定した文字列の変更または再入力
を行う第９の手順とを含み，第９の手順で変更または再
入力された文字列を用いて，再度，第２の手順，第３の
手順，第４の手順，第５の手順および第６の手順を実行
することにより，発話文書の変更が可能であるため，発
話文書の利用範囲，利便性の向上を図ることができる。

【図面の簡単な説明】

【図１】実施の形態１の発話文書作成装置の概略ブロッ
ク図である。

【図２】実施の形態１における喋り方データ記憶部に記
憶されている喋り方データを示す説明図である。

【図３】実施の形態１における声色データ記憶部に記憶
されている声色データの種類を示す説明図である。

【図４】実施の形態１の発話文書作成装置の外観図であ
る。

【図５】実施の形態１における発話文書の作成処理の概
略フローチャートである。

【図６】発話文書の作成処理における表示部の表示画面
の例を示す説明図である。

【図７】発話文書の作成処理における表示部の表示画面
の例を示す説明図である。

【図８】発話文書の作成処理で作成した発話文書の画面
表示例示す説明図である。

【図９】発話文書記憶部に記憶されている発話文書デー
タの例を示す説明図である。

【図１０】実施の形態１における発話文書の再生処理の
概略フローチャートである。

【図１１】発話文書の再生処理における表示部の表示画
面の例を示す説明図である。

【図１２】発話文書の再生処理における表示部の表示画
面の例を示す説明図である。

【図１３】発話文書の再生処理における表示部の表示画
面の例を示す説明図である。

【図１４】実施の形態１におけるタイプ情報を用いた発
話文書の作成処理の概略フローチャートである。

【図１５】タイプ情報を用いた発話文書の作成処理にお
ける表示部の表示画面の例を示す説明図である。

【図１６】実施の形態１におけるタイプ情報を用いた発
話文書の再生処理の概略フローチャートである。

【図１７】実施の形態１における喋り方データの作成・
登録処理の概略フローチャートである。

【図１８】喋り方データの作成・登録処理の表示画面を
示す説明図である。

【図１９】喋り方データの作成・登録処理の表示画面を
示す説明図である。

【図２０】喋り方データの作成・登録処理の表示画面を
示す説明図である。

【図２１】喋り方データの作成・登録処理の表示画面を
示す説明図である。

【図２２】喋り方データの作成・登録処理の表示画面を
示す説明図である。

【図２３】喋り方データの作成・登録処理の表示画面を
示す説明図である。

【図２４】喋り方データの作成・登録処理の表示画面を
示す説明図である。

【図２５】喋り方データの作成・登録処理の表示画面を
示す説明図である。

【図２６】実施の形態１における発話文書の変更処理の
概略フローチャートである。

【図２７】実施の形態２における発話文書の作成処理の
概略フローチャートである。

【図２８】実施の形態２における喋り方データ中の情報
の変更処理の概略フローチャートである。

【図２９】実施の形態２における喋り方データ中の情報
の変更処理の表示画面を示す説明図である。

【図３０】実施の形態２における喋り方データ中の情報
の変更処理の表示画面を示す説明図である。

【符号の説明】

１０１制御部１０１ａＣＰＵ１０１ｂＲＯＭ１０１ｃＲＡＭ１０２アプリケーション記憶部１０３喋り方データ記憶部１０４声色データ記憶部１０５音声合成部１０６キー入力部１０７表示部１０８マイク１０９スピーカ１１０発話文書記憶部１１１インタフェース（Ｉ／Ｆ）１１２ＦＤドライブ１１３ＣＤ−ＲＯＭドライブ１１４通信部２０１喋り方データ２０２文字列情報２０３音韻列情報２０４継続時間長２０５ピッチ情報２０６ベロシティ情報２０７タイプ情報

Claims

【特許請求の範囲】

【請求項１】単語，文節または文から成る文字列情
報，前記文字列情報の文字に対応した音韻から成る音韻
列情報，前記音韻列情報中の各音韻の継続時間長，前記
音韻列情報の任意の時点での相対的なピッチを指定する
ピッチ情報および前記音韻列情報の各音韻の音量を指定
するベロシティ情報から構成される喋り方データを，前
記喋り方データの文字列情報に基づいて，前記文字列情
報が同一の喋り方データをグループ化してグループ毎に
記憶した喋り方データ記憶手段と，単語，文節または文
を構成する文字列を入力するための文字列入力手段と，
前記文字列入力手段を介して入力された文字列を用い
て，前記文字列と同一の文字列情報を有するグループを
前記喋り方データ記憶手段から検索する検索手段と，合
成する音声に声色を付加するための声色データを複数記
憶した声色データ記憶手段と，前記検索手段で検索した
グループ中の喋り方データを順次読み出して，前記読み
出した喋り方データの音韻列情報，継続時間長，ピッチ
情報およびベロシティ情報と前記声色データ記憶手段に
記憶されている声色データの一つとを用いて音声を合成
する音声合成手段と，前記音声合成手段で合成された音
声から所望の音声を選択するための音声選択手段と，前
記音声選択手段を用いて選択された音声に対応する喋り
方データを前記文字列入力手段を介して入力された文字
列と対応させて発話文書として記憶する発話文書記憶手
段と，を備えたことを特徴とする発話文書作成装置。
【請求項２】単語，文節または文から成る文字列情
報，前記文字列情報の文字に対応した音韻から成る音韻
列情報，前記音韻列情報中の各音韻の継続時間長，前記
音韻列情報の任意の時点での相対的なピッチを指定する
ピッチ情報および前記音韻列情報の任意の時点での相対
的な音量を指定するベロシティ情報から構成される喋り
方データを，前記喋り方データの文字列情報に基づい
て，前記文字列情報が同一の喋り方データをグループ化
してグループ毎に記憶した喋り方データ記憶手段と，単
語，文節または文を構成する文字列を入力するための文
字列入力手段と，前記文字列入力手段を介して入力され
た文字列を用いて，前記文字列と同一の文字列情報を有
するグループを前記喋り方データ記憶手段から検索する
検索手段と，合成する音声に声色を付加するための声色
データを複数記憶した声色データ記憶手段と，前記検索
手段で検索したグループ中の喋り方データを順次読み出
して，前記読み出した喋り方データの音韻列情報，継続
時間長，ピッチ情報およびベロシティ情報と前記声色デ
ータ記憶手段に記憶されている声色データの一つとを用
いて音声を合成する音声合成手段と，前記音声合成手段
で合成された音声から所望の音声を選択するための音声
選択手段と，前記音声選択手段を用いて選択された音声
に対応する喋り方データを前記文字列入力手段を介して
入力された文字列と対応させて発話文書として記憶する
発話文書記憶手段と，を備えたことを特徴とする発話文
書作成装置。
【請求項３】さらに，前記発話文書記憶手段に記憶さ
れている発話文書の再生を指定する再生指定手段を備
え，前記発話文書の再生が指定されると，前記音声合成
手段が，前記発話文書中の喋り方データを順次読み出し
て，音声を合成することを特徴とする請求項１または２
記載の発話文書作成装置。
【請求項４】前記再生指定手段は，前記発話文書を再
生する範囲として，前記発話文書中の任意の文字列単
位，文章単位，ページ単位または発話文書全体の指定が
可能であることを特徴とする請求項３記載の発話文書作
成装置。
【請求項５】単語，文節または文から成る文字列情
報，前記文字列情報の文字に対応した音韻から成る音韻
列情報，前記音韻列情報中の各音韻の継続時間長，前記
音韻列情報の任意の時点での相対的なピッチを指定する
ピッチ情報および前記音韻列情報の各音韻の音量を指定
するベロシティ情報から構成される喋り方データを，前
記喋り方データの文字列情報に基づいて，前記文字列情
報が同一の喋り方データをグループ化してグループ毎に
記憶した喋り方データ記憶手段と，単語，文節または文
を構成する文字列を入力するための文字列入力手段と，
前記文字列入力手段を介して入力された文字列を用い
て，前記文字列と同一の文字列情報を有するグループを
前記喋り方データ記憶手段から検索する検索手段と，合
成する音声に声色を付加するための声色データを複数記
憶した声色データ記憶手段と，前記声色データ記憶手段
に記憶されている声色データの一つを指定するための声
色データ指定手段と，前記検索手段で検索したグループ
中の喋り方データを順次読み出して，前記読み出した喋
り方データの音韻列情報，継続時間長，ピッチ情報およ
びベロシティ情報と前記声色データ指定手段で指定され
た声色データとを用いて音声を合成する音声合成手段
と，前記音声合成手段で合成された音声から所望の音声
を選択するための音声選択手段と，前記音声選択手段を
用いて選択された音声に対応する喋り方データおよび声
色データを前記文字列入力手段を介して入力された文字
列と対応させて発話文書として記憶する発話文書記憶手
段と，を備えたことを特徴とする発話文書作成装置。
【請求項６】単語，文節または文から成る文字列情
報，前記文字列情報の文字に対応した音韻から成る音韻
列情報，前記音韻列情報中の各音韻の継続時間長，前記
音韻列情報の任意の時点での相対的なピッチを指定する
ピッチ情報および前記音韻列情報の任意の時点での相対
的な音量を指定するベロシティ情報から構成される喋り
方データを，前記喋り方データの文字列情報に基づい
て，前記文字列情報が同一の喋り方データをグループ化
してグループ毎に記憶した喋り方データ記憶手段と，単
語，文節または文を構成する文字列を入力するための文
字列入力手段と，前記文字列入力手段を介して入力され
た文字列を用いて，前記文字列と同一の文字列情報を有
するグループを前記喋り方データ記憶手段から検索する
検索手段と，合成する音声に声色を付加するための声色
データを複数記憶した声色データ記憶手段と，前記声色
データ記憶手段に記憶されている声色データの一つを指
定するための声色データ指定手段と，前記検索手段で検
索したグループ中の喋り方データを順次読み出して，前
記読み出した喋り方データの音韻列情報，継続時間長，
ピッチ情報およびベロシティ情報と前記声色データ指定
手段で指定された声色データとを用いて音声を合成する
音声合成手段と，前記音声合成手段で合成された音声か
ら所望の音声を選択するための音声選択手段と，前記音
声選択手段を用いて選択された音声に対応する喋り方デ
ータおよび声色データを前記文字列入力手段を介して入
力された文字列と対応させて発話文書として記憶する発
話文書記憶手段と，を備えたことを特徴とする発話文書
作成装置。
【請求項７】さらに，前記喋り方データを作成して前
記喋り方データ記憶手段に登録する喋り方データ作成・
登録手段を備えたことを特徴とする請求項５または６記
載の発話文書作成装置。
【請求項８】前記喋り方データ作成・登録手段は，あ
らかじめ収録した音声波形データまたはユーザが発話し
た肉声を入力して，音声波形データを表示する音声波形
データ入力手段と，ユーザによる入力または前記音声波
形データを音韻分析して，各音韻の継続時間長を設定し
て表示する継続時間長設定手段と，前記設定された継続
時間長に対応する音韻列情報を付加する音韻列情報付加
手段と，前記音声波形データをピッチ分析してピッチ曲
線を表示するピッチ曲線表示手段と，前記表示されたピ
ッチ曲線および音韻列情報とに基づいて，前記音韻列情
報の任意の時点での相対的なピッチの値を調整または追
加してピッチ情報を生成するピッチ情報生成手段と，前
記音韻列情報の各音韻の音量を調整してベロシティ情報
を生成するベロシティ情報生成手段と，前記音声波形デ
ータに対応する文字列を入力して文字列情報を設定する
文字列情報設定手段と，前記文字列情報に基づいて前記
喋り方データ記憶手段中の該当するグループに，前記文
字列情報，音韻列情報，継続時間長，ピッチ情報および
ベロシティ情報を喋り方データとして登録する登録手段
と，を備えたことを特徴とする請求項７記載の発話文書
作成装置。
【請求項９】さらに，前記発話文書記憶手段に記憶さ
れている発話文書の再生を指定する再生指定手段を備
え，前記発話文書の再生が指定されると，前記音声合成
手段が，前記発話文書中の喋り方データおよび声色デー
タを順次読み出して，音声を合成することを特徴とする
請求項５〜８記載のいずれか一つの発話文書作成装置。
【請求項１０】前記再生指定手段は，前記発話文書を
再生する範囲として，前記発話文書中の任意の文字列単
位，文章単位，ページ単位または発話文書全体の指定が
可能であることを特徴とする請求項９記載の発話文書作
成装置。
【請求項１１】さらに，前記文字列入力手段を用い
て，前記発話文書記憶手段に記憶されている発話文書を
表示し，前記表示した発話文書の任意の文字列を指定
し，前記指定した文字列の変更または再入力が可能であ
り，前記変更または再入力された文字列を用いて，前記
検索手段による検索，前記声色データ指定手段による声
色データの指定，前記音声合成手段による音声の合成お
よび前記音声選択手段による音声の選択を行うことによ
り，前記指定した文字列に対応する喋り方データおよび
声色データの変更が可能であることを特徴とする請求項
５〜１０記載のいずれか一つの発話文書作成装置。
【請求項１２】前記複数の声色データは，男性の声，
女性の声，子供の声，老人の声，掠れた声，明瞭な声，
太い声，細い声，力強い声，やさしい声，機械的な声の
ように，それぞれ感覚的に識別可能な声色データである
ことを特徴とする請求項１，２，５または６記載の発話
文書作成装置。
【請求項１３】前記文字列入力手段が，仮名漢字変換
機能を有し，前記文字例入力手段で入力した文字列が，
前記仮名漢字変換機能を用いて変換した後の漢字仮名交
じりのテキストであることを特徴とする請求項１，２，
５または６記載の発話文書作成装置。
【請求項１４】さらに，前記喋り方データの分類タイ
プを指定する分類タイプ指定手段を備え，前記喋り方デ
ータが，前記文字列情報，音韻列情報，継続時間長，ピ
ッチ情報およびベロシティ情報に加えて，それぞれの喋
り方データの分類タイプを示すタイプ情報を有し，前記
分類タイプ指定手段を介して分類タイプが指定される
と，前記検索手段が，前記文字列入力手段を介して入力
された文字列および前記分類タイプ指定手段を介して指
定された分類タイプを用いて，前記文字列と同一の文字
列情報を有するグループで，かつ，前記指定された分類
タイプと同一のタイプ情報を有する喋り方データを前記
喋り方データ記憶手段から検索し，前記音声合成手段
が，前記検索手段で検索した喋り方データを読み出し
て，前記読み出した喋り方データの音韻列情報，継続時
間長，ピッチ情報およびベロシティ情報と前記声色デー
タ指定手段で指定された声色データとを用いて音声を合
成することを特徴とする請求項５または６記載の発話文
書作成装置。
【請求項１５】前記分類タイプとは，それぞれの喋り
方データに対応する音声を，東京型発音タイプ，大阪型
発音タイプ，徳島型発音タイプ等のように地域によって
分類したものであることを特徴とする請求項１４記載の
発話文書作成装置。
【請求項１６】前記分類タイプとは，それぞれの喋り
方データに対応する音声を，老人型発音タイプ，若者型
発音タイプ，高校生型発音タイプ等のように年齢によっ
て分類したものであることを特徴とする請求項１４記載
の発話文書作成装置。
【請求項１７】前記文字列入力手段が，表示部を有し
ており，かつ，前記発話文書の各文字列毎に指定されて
いる声色データに基づいて，表示する文字列のフォント
や，装飾方法を変えて前記表示部に表示することを特徴
とする請求項５〜１６記載のいずれか一つの発話文書作
成装置。
【請求項１８】単語，文節または文を構成する文字列
を入力する第１の工程と，単語，文節または文から成る
文字列情報，前記文字列情報の文字に対応した音韻から
成る音韻列情報，前記音韻列情報中の各音韻の継続時間
長，前記音韻列情報の任意の時点での相対的なピッチを
指定するピッチ情報および前記音韻列情報の各音韻の音
量を指定するベロシティ情報から構成される喋り方デー
タを，前記喋り方データの文字列情報に基づいて，前記
文字列情報が同一の喋り方データをグループ化してグル
ープ毎に記憶したデータベースを参照して，前記第１の
工程で入力された文字列と同一の文字列情報を有するグ
ループを検索する第２の工程と，合成する音声に声色を
付加するため声色データを指定する第３の工程と，前記
第２の工程で検索したグループ中の喋り方データを順次
読み出して，前記読み出した喋り方データの音韻列情
報，継続時間長，ピッチ情報およびベロシティ情報と，
前記第３の工程で指定された声色データとを用いて，音
声を合成する第４の工程と，前記第４の工程で合成され
た音声から所望の音声を選択する第５の工程と，前記第
５の工程で選択した音声に対応する喋り方データを前記
１の工程で入力した文字列と対応させて発話文書として
記憶する第６の工程と，を含むことを特徴とする発話文
書作成方法。
【請求項１９】単語，文節または文を構成する文字列
を入力する第１の工程と，単語，文節または文から成る
文字列情報，前記文字列情報の文字に対応した音韻から
成る音韻列情報，前記音韻列情報中の各音韻の継続時間
長，前記音韻列情報の任意の時点での相対的なピッチを
指定するピッチ情報および前記音韻列情報の任意の時点
での相対的な音量を指定するベロシティ情報から構成さ
れる喋り方データを，前記喋り方データの文字列情報に
基づいて，前記文字列情報が同一の喋り方データをグル
ープ化してグループ毎に記憶したデータベースを参照し
て，前記第１の工程で入力された文字列と同一の文字列
情報を有するグループを検索する第２の工程と，合成す
る音声に声色を付加するため声色データを指定する第３
の工程と，前記第２の工程で検索したグループ中の喋り
方データを順次読み出して，前記読み出した喋り方デー
タの音韻列情報，継続時間長，ピッチ情報およびベロシ
ティ情報と，前記第３の工程で指定された声色データと
を用いて，音声を合成する第４の工程と，前記第４の工
程で合成された音声から所望の音声を選択する第５の工
程と，前記第５の工程で選択した音声に対応する喋り方
データを前記１の工程で入力した文字列と対応させて発
話文書として記憶する第６の工程と，を含むことを特徴
とする発話文書作成方法。
【請求項２０】さらに，前記第６の工程で記憶した発
話文書の再生を指定する第７の工程と，前記第７の工程
で前記発話文書の再生が指定されると，前記発話文書中
の喋り方データおよび声色データを順次読み出して，音
声を合成する第８の工程と，を含むことを特徴とする請
求項１８または１９記載の発話文書作成方法。
【請求項２１】前記第７の工程において，前記発話文
書を再生する範囲として，前記発話文書中の任意の文字
列単位，文章単位，ページ単位または発話文書全体の指
定が可能であることを特徴とする請求項２０記載の発話
文書作成方法。
【請求項２２】さらに，前記第６の工程で記憶した発
話文書を表示し，前記表示した発話文書の任意の文字列
を指定し，前記指定した文字列の変更または再入力を行
う第９の工程とを含み，前記第９の工程で変更または再
入力された文字列を用いて，再度，前記第２の工程，第
３の工程，第４の工程，第５の工程および第６の工程を
実行することにより，前記発話文書の変更が可能である
ことを特徴とする請求項１８〜２１記載のいずれか一つ
の発話文書作成方法。
【請求項２３】単語，文節または文を構成する文字列
を入力する第１の手順と，単語，文節または文から成る
文字列情報，前記文字列情報の文字に対応した音韻から
成る音韻列情報，前記音韻列情報中の各音韻の継続時間
長，前記音韻列情報の任意の時点での相対的なピッチを
指定するピッチ情報および前記音韻列情報の各音韻の音
量を指定するベロシティ情報から構成される喋り方デー
タを，前記喋り方データの文字列情報に基づいて，前記
文字列情報が同一の喋り方データをグループ化してグル
ープ毎に記憶したデータベースを参照して，前記第１の
手順で入力された文字列と同一の文字列情報を有するグ
ループを検索する第２の手順と，合成する音声に声色を
付加するため声色データを指定する第３の手順と，前記
第２の手順で検索したグループ中の喋り方データを順次
読み出して，前記読み出した喋り方データの音韻列情
報，継続時間長，ピッチ情報およびベロシティ情報と，
前記第３の手順で指定された声色データとを用いて，音
声を合成する第４の手順と，前記第４の手順で合成され
た音声から所望の音声を選択する第５の手順と，前記第
５の手順で選択した音声に対応する喋り方データを前記
１の手順で入力した文字列と対応させて発話文書として
記憶する第６の手順と，をコンピュータに実行させるプ
ログラムを格納したことを特徴とするコンピュータ読み
取り可能な記録媒体。
【請求項２４】単語，文節または文を構成する文字列
を入力する第１の手順と，単語，文節または文から成る
文字列情報，前記文字列情報の文字に対応した音韻から
成る音韻列情報，前記音韻列情報中の各音韻の継続時間
長，前記音韻列情報の任意の時点での相対的なピッチを
指定するピッチ情報および前記音韻列情報任意の時点で
の相対的な音量を指定するベロシティ情報から構成され
る喋り方データを，前記喋り方データの文字列情報に基
づいて，前記文字列情報が同一の喋り方データをグルー
プ化してグループ毎に記憶したデータベースを参照し
て，前記第１の手順で入力された文字列と同一の文字列
情報を有するグループを検索する第２の手順と，合成す
る音声に声色を付加するため声色データを指定する第３
の手順と，前記第２の手順で検索したグループ中の喋り
方データを順次読み出して，前記読み出した喋り方デー
タの音韻列情報，継続時間長，ピッチ情報およびベロシ
ティ情報と，前記第３の手順で指定された声色データと
を用いて，音声を合成する第４の手順と，前記第４の手
順で合成された音声から所望の音声を選択する第５の手
順と，前記第５の手順で選択した音声に対応する喋り方
データを前記１の手順で入力した文字列と対応させて発
話文書として記憶する第６の手順と，をコンピュータに
実行させるプログラムを格納したことを特徴とするコン
ピュータ読み取り可能な記録媒体。
【請求項２５】さらに，前記第６の手順で記憶した発
話文書の再生を指定する第７の手順と，前記第７の手順
で前記発話文書の再生が指定されると，前記発話文書中
の喋り方データおよび声色データを順次読み出して，音
声を合成する第８の手順と，をコンピュータに実行させ
るプログラムを格納したことを特徴とする請求項２３ま
たは２４記載のコンピュータ読み取り可能な記録媒体。
【請求項２６】前記第７の手順において，前記発話文
書を再生する範囲として，前記発話文書中の任意の文字
列単位，文章単位，ページ単位または発話文書全体の指
定が可能であることを特徴とする請求項２５記載のコン
ピュータ読み取り可能な記録媒体。
【請求項２７】さらに，前記第６の手順で記憶した発
話文書を表示し，前記表示した発話文書の任意の文字列
を指定し，前記指定した文字列の変更または再入力を行
う第９の手順とを含み，前記第９の手順で変更または再
入力された文字列を用いて，再度，前記第２の手順，第
３の手順，第４の手順，第５の手順および第６の手順を
実行することにより，前記発話文書の変更が可能である
ことを特徴とする請求項２３〜２６記載のいずれか一つ
のコンピュータ読み取り可能な記録媒体。