JP2001265376A

JP2001265376A - 音声合成出力装置ならびに方法および同方法が記録される記録媒体

Info

Publication number: JP2001265376A
Application number: JP2000080400A
Authority: JP
Inventors: Akihiro Nomura; 明宏野村
Original assignee: Pioneer Electronic Corp; Pioneer LDC Inc
Current assignee: Pioneer Corp; NBCUniversal Entertainment Japan LLC
Priority date: 2000-03-22
Filing date: 2000-03-22
Publication date: 2001-09-28

Abstract

(57)【要約】【課題】登録音声データの作成にあたり、データ作成
者の負担を軽減し、ハードウェア規模を縮小して低価格
化を実現する。【解決手段】音声入力による単語をディジタル信号化
して単語データベースとしてハードディスク装置１７上
に構築し、このディジタル信号化した音声を記号入力に
よって台詞として再生できるようにし、再生の際に自然
な発声に近づけるためにＤＳＰ１５によりイントネーシ
ョンや間合いに対応して連続再生可能とする。ＣＰＵ１
１はＤＳＰ１５と協働して、蓄積された単語データの中
から所望の単語データを抽出し、当該抽出された単語デ
ータとあらかじめ登録されてある固有の音声メッセージ
とを所定のタイミングならびに順序で音声合成し、当該
音声合成された音声データを音声信号として出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、予め記録した音声
を用い、音声合成、つなぎ合わせを行ない、所定内容の
音声を出力する音声合成出力装置ならびに方法および同
方法が記録される記録媒体に関する。

【０００２】

【従来の技術】従来の音声合成出力装置の基本構成を図
５に示す。図５を参照しながら音声合成出力装置の概略
構成動作について以下に述べる。

【０００３】制御中枢となる言語処理装置５２は、入力
インタフェース装置５１を介して文字系列データからな
るテキストを受信し、内蔵するプログラムに従い、辞書
メモリ５３、ワークメモリ５４を用いて文法解析、意味
解析等を行う。そして、入力テキスト文字列を音声記号
列に変換した音韻情報、アクセント、イントネーショ
ン、ピッチパターン、ポーズ長等の韻律情報を生成す
る。

【０００４】更に、音声処理装置５３は、言語処理装置
５２で得られた音声記号単位の音声素片に変換し、この
音声素片を基に、音声素片メモリ５６とワークメモリ５
７とを用い、音声規則合成を基に声道の伝達特性を定め
るパラメータと音源特性に関与するパラメータを形成
し、音声合成フィルタリングを行って、連続音声波形を
形成する。この連続音声波形は、Ｄ／Ａコンバータ（Di
gital to Analog Converter）５８、低域通過フィル
タ（ＬＰＦ）、電力増幅器５９を経由してスピーカ６０
から合成音声として出力される。ここで、言語処理装置
５２には、演算量が多いため通常汎用のＣＰＵが用いら
れ、音声処理装置５３として演算速度が要求されるの
で、ＤＳＰ（Digital Signal Processor）等の高速演
算プロセッサが用いられる。

【０００５】

【発明が解決しようとする課題】ところで、上述した音
声合成出力装置の需要が見込まれるアプリケーションの
一つに、携帯電話におる音声サービス、あるいはインタ
ネットプロバイダ等におけるパソコンへの音声サービス
等がある。具体的には、加入者に対し、加入者の誕生日
にタレント等著名人の声でお祝いのメッセージを自動送
信するものや、結婚式当日音声で祝電を流すこと等が考
えられる。

【０００６】この場合、「おめでとう」等の固有のメッ
セージと「加入者名」等の固有名詞の合成、あるいは、
「敬称」等の共通単語と「誕生日」「結婚式」等の可変
単語の合成等考えられ、このように、多数のメッセー
ジ、データを予め生成し記録しておく必要がある。従っ
て、データ作成者の負担も大きく、また記憶容量的にも
問題がある。更に、上述した規則合成に基づくテキスト
音声合成装置をそのまま採用することは、機能的にオー
バースペックであり、ハードウェア規模からしても明ら
かに不経済である。

【０００７】本発明は上記諸々の事情に鑑みてなされた
ものであり、あらかじめ蓄積された単語データの中から
所望の単語データを抽出し、当該抽出された単語データ
とあらかじめ登録されてある固有の音声データとを所定
のタイミングならびに順序で音声合成し、当該音声合成
された音声データを音声信号として出力することによ
り、データ作成者の負担を軽減し、ハードウェア規模を
縮小して低価格化を実現した音声合成出力装置ならびに
方法および同方法が記録される記録媒体を提供すること
を目的とする。

【０００８】

【課題を解決するための手段】上述した課題を解決する
ために請求項１に記載の音声合成出力装置は、複数の単
語データが蓄積されている単語データ蓄積装置と、前記
単語蓄積装置より所望の単語データを抽出する単語デー
タ抽出装置と、固有の音声データを出力する固有音声デ
ータ出力装置と、前記単語データ抽出装置から抽出され
た単語データと固有音声データ出力装置からの固有音声
データを所定のタイミングおよび所定の順序で合成する
音声合成装置と、音声合成装置により合成された音声デ
ータを音声信号として出力する音声信号装置とを備える
こととした。

【０００９】また、請求項２に記載の音声合成出力装置
は、請求項１に記載の同装置において、単語データつな
ぎ合わせ装置を更に備え、前記単語データ抽出装置によ
り前記単語データ蓄積装置から複数の単語データを抽出
し、前記単語データつなぎ合わせ装置により前記複数の
単語データを所定タイミングおよび所定順序でつなぎ合
わせることとした。更に、請求項３に記載の音声合成出
力装置は、請求項１に記載の同装置において、前記単語
データ蓄積装置に蓄積される単語データとして、少なく
とも５０音別音声素片、アルファベット音声素片のいず
れか一方が蓄積されてなることとした。また、請求項４
に記載の音声合成出力装置は、請求項１に記載の同装置
において、前記単語データ蓄積装置に蓄積される単語デ
ータとして、使用頻度の高い単語データ、もしくは特定
の単語データが蓄積されてなることとした。使用頻度の
高い単語データとして、ここでは実用化しやすいものと
して和英の数字素材があり、数字音声素片、数字単語デ
ータのいずれかがあらかじめ格納されるものとする。

【００１０】上記各構成により、音声入力による単語を
ディジタル信号化して単語データベースとして構築し、
このディジタル信号化した音声を記号入力によって台詞
として再生できるようにし、再生の際に自然な発声に近
づけるためにイントネーションや間合いに対応して連続
再生することでデータ作成者の負担が軽減され、ハード
ウェア規模を縮小して低価格化を実現した音声合成出力
装置を提供できる。

【００１１】請求項５に記載の音声合成出力装置は、前
記単語データ蓄積装置に蓄積される単語データを生成す
る単語データ生成装置を備え、当該単語データ生成装置
は、音声入力装置によって検出された音声信号あるいは
予め記録媒体に記録された音声信号を所定周波数でアナ
ログディジタル変換するＡ／Ｄ変換装置を含み、前記所
定周波数を設定することにより前記Ａ／Ｄ変換された単
語データの周波帯域が設定されることとした。

【００１２】請求項６に記載の音声合成出力装置は、請
求項５に記載の同装置において、前記単語データの周波
数帯域は可聴帯域以外の帯域における成分がカットまた
は成分が付加されるように設定されることとした。

【００１３】請求項７に記載の音声合成出力装置は、請
求項１に記載の同装置において、前記単語データ抽出装
置より抽出された単語データあるいは前記固有音声デー
タ出力装置からの固有音声データに可聴帯域以外の帯域
で当該音声データが合成対象のデータであることを識別
する識別データを付加することとした。

【００１４】上記各構成により、単語データに対し、人
間が認識不可能な音声領域に合成に利用するための記録
情報であることがわかる信号を埋め込むか、あるいは、
認識できない音声領域の一部音声領域をカットすること
によって、実演家本人の肉声との違いを明らかにするこ
とにより、また、プログラムに電子透かしを埋め込む
か、音声合成プログラムであることが容易に認識できる
電子音を再生開始時、終了時のいずれか、あるいは両方
に入れることにより、海賊版の著作物や犯罪行為からガ
ードすることが可能になる。なお、共通の単語データや
固有の単語データあるいはプログラムが無断で他人に利
用されないために、それぞれの音声信号（記録情報）に
は、人間の認識できない音声領域に合成に利用するため
の記録情報であることがわかる信号を埋め込むか、ある
いは、認識できない音声領域の一部の音声領域を完全に
カットすることにより、実演家本人の肉声との違いを明
らかにする必要がある。

【００１５】請求項８に記載の音声合成出力方法は、あ
らかじめ蓄積された単語データをつなぎ合わせて所定内
容の音声を出力する音声合成出力装置に用いられ、前記
蓄積された単語データの中から所望の単語データを抽出
し、当該抽出された単語データとあらかじめ登録されて
ある固有の音声データとを所定のタイミングならびに順
序で音声合成し、当該音声合成された音声データを音声
信号として出力することとした。また、請求項９に記載
の音声合成出力方法は、請求項８に記載の同方法におい
て、前記蓄積された単語データの中から複数の単語デー
タを抽出して所定の順序でつなぎ合わせ、前記固有の音
声データと音声合成する前の音声データとして出力する
こととした。

【００１６】このことにより、例えば、アニメーション
音声を用いた商品化、サービス提供、ＣＭ製作等が容易
になり、また、携帯電話やインターネットを通じてパソ
コン等に対して個人的なメッセージを送るサービスが可
能となるほか、これに類する種々のビジネスで応用可能
となる。

【００１７】請求項１０に記載の記録媒体は、あらかじ
め蓄積された単語データをつなぎ合わせて所定内容の音
声を出力する音声合成出力装置に用いられ、前記蓄積さ
れた単語データの中から所望の単語データを抽出するス
テップと、当該抽出された単語データとあらかじめ登録
されてある固有の音声データとを所定のタイミングなら
びに順序で音声合成するステップと、当該音声合成され
た音声データを音声信号として出力するステップとがプ
ログラムされ記録されることとした。

【００１８】上記のように記録媒体に記録された各プロ
グラムステップを逐次読み出し実行することにより、あ
らかじめ蓄積された単語データの中から所望の単語デー
タを抽出し、当該抽出された単語データとあらかじめ登
録されてある固有の音声データとを所定のタイミングな
らびに順序で音声合成し、当該音声合成された音声デー
タを音声信号として出力することにより、データ作成者
の負担を軽減し、ハードウェア規模を縮小して低価格化
を実現することができる。また、本発明によれば、例え
ば、アニメーション音声を用いた商品化、サービス提供
が容易になり、また、携帯電話やインターネットを通じ
てパソコン等に対して個人的なメッセージを送るサービ
スが可能となるほか、これに類する種々のビジネスで応
用可能である。

【００１９】

【発明の実施の形態】図１は、本発明における音声合成
出力装置の一実施形態を示すブロック図である。ここで
は、アプリケーションとして、携帯電話による音声サー
ビスを例示しており、基地局に設備され音声合成出力装
置が示されている。

【００２０】図において、１１は、制御中枢となるＣＰ
Ｕであり、主記憶装置１２に格納される種々のプログラ
ムに従い言語処理を行う。主記憶装置１２には、ＯＳ
（基本ソフトウェア）１２１の他に、通信プログラム１
２２、更には本発明の音声合成出力方法を実現する単語
データ登録・抽出プログラム１２３、ならびに音声合成
プログラム１２４が割り付けられ記録される。単語デー
タ登録・抽出プログラム１２３、ならびに音声合成プロ
グラム１２４は、ワーク領域１２５を利用して後述する
言語処理ならびに音声合成処理を行う。詳細はフローチ
ャートを参照しながら後述する。

【００２１】１３はハードディスクコントローラ（ＨＤ
Ｃ）であり、単語データが格納されるハードディスク装
置１７が接続される。単語データはデータベース化さ
れ、図２に示されるように、５０音素片１７１、アルフ
ァベット音声素片１７２、高頻度単語１７３、特殊単語
１７４が音声データとしてディジタル化され記録されて
いる。なお、高頻度単語として実用化しやすいものに、
和英の数字素材がある。各単語データの詳細については
図２以降を使用して後に詳細に説明する。１４はＣＤ−
ＲＯＭ駆動装置であり、ここにＣＤ−ＲＯＭが装填さ
れ、当該ＣＤ−ＲＯＭには固定メッセージがあらかじめ
俳優、歌手、アニメ声優、著名人、歴史上の人物の肉
声、コンピュータ再現音声等実演家の声で記録されてい
るものとする。１５は、音声処理を行うＤＳＰであり、
当該ＤＳＰ１５は、マイクロフォン２０を介して入力さ
れる音声信号をＡ／Ｄ（Ｄ／Ａ）コンバータ１９を介し
て取り込み、また、処理された音声信号を、Ｄ／Ａ（Ａ
／Ｄ）コンバータ１９、スピーカ２１を介して外界へ出
力する。１６はモデムコントローラであり、図示せぬ通
信回線経由で携帯電話端末にＤＳＰ１５によって生成さ
れる音声信号を変調して送信する。上記したＣＰＵ１
１、主記憶装置１２、ＨＤＣ１３、ＣＤ−ＲＯＭ駆動装
置１４、ＤＳＰ１５、モデムコントローラ１６は、アド
レス、データ、コントロールのための線が複数本で成る
システムバス２２に共通接続される。

【００２２】図２乃至図４は、図１に示す本発明一実施
形態の動作を説明するために引用した図であり、動作概
念図、固定音声データと単語データの合成の一例を示す
図、動作手順をフローチャートで示したそれぞれの図で
ある。

【００２３】以下、図２乃至図４を参照しながら、図１
に示す本発明実施形態の動作について詳細に説明する。

【００２４】まず、実演家がマイクロホン２０に対し、
５０音素片（あ、い、う、え、お、…）やアルファベッ
ト音声素片（Ａ、Ｂ、Ｃ、Ｄ、Ｅ…）を読み上げ発声す
る（図２（ａ））。あるいは予めテープなどの記録媒体
にこれらを録音しておく（ｆ）。この音声信号を、ＬＰ
Ｆ（ｂ）、Ａ／Dコンバータ１９でデジタル単語データ
に変換してＤＳＰ１５に供給する（ｃ）。このとき、Ａ
／Ｄ変換のサンプリングクロック周波数を所定値に設定
することにより帯域が設定される。ここではサンプリン
グレートを可変（ｖ）とすることによって、また、ＬＰ
Ｆにおけるフィルタ特性を可変（ｅ）とすることによ
り、その声紋を非常に高い品質でサンプリングしたり、
やや押さえた音声域での品質でサンプリングしたり、あ
るいは非常に限定された音声域（たとえば１オクターブ
以内）でサンプリングすることにより、所望の形態の単
語データとすることができる。

【００２５】上記のようにして得られた単語データはＤ
ＳＰ１５で加工され、共通単語ＤＢとしてハードディス
ク装置１７に蓄積される（ｄ）。この共通単語ＤＢに
は、その他、高い頻度で使用される、例えば、「おはよ
う」、「おめでとう」、「だいすき」等の単語、および実演
家に特有のはやり台詞(以下、特殊単語という)を実演家
本人あるいはタレント本人の記録音源から抽出し、上記
のようにあらかじめディジタル化し記録しておくものと
する。そしてこのＨＤＤ１７から読み出される５０音素
片１７１またはアルファベット音声素片１７２（ｇ）か
ら所望の音声素片を抽出して（ｈ）して単語としてのつ
なぎ合わせを行い（ｉ）、固有メッセージとの合成の準
備を行う。

【００２６】一方、タレントや声優は、マイクロフォン
２０に対して固有のメッセージを発生（ｊ）、あるいは
予めテープ等の記録媒体に記録してある固有のメッセー
ジを、ＬＰＦ（ｋ）、Ａ／Ｄコンバータ（ｌ）を介して
変換したデイジタルデータ（ｍ）を生成しておく。ファ
ンクラブや携帯電話加入者に対して、突然固有の携帯電
話にボイスメッセージを送るサービスを例示すれば、固
有メッセージは、「××さんわたしがシーエム（ＣＭ）
にでている＊＊＊＊（発声した人、例えばタレントの名
前）です××さんきょうたんじょうびおめでとう。」が
考えられる。また、結婚式のボイス電報サービスを例示
すれば、「ほんじつはおめでとうございますかしゅの＊
＊＊＊（発声した人、例えば歌手の名前）です。わたし
からおいわいにいっきょくうたいます。」が考えられ
る。これをあらかじめＣＤ−ＲＯＭ１８等の記録媒体に
記録しておく（ｎ）。

【００２７】次に、ＨＤＤ１３に記録された共通単語Ｄ
Ｂから所定の単語を抽出してつなぎ合わせる（ｏ）。こ
の固有メッセージと共通単語データのつなぎ合わせの一
例を図３に示す。また、このときＤＳＰ１５により、出
力レベルや単語の間隔、タイミングなどを調整する。ま
た、抽出される音声データは、例えば、人や場所、地域
の名前等である。そして、ＣＤ−ＲＯＭ１８から固有音
声データを再生出力すると共に、先につなぎ合わせた単
語データを合成する（ｐ）。

【００２８】このとき、ＤＳＰ１５により、ディジタル
信号化された音声を、記号入力により台詞として再生で
きるようにし、再生の際に自然な発生に近づけるため
に、単語と単語間のイントネーションや間合いの調整を
行う。間合いの調整については、単語間の連続性を軽視
し単に元々の信号をつないだだけの調整とするレベル
と、単語間の連続性を重視し元々記録されている単語の
音声域を次に発生された単語とうまくつなげ自然な会話
に非常に近い状態にするレベルと、上記に加え、会話の
状態に応じて緊張、不安、明朗さ等の感情を持たせたレ
ベルの３のレベルが考えられる。上記各レベルに従い、
単語間を合成してつなぎ合わせ（ｑ）、この信号をＤ／
Ａ変換（ｒ）、増幅（ｓ）してスピーカ２１から外界へ
出力する（ｔ）。

【００２９】なお、上述した単語抽出と合成は、音声合
成プログラム１２４により実行される。このプログラム
を実行する前に、当該プログラムに、元の実演家の肉声
に非常に近い状態（レベル５）、機械を通した音声（電
話等での会話、録音テープの再生）あるいは、イントネ
ーションを抑えた発声に近い状態（レベル４）、単音と
しては似ているが、連続再生すると機械的な変換である
ことがわかる状態（レベル３）、連続再生すれば似てい
る印象を与えるが、単音としては別音声であることがわ
かる認識できる状態（レベル２）、単音または単語とし
てしか再生できない、つまり連続再生ができない状態
（レベル１）の夫々を段階的に実行できる状態を初期設
定する。これにより共通の単語データと固有のメッセー
ジデータのレベルが適宜選択されて実行される。

【００３０】図４に、上述した単語データ登録・抽出プ
ログラム１２３ならびに音声合成プログラム１２４によ
る、単語登録、単語抽出、つなぎ合わせ、ならびに音声
合成のための処理手順がフローチャートで説明されてい
る。

【００３１】図３に示す動作概念図との重複を避ける意
味で簡単に説明すると、まず、ＣＰＵ１１は、実演家に
よる音声入力を受けて、共通メッセージを構成する単語
データの登録処理を行い、ＨＤＤ１７上にデータベース
を構築する（ステップＳ４１、Ｓ４２）。次に、外部か
ら単語つなぎ合わせの指示があるか否かをチェック（ス
テップＳ４３）する。ここで、あった場合に該当する単
語データを抽出しその単語間でつなぎ合わせの処理を行
い、同時に上述した間合い調整を行う（ステップＳ４
４）。間合い調整は、ＤＳＰ１５による。ここで、単語
つなぎ合わせの指示がなかった場合には、完成された単
語データであるため、ＨＤＤ１７上に構築された単語デ
ータベースを検索して所望の単語データを取り込む（ス
テップＳ４５）。そして、音声合成指示があるか否かを
チェックする（ステップＳ４７）。音声合成指示があっ
た場合、ＣＤ−ＲＯＭ１８から共通メッセージを読み出
し、先の単語データとの合成、加工を行い、音声信号と
して出力する（ステップＳ４８、Ｓ４９、Ｓ５０）。

【００３２】なお、共通の単語データや固有の単語デー
タあるいはプログラムが無断で他人に利用されないため
に、それぞれの音声信号（記録情報）には、人間の認識
できない音声領域に合成に利用するための記録情報であ
ることがわかる信号を埋め込むか、あるいは、認識でき
ない音声領域の一部の音声領域を完全にカットすること
により、実演家本人の肉声との違いを明らかにする必要
がある。また、音声合成プログラム１２４の作成者を認
識するために、そのプログラムに電子透かしをいれる
か、音声合成プログラムであることが容易に認識できる
電子音を再生開始時および終了時のいずれかまたは両方
に入れるものとする。

【００３３】上述した本発明実施形態によれば、固有の
メッセージのみタレント等実演家の肉声を入力して用い
たが、共通単語データに関してもタレント等の実演家に
よる入力を用いたほうが、単語間のつながりが自然にな
って一層好ましい。また、固有メッセージは、ＣＤ−Ｒ
ＯＭに記録されるものとして説明したが、共通単語デー
タと同様、ＨＤＤ１７に記録されてあっても構わない。
この場合、ＣＤ−ＲＯＭ駆動装置１４は必ずしも必要な
くなる。更に、固有メッセージデータと単語音声データ
の合成は操作者が主導で行うようにしても良い。つま
り、どのタイミングで単語データを挿入すべきか手動で
タイミング設定を行う。この場合もまた、固有メッセー
ジデータを記録する媒体は必ずしも必要がなくなる。

【００３４】なお、上述した単語データ登録・抽出プロ
グラム１２３、ならびに音声合成プログラム１２４は、
必要に応じて主記憶装置１２にローディングされ、ＣＰ
Ｕ１１によって逐次読み出され実行されるが、常時はＨ
ＤＤ１７に格納されるものであり、ＣＤ−ＲＯＭ等の記
録媒体に記録され頒布されるものである。また、通信回
線経由でダウンロードして用いても構わない。

【００３５】

【発明の効果】以上説明のように本発明は、あらかじめ
蓄積された単語データの中から所望の単語データを抽出
し、当該抽出された単語データとあらかじめ登録されて
ある固有の音声メッセージとを所定のタイミングならび
に順序で音声合成し、当該音声合成された音声データを
音声信号として出力することにより、データ作成者の負
担を軽減し、ハードウェア規模を縮小して低価格化を実
現することができる。また、本発明によれば、例えば、
アニメーション音声を用いた商品、サービスの提供が容
易になり、また、携帯電話やインターネットを通じてパ
ソコン等に対して個人的なメッセージを送るサービスが
可能となるほか、これに類する種々のビジネスに応用可
能である。

【００３６】また、音声入力による単語をディジタル信
号化して単語データベースとして構築し、このディジタ
ル信号化した音声を記号入力によって台詞として再生で
きるようにし、再生の際に自然な発声に近づけるために
イントネーションや間合いに対応して連続再生すること
により、データ作成者の負担を軽減し、ハードウェア規
模を縮小して低価格化を実現することができる。更に、
上述した記録情報（単語データ）に、人間が認識不可能
な音声領域に合成に利用するための記録情報であること
がわかる信号を埋め込むか、あるいは、認識できない音
声領域の一部音声領域をカットすることによって、実演
家本人の肉声との違いを明らかにすることにより、ま
た、本発明により提供されるプログラムに電子透かしを
埋め込むか、音声合成プログラムであることが容易に認
識できる電子音を再生開始時、終了時のいずれか、ある
いは両方に入れることにより、、海賊版の著作物や犯罪
行為からガードすることが可能になる。

【図面の簡単な説明】

【図１】本発明の一実施形態を示すブロック図である。

【図２】本発明実施形態の動作を説明するために引用し
た動作概念図である。

【図３】固有音声データと単語データを合成する一例を
示した図である。

【図４】本発明実施形態の処理手順を説明するために引
用したフローチャートである。

【図５】従来の音声合成出力装置の基本構成を示すブロ
ック図である。

【符号の説明】

１１…ＣＰＵ、１２…主記憶装置、１３…ハード・ディ
スク・コントローラ（ＨＤＣ）、１４…ＣＤ−ＲＯＭ駆
動装置、１５…ディジタル・シグナル・プロセッサ（Ｄ
ＳＰ）、１６…モデムコントローラ、１７…ハードディ
スク装置（ＨＤＤ）、１８…ＣＤ−ＲＯＭ、１９…Ｄ／
Ａ（Ａ／Ｄ）コンバータ、２０…マイクロフォン、２１
…スピーカ、２２…システムバス、１２１…ＯＳ、１２
２…通信プログラム、１２３…単語データ登録・抽出プ
ログラム、１２４…音声合成プログラム、１２５…ワー
ク領域

Claims

【特許請求の範囲】

【請求項１】複数の単語データが蓄積されている単語
データ蓄積装置と、前記単語蓄積装置より所望の単語データを抽出する単語
データ抽出装置と、固有の音声データを出力する固有音声データ出力装置
と、前記単語データ抽出装置より抽出されて単語データと前
記固有音声データ出力装置からの固有音声データを所定
のタイミングおよび所定の順序で合成する音声合成装置
と、前記音声合成装置により合成された音声データを音声信
号として出力する音声信号装置とを備えることを特徴と
する音声合成出力装置。
【請求項２】単語データつなぎ合わせ装置を更に備
え、前記単語データ抽出装置により前記単語データ蓄積
装置から複数の単語データを抽出し、前記単語データつ
なぎ合わせ装置により前記複数の単語データを所定タイ
ミングおよび所定順序でつなぎ合わせることを特徴とす
る請求項１に記載の音声合成出力装置。
【請求項３】前記単語データ蓄積装置に蓄積される単
語データとして、少なくとも５０音別音声素片、アルフ
ァベット音声素片のいずれか一方、もしくは数字音声素
片が蓄積されてなることを特徴とする請求項１に記載の
音声合成出力装置。
【請求項４】前記単語データ蓄積装置に蓄積される単
語データとして、使用頻度の高い単語データもしくは特
定の単語データが蓄積されてなることを特徴とする請求
項１に記載の音声合成出力装置。
【請求項５】前記単語データ蓄積装置に蓄積される単
語データを生成する単語データ生成装置を備え、当該単語データ生成装置は、音声入力装置によって検出
された音声信号あるいは予め記録媒体に記録された音声
信号を所定周波数でアナログディジタル変換するＡ／Ｄ
変換装置を含み、前記所定周波数を設定することにより前記Ａ／Ｄ変換さ
れた単語データの周波帯域が設定されることを特徴とす
る音声合成出力装置。
【請求項６】前記単語データの周波数帯域は可聴帯域
以外の帯域における成分がカット、または成分の付加が
されるように設定されることを特徴とする請求項５に記
載の音声合成出力装置。
【請求項７】前記単語データ抽出装置より抽出された
単語データあるいは前記固有音声データ出力装置からの
固有音声データに可聴帯域以外の帯域で当該音声データ
が合成対象のデータであることを識別する識別データを
付加したことを特徴とする請求項１に記載の音声合成出
力装置。
【請求項８】あらかじめ蓄積された単語データをつな
ぎ合わせて所定内容の音声を出力する音声合成出力装置
に用いられ、前記蓄積された単語データの中から所望の
単語データを抽出し、当該抽出された単語データとあら
かじめ登録されてある固有の音声データとを所定のタイ
ミングならびに順序で音声合成し、当該音声合成された
音声データを音声信号として出力することを特徴とする
音声合成出力方法。
【請求項９】前記蓄積された単語データの中から複数
の単語データを抽出して所定の順序でつなぎ合わせ、前
記固有の音声データと音声合成する前の音声データとし
て出力することを特徴とする請求項８に記載の音声合成
出力方法。
【請求項１０】あらかじめ蓄積された単語データをつ
なぎ合わせて所定内容の音声を出力する音声合成出力装
置に用いられ、前記蓄積された単語データの中から所望の単語データを
抽出するステップと、当該抽出された単語データとあらかじめ登録されてある
固有の音声データとを所定のタイミングならびに順序で
音声合成するステップと、当該音声合成された音声データを音声信号として出力す
るステップとがプログラムされ記録されるコンピュータ
読み取り可能な記録媒体。