JPH09171396A

JPH09171396A - 音声発生システム

Info

Publication number: JPH09171396A
Application number: JP8213255A
Authority: JP
Inventors: Keiichi Kato; 圭一加藤; Hiroshi Kurita; 洋栗田
Original assignee: BAISERA KK
Current assignee: BAISERA KK
Priority date: 1995-10-18
Filing date: 1996-07-25
Publication date: 1997-06-30

Abstract

(57)【要約】【目的】音声合成においてユーザーが任意の多様な種
類の音声の中から選択するためにユーザーに多様な種類
の音声を辞書の形で供給しこの辞書を利用してユーザー
の任意の種類の音声合成をできることを可能にするシス
テム。【構成】パソコンシステム、ＮＣにおいて人の声を基
にした音声辞書をユーザーに供給し、ユーザーのシステ
ムにおいては、自由にこの辞書の各部分を組み合わせら
れるようし、ユーザーの任意の音声の音声合成を可能と
する。ユーザーへの音声辞書の供給はハード媒体あるい
は通信回線を通じて行う。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明はパソコン、ワープロ、ゲ
ーム機、専用機、ＮＣ（ネットワークコンピュータ
ー）、ＳＴＢ（セット・トップ・ボックス）などを利用
する際の合成音声の発生に係わり、特にユーザーが任意
でかつ多様な合成音声の発生を選ぶことが可能な手段を
実現するシステムに関する。

【０００２】

【従来の技術】従来の音声合成に関しては、多種多様の
装置及び方法が提案されておりまた構内放送、ゲーム情
報サービス等の様々な分野で応用されている。音声は言
語として意味をなす最小単位である音素から構成されて
いる。この音素は波形として表現処理される。その波形
の一部あるいは全部が音声の合成に使用される音声素片
となる。この音声素片を合成単位として任意の音声を作
る合成方式では、各音声素片を一定の規則に従って結合
し、合成音声を発生させている。こういった方法では、
従来基本周波数を変えて男性音声、女性音声を区別して
作り出す方法、時間軸を伸縮させて発生速度を変える方
法などが提案されており、こういった声質を変化させる
音声合成についても実際に商品化されている。実際の商
品としてはドキュメントトーカー、ＴＴＳなどの商品な
どがありテキストファイルを読み上げる音声合成の商品
として実際商品化されておりパソコン上で音声合成を実
現してる。

【０００３】自然な言語を実現するために各音声素片の
接合の工夫も種々の工夫が提案されており人が実際に発
声するように自然な発声が実現されている。また文書の
意味を解析しその結果を基にして、重要な部分を強調す
るためにその部分の語調を強めたりする音声合成方法な
ど各種の方法が提案されている。しかしながら現行の方
法では合成音声の声質は基本周波数を変更したりするも
のに限られており多種多様の声質の要求に満足できるも
のでは無かった。

【０００４】

【発明が解決しようとする課題】しかしながら人が聞い
て違和感のない自然な音声はいつも聞いている人の声を
ベースにしたものの方が自然である。またいつも同質の
声ではメリハリがつかないため、或いは状況などによっ
て聞きたい声質は異なるため、色々な人の声をベースに
した音声を状況によって使い分け種々な音声を発声させ
ることが望まれていた。

【０００５】人にはそれぞれ声質、基本周波数、アクセ
ント、イントネーション、ポーズの取り方、言葉の一部
を伸ばしたりする時間的特徴、固有の方言の特徴、感情
により音の高低、音量の変化などの特徴が異なる。こう
いった人により異なる特徴的要素を加えることが可能と
なればより臨場感のある音声発声がユーザーの状況に合
わせ自由に選べるはずである。

【０００６】各地方の方言による音声合成を任意の人の
声をベースにしたもの聞きたいなどということも望まれ
ていた。また任意の合成音声を雰囲気或いは状況に応じ
た任意のバックグラウンド音響の中で聞くということも
望まれていた。同様に任意の声質で歌を歌わせることも
望まれている。前記ユーザーが任意に選択した声質に関
連した画像をディスプレイ上に表示することにより更に
臨場感を増すことが可能となる。

【０００７】特に最近のパソコンの性能のアップにおい
ては、目を見張るものがあるが、前記音声合成をパソコ
ン上で実現する事は、非常に有意義なことである。また
パソコンだけではなくゲーム機において本技術が実現さ
れれば非常に臨場感のあるゲームが実現する。また新し
い概念であるＮＣ（ネットワークコンピュータ）などで
も新しいアプリケーションが広がる可能性がある。

【０００８】

【課題を解決するための手段】前記目的を達成するため
に、本発明においては次に示す方法をとる。すなわち予
めテキストファイルである情報、キーボードなどの入力
装置によって入力されのテキストに変換された情報、Ｏ
ＣＲ（オプティカル・キャラクター・リーダー）によっ
て活字からのテキストに変換された情報の少なくとも１
つの情報のテキスト入力を解析するテキスト解析手段と
解析されたテキストデータに対して音韻系列を作成する
音韻系列作成手段と韻律を作成する韻律作成手段と前記
音韻系列と韻律に基ずいて合成音声を作成する合成手段
を有する音声規則合成を使用して音声を発生させるシス
テムにおいてユーザーの任意の音声を発生させるシステ
ムであり、そのステップはユーザーの装置がパソコン、
音発生機能付きワープロ、専用装置から選ばれた少なく
とも１つの装置である場合はＡ：人間の声を基に音声辞書を作成するステップＢ：前記音声辞書をハード媒体に格納してユーザーに供
給すること及びユーザーの装置が接続可能な回線を通じ
てユーザーに供給することから選ばれた少なくとも１つ
のユーザーへの音声辞書供給ステップＣ：前記音声辞書は前記ハード媒体に格納してユーザー
に供給され方法及びユーザーの装置が接続可能な回線に
結合可能なサーバーを通じてユーザーに供給することか
ら選ばれた少なくとも１つの供給法により供給された前
記人間の声を基にした音声辞書をユーザーのシステムの
必要に応じて追加インストールおよび削除するステップＤ：前記入力されたテキストを必用に応じて解析するス
テップＥ：前記ユーザーのシステムにおいてはユーザーが任意
の音声を選択するため１以上の音声辞書を有している前
記音声辞書の中から任意の音声辞書を選択するステップＦ：前記テキストを必用に応じて解析された情報に従っ
て前記音声辞書の必用部分を使用し音声を合成するため
のデータを作成していくステップＧ：前記音声を合成するためのデータを音声の出力に変
換する手段を有するステップの各ステップからなるシステムとする。

【０００９】またユーザーのシステムがパソコン、音発
生機能付きワープロ、専用装置、ＮＣ（ネットワークコ
ンピュータ）、ゲームマシン、ＳＴＢ（セット・トップ
・ボックス）から選ばれる少なくとも１つの装置であ
り、ＪＡＶＡなどの言語を使用しユーザーのシステムに
おいては最小限のソフトのみを持ち、回線に接続可能な
サーバー上にソフトおよび各種辞書が格納されている場
合にはＡ：人間の声を基に音声辞書を作成するステップＢ：前記音声辞書をユーザーの装置が接続可能な回線に
結合されたサーバー上に設置するステップＣ：前記入力されたテキストを必用に応じて解析するス
テップＤ：ユーザーが任意の音声を選択できるようにユーザー
の装置が接続可能な回線に結合されたサーバー上の音声
辞書の必要部分を選択するステップＥ：前記テキストを必用に応じて解析された情報に従っ
て前記音声辞書の必用部分を使用し音声を合成するため
のデジタルデータを作成していくステップＦ：前記音声を合成するためのデータを音声の出力に変
換する手段を有するステップの各ステップからなるシステムとすればよい。

【００１０】そして前記システムにおいてはユーザーは
必用に応じてそれぞれの前記人間の声を基にした音声辞
書をユーザーの任意の組み合わせで選べる構造とする。
前記人間の声を基にした音声辞書から選択した音声辞書
の各要素の中から必用に応じて前記音声の可変可能部分
の少なくとも１つをユーザーの好みで可変させることを
可能とする。この可変部分、声の高さ、発声速度、音
量、から選ばれた少なくとも１つ以上である。

【００１１】本発明によるシステムにおいては入力がキ
ーボード入力、ＯＣＲを利用した活字文字の認識、手書
き文字の認識入力から選ばれる少なくとも１つの方法の
入力法であり、１文字入力の後の音声出力、単語確定後
の音声出力、文節確定後の音声出力、文確定後の音声出
力、１文字認識の後音声出力、単語認識後の音声出力、
文節認識後の音声出力、文認識後の音声出力の少なくと
も１つをユーザーの必用に応じて選択できることが可能
である。前記１文字入力の後音声出力の場合にはアルフ
ァベット、ひらがな、及びカタカナから選ばれる少なく
とも１つの方法で入力された１つの日本語文字を認識し
た直後に前記認識した文字に対応した音声を発生させる
こと、単語確定後あるいは単語認識後音声出力において
は、単語確定あるいは単語認識した直後に前記確定ある
いは認識した単語に対応した音声を発生させること、文
節確定後あるいは認識後の音声出力においては、文節を
確定あるいは認識した直後に前記確定あるいは認識した
文節に対応した音声を発生させること、文確定あるいは
認識後の音声出力においては、文を確定あるいは認識し
た後に前記確定した文に対応する音声を発生させること
が可能であるシステムとする。

【００１２】前記人間の声を基にした音声辞書は音声素
片部分、韻律部分から構成され、必用に応じてそれぞれ
の部分に分けて格納しておく。

【００１３】前記人間の声を基にした音声辞書の前記韻
律部分は基本周波数、アクセント、イントネーション、
時間的特徴、音量の特徴、方言的特徴、ポーズの取り方
の特徴、感情による発声の特徴から選ばれる少なくとも
１つ以上の独立部分を含んでおりそれぞれの部分に分け
て格納しておく。

【００１４】あるいは前記人間の声を基にした音声辞書
の各部分は音声素片、基本周波数、アクセント、イント
ネーション、時間的特徴、音量の特徴、方言的特徴、ポ
ーズの取り方の特徴、感情による発声の特徴から選ばれ
る少なくとも１つ以上の独立部分を含ませてもよい。

【００１５】前記手法により作成した任意の声質の合成
音声を任意の特定の場所あるいは音楽などのバックグラ
ウンド音響を付加するために以下の手法をとることも可
能である。すなわちユーザーの装置がパソコン、音発生
機能付きワープロ、専用装置から選ばれた少なくとも１
つの装置である場合は前記システムにおいて環境音響を
デジタル情報に変換し前記環境音響をハード媒体に格納
してユーザーに供給され方法及びユーザーの装置が接続
可能な回線を通じてユーザーに供給することから選ばれ
た少なくとも１つの供給法によりユーザーは必用に応じ
てバックグラウンド音響としての環境音響を前記合成音
声に付加するればよい。またユーザーのシステムがパソ
コン、音発生機能付きワープロ、専用装置、ＮＣ、ゲー
ムマシン、ＳＴＢ（セット・トップ・ボックス）から選
ばれる少なくとも１つの装置でありユーザーの装置が接
続可能な回線に結合されたサーバー上にソフトおよび各
種辞書が格納されている場合には環境音響をデジタル情
報に変換し環境音響テーブルとし回線に結合されたサー
バー上に置いておき前記環境音響のデジタル情報をユー
ザーは必用に応じて前記サーバーに接続しバックグラウ
ンド音響としての環境音響を前記合成音声に付加すれば
よい。

【００１６】ユーザーの任意の声質で歌声を発声させる
ためには以下の方法をとればよい。すなわち前記音声素
片辞書から選ばれ前記ユーザーの任意な音楽に対応した
テキストをユーザーの任意の前記音声素片辞書から選ば
れた音声素片を接続し音韻系列とし前記ユーザーの任意
な音楽に対応した韻律を韻律情報に変換し前記ユーザー
の任意な音楽に対応した韻律情報を与えることにより前
記音楽に対応した歌声を合成すればよい。ここでユーザ
ーの装置がパソコン、音発生機能付きワープロ、専用装
置から選ばれた少なくとも１つの装置である場合は前記
ユーザーの任意な音楽に対応した韻律をデジタル情報に
変換した情報はハード媒体に格納してユーザーに供給さ
れる方法及びユーザーの装置が接続可能な回線を通じて
ユーザーに供給することから選ばれた少なくとも１つの
供給法によりユーザーは必用に応じて前記ユーザーの任
意な音楽に対応した韻律をデジタル情報に変換した情報
を使用することが可能となる。またユーザーのシステム
がパソコン、音発生機能付きワープロ、専用装置、Ｎ
Ｃ、ゲームマシン、ＳＴＢ（セット・トップ・ボック
ス）から選ばれる少なくとも１つの装置であり回線に接
続可能なサーバー上にソフトおよび各種辞書が格納され
ている場合には前記ユーザーの任意な音楽に対応した韻
律をデジタル情報に変換した情報は回線に結合されたサ
ーバー上に置いておきユーザーは必用に応じて前記音楽
に対応した韻律をデジタル情報に変換した情報を使用す
るようにすればよい。

【００１７】上記歌声に楽器の演奏を付加することも可
能である。すなわち前記ユーザーの任意の音楽に対応し
た楽器の演奏をデジタル情報に変換し前記音声合成であ
る歌声に付加すればよい。そしてユーザーの装置がパソ
コン、音発生機能付きワープロ、専用装置から選ばれた
少なくとも１つの装置である場合は前記ユーザーの任意
の音楽に対応した楽器の演奏をデジタル情報に変換しハ
ード媒体に格納してユーザーに供給される方法及び回線
を通じてユーザーに供給することから選ばれた少なくと
も１つの供給法によりユーザーは自分の装置に前記ユー
ザーの任意の音楽に対応した楽器の演奏をデジタル情報
に変換した情報をインストールし必用に応じて前記ユー
ザーの任意の音楽に対応した楽器の演奏をデジタル情報
に変換した情報を前記合成音声である歌声に付加すれば
よい。ユーザーのシステムがパソコン、音発生機能付き
ワープロ、専用装置、ＮＣ、ゲームマシン、ＳＴＢ（セ
ット・トップ・ボックス）から選ばれる少なくとも１つ
の装置でありユーザーの装置が接続可能な回線に結合さ
れたサーバー上にソフトおよび各種辞書が格納されてい
る場合には前記ユーザーの任意の音楽に対応した楽器の
演奏をデジタル情報に変換しユーザーの装置が接続可能
な回線に結合されたサーバー上に置いておき前記ユーザ
ーの任意の音楽に対応した楽器の演奏のデジタル情報に
変換した情報をユーザーは必用に応じて前記サーバーに
接続し前記ユーザーの任意の音楽に対応した楽器の演奏
のデジタル情報に変換した情報を前記合成音声である歌
声に付加する。

【００１８】前記人の声を基にした音声辞書の基にした
人に関連した画像および前記入力テキストに関連した画
像から選ばれた少なくとも１つの画像をディスプレイ上
に表示することも可能であり、ユーザーの装置がパソコ
ン、音発生機能付きワープロ、専用装置から選ばれた少
なくとも１つの装置である場合は前記人の声を基にした
音声辞書の基の人に関連した画像および前記入力テキス
トに関連した画像から選ばれた少なくとも１つの画像を
デジタル情報に変換しハード媒体に格納してユーザーに
供給される方法及びユーザーの装置が接続可能な回線を
通じてユーザーに供給することから選ばれた少なくとも
１つの供給法によりユーザーは必用に応じて前記人の声
を基にした音声辞書の基の人に関連した画像および前記
入力テキストに関連した画像から選ばれた少なくとも１
つの画像をデジタル情報に変換した情報を付加すればよ
い。またユーザーのシステムがパソコン、音発生機能付
きワープロ、専用装置、ＮＣ、ゲームマシン、ＳＴＢ
（セット・トップ・ボックス）から選ばれる少なくとも
１つの装置であり回線に接続可能なサーバー上にソフト
および各種辞書が格納されている場合には前記人の声を
基にした音声辞書の基の人に関連した画像および前記入
力テキストに関連した画像から選ばれた少なくとも１つ
の画像をデジタル情報に変換し画像情報テーブルとして
ユーザーの装置が接続可能な回線に結合されたサーバー
上に置いておきユーザーは必用に応じて前記サーバーに
接続し前記人の声を基にした音声辞書の基の人に関連し
た画像デジタル情報に変換した情報を付加すればよい。

【００１９】次に音声発生において方言的な特徴も１つ
の興味深い要素である。これを実現するには各地方毎に
標準化された方言の辞書を設ければよい。そして前記各
地方毎に標準化された方言の辞書はテキスト解析部、音
声合成部に関する音声辞書から選ばれる少なくとも１つ
に関連づけられるようにする。ユーザーの装置がパソコ
ン、音発生機能付きワープロ、専用装置から選ばれた少
なくとも１つの装置である場合は前記各地方毎に標準化
された方言の辞書をハード媒体に格納してユーザーに供
給される方法及びユーザーの装置が接続可能な回線を通
じてユーザーに供給することから選ばれた少なくとも１
つの供給法によりユーザーは必用に応じて前記各地方毎
に標準化された方言の辞書を使用すればよい。ユーザー
のシステムがパソコン、音発生機能付きワープロ、専用
装置、ＮＣ、ゲームマシンＳＴＢ（セット・トップ・ボ
ックス）から選ばれる少なくとも１つの装置であり回線
に接続可能なサーバー上にソフトおよび各種辞書が格納
されている場合には前記各地方毎に標準化された方言の
辞書をユーザーの装置が接続可能な回線に結合されたサ
ーバー上に置いておきユーザーは必用に応じて前記サー
バーに接続し前記各地方毎に標準化された方言の辞書使
用すればよい。

【００２０】各種辞書、各情報テーブルをユーザーに供
給するためのハード媒体はフロッピーディスク、ＣＤ−
ＲＯＭ、ＭＯ、ＰＤ、ＤＶＤ、メモリーカードからその
目的によって最適なものを選択すればよい。

【００２１】同様に回線を通じてユーザーに供給する場
合および回線に接続可能なサーバー上にソフト、各種辞
書、各情報テーブルが格納されている場合の回線は一般
公衆回線及び専用回線から選ばれた少なくとも１つの回
線であり、前記回線は必用に応じて有線回線および無線
回線からあるいは組み合わせて最適なものを選択すれば
よい。前記有線回線は電気信号および光信号から選ばれ
た少なくとも１つの有線回線であり、前記無線回線は電
磁波信号及び光信号から選ばれた少なくとも１つの無線
回線であればよい。

【００２２】本発明のシステムにおいて文章を元に音声
を発声させる場合は文章の各部分部分で独立に任意の声
質の音声を選択できる構造とする。

【００２３】本発明のシステムによるユーザーへのハー
ド媒体の供給法は前記システムにおける少なくとも１人
以上人の声を基にした前記音声辞書、前記環境音響をデ
ジタル情報に変換した情報、前記ユーザーの任意な音楽
に対応した韻律のデジタル情報に変換した情報、前記ユ
ーザーの任意の音楽に対応した楽器の演奏をデジタル情
報に変換した情報、前記人の声を基にした音声辞書の基
の人に関連した画像をデジタル情報に変換した情報、前
記各地方毎に標準化された方言の辞書から選ばれた少な
くとも１つの情報を格納した前記ハード媒体は売り切り
とする。

【００２４】あるいは前記システムにおける前記ハード
媒体は１人以上の人の声を基にした音声辞書、前記環境
音響をデジタル情報に変換した情報、前記ユーザーの任
意な音楽に対応した韻律のデジタル情報に変換した情
報、前記ユーザーの任意の音楽に対応した楽器の演奏を
デジタル情報に変換した情報、前記人の声を基にした音
声辞書の基の人に関連した画像をデジタル情報に変換し
た情報、前記各地方毎に標準化された方言の辞書から選
ばれた少なくとも１つの情報を格納しガードをかけ、ユ
ーザーの入金を確認後前記ガードを外すシステムとして
もよい。

【００２５】または前記システムにおける前記ハード媒
体は複数の人の声を基にした音声辞書、前記環境音響を
デジタル情報に変換した情報、前記ユーザーの任意な音
楽に対応した韻律のデジタル情報に変換した情報、前記
ユーザーの任意の音楽に対応した楽器の演奏をデジタル
情報に変換した情報、前記人の声を基にした音声辞書の
基の人に関連した画像をデジタル情報に変換した情報、
前記各地方毎に標準化された方言の辞書から選ばれた少
なくとも１つの情報を格納しそれぞれの前記人の声を基
にした音声辞書独立にガードをかけ、ユーザーの入金を
確認後それぞれ独立に前記ガードを外すシステムでもよ
く必用によって最適なものを選択すればよい。

【００２６】回線を通じてユーザーに供給する方法ある
いは、ユーザーのシステムがパソコン、音発生機能付き
ワープロ、専用装置、ＮＣ、ゲームマシンＳＴＢ（セッ
ト・トップ・ボックス）から選ばれる少なくとも１つの
装置であり回線に接続可能なサーバー上にソフトおよび
各種辞書が格納されている場合にはユーザーの入金によ
り前記サーバーに接続可能とすればよい。

【００２７】回線を通じてユーザーに供給する方法にお
いてはユーザーの入金により前記サーバーに接続し必要
音声辞書部分をユーザーの装置にコピー可能とすればよ
い。そしてこの場合ユーザーの装置にコピーされた前記
音声辞書が必要に応じて自動消滅する構造でもよい。前
記構造を必用に応じて自由に組み合わせればよい。

【００２８】またユーザーのシステムがパソコン、音発
生機能付きワープロ、専用装置、ＮＣ、ゲームマシン、
ＳＴＢ（セット・トップ・ボックス）から選ばれる少な
くとも１つの装置であり回線に接続可能なサーバー上に
ソフトおよび各種辞書が格納されている場合にはユーザ
ーが前記サーバーに接続し前記サーバー上の音声辞書の
使用量に応じて料金を決定し、前記料金をクレジットカ
ード、銀行引き落とし、請求書発行による入金から選ば
れた少なくとも１つの決済法をとればよい。

【００２９】上述したシステムで発生した音声をユーザ
ーの必用に応じてオーディオカセット、ＭＤ、ＤＣＣな
どの録音媒体に記録してもよい。また前記システムをパ
ソコン通信におけるチャットで使用してもよい。

【００３０】

【作用】前述のシステムによれば人の声をベースにし
た各特徴を独立に有する音声辞書および各情報を各種ユ
ーザーに容易に供給できる。また各ユーザーにおいて
は、雰囲気、状況などにより任意の声質、語調などを任
意の自由に音声を選ぶことが可能となる。各地方の方
言、または人により異なる方言的特徴なども加味した任
意の音声で実現できる。また各音声辞書と同様にバック
グラウンド音響もユーザーに容易に供給できるのでユー
ザーの任意のバックグラウンド音響で任意の音声を聞く
ことが可能となる。またユーザーは任意の声質で任意の
歌を歌わせることができ、かつ任意の楽器の伴奏も付加
することが可能となる。任意の声質の基の人に関連した
画像をディスプレイ上に表示することができるのでより
臨場感が出る。この合成音声を録音媒体に記録すること
により携帯用のオーディオカセットテープにより繰り返
して再生させることが可能となり学習などにも役に立
つ。

【００３１】

【実施例】図１に本発明の実施例の全体のシステムの構
成の概要を示す。ここで１は音声提供者であり、まず予
めモデル化された文章を音声提供者に一定のテンポで朗
読して貰う。朗読時に一定のテンポで朗読してもらうた
めに音声提供者にはヘッドフォンを付けてもらいこのヘ
ッドフォンよりモデルの文書と朗読のリズムの指示を流
す。この音声提供者の朗読の結果を２の音声記録装置に
記録する。次にこの朗読の結果を元に音声辞書を作成し
ていく。そしてその結果を３のコンピュータに格納す
る。この辞書を４に示すようにＣＤ−ＲＯＭに格納す
る。

【００３２】そしてこのＣＤ−ＲＯＭをユーザに供給
し、ユーザーのパソコン５にＣＤ−ＲＯＭに格納されて
いる辞書をインストールする。もちろん音声辞書のユー
ザーへの供給法については、ＣＤ−ＲＯＭである必用
はなくＦＤ、ＤＶＤ、ＰＤ、メモリーカードなどでもよ
い。また図の５のサーバーに音声辞書、情報テーブルを
格納しておきユーザーが一般電話回線を経由してサーバ
ーに接続して任意の音声辞書を自分のパソコンにインス
トールしてもよい。

【００３４】図２にユーザーが音声合成していく様子を
概略フロチャート示す。まずユーザーは原稿をスキャナ
ーを用いてパソコンに取り込む。次にこの情報をテキス
トファイルに変換する。このテキストファイルに対して
テキスト解析を行う。このテキスト解析の結果に基き２
１のユーザーの任意の音声素片辞書を参照し前記テキス
トを解析した結果にそって各音声素片を接続していき接
続部を補完し音韻系列を作成する。この音韻系列と２２
の韻律辞書を参照しユーザーの任意の韻律を選択して作
成した韻律を合成し音声合成データを作成する。

【００３５】次に環境音響を付与する。ここでは海の波
の音をデジタル情報としたものを音声と同様の方法すな
わちＣＤ−ＲＯＭに格納してユーザーに供給しユーザー
は自分のパソコンの環境音響情報テーブル２３にインス
トールする。前述の方法で作成した合成音声に環境音響
情報テーブル２３を参照してユーザーの任意の海の波の
音を付加する。

【００３６】前述の処理により作成したデータをパソコ
ンの音源ボードを使用し音声出力に変換しスピーカーよ
り音として出力する。

【００３７】本実施例ではユーザーの装置はパソコンで
あったがパソコンに限定されるものではなく例えば音発
生機能付きワープロ、音発生機能付きゲーム機、あるい
は専用機などでもよい。

【００３８】更に現在提案されている安価なコンピュー
ターＮＣ（ネットワークコンピュータ）、ＳＴＢ（セッ
ト・トップ・ボックス）などを使用してもよい。この場
合必用なソフト、音声辞書、情報テーブルは一般公衆電
話回線などに結合されたサーバー上に設置しておきユー
ザーが必用な時のみ前述のサーバーに接続し使用すれば
よい。

【００３９】次に各部についてさらに詳細に述べる。図
３は音声辞書の構造を示す。ここでそれぞれ３０１は音
声素片辞書であり３０２は韻律辞書である。さらにこの
韻律辞書部分は３０３の基本周波数部分、３０４の発音
される個々の語が持つ強さまたは高さの配置であるアク
セント部分、３０５の話をするとき話し手の上がり下が
りの調子であるイントネーション部分、３０６の時間的
特徴部分、３０７の声の大きさを表す音量の特徴、３０
８の方言的特徴、３０９のポーズの取り方の特徴、３１
０の感情による発声の特徴の独立部分を備えている。

【００４０】図４に音声素片辞書の作成のフロチャート
を示した。音声提供者に予め決められた文章を朗読して
もらう。この際音声提供者にはヘッドホンを装着しても
らい、このヘッドフォンを通じて文書の朗読のタイミン
グを指示する。音声提供者はこの指示に基づいて前述の
予め決められた文章を朗読していく。この朗読した音声
を図４の４０１に示すようにアナログ録音する。次に４
０２においてアナログの音声をデジタル変換していく。
このデジタル変換された音声データを４０３に示すよう
に時間分割処理を行う。次に４０４に示すように予め決
められた文書の音素と音声提供者の音素の対応付けを行
う。この対応付けを行った結果を元に各音素にラベリン
グを行う。この結果を音素ラベリングテーブル４０８に
格納する。音素ラベリングテーブルおよび予め作成して
ある音声素片切り出しテーブル４０９に従い４０６で音
声素片を切り出す。切り出された音声素片は４０７で示
された格納処理部において辞書化処理を行い音声素片辞
書４１０に格納する。

【００４１】韻律辞書も音声素片辞書と同様に予め決め
られた文章を音声提供者に読んでもらう。但し音声素片
辞書作成の時と異なるのは読む際のタイミングの指示を
音声提供者に行わない。また興奮した場合、悲しい場
合、怒った場合等の感情の起伏を予めきめられた文書の
必用部分に添付しておく。そして韻律辞書の場合には標
準の韻律を定めておき各音声提供者の辞書は標準との差
の形で作成する。この時予め標準として定めたの男性の
声と女性の声の韻律辞書を作成しておく。但し標準の韻
律辞書の感情部分は抑揚のない状態での基本周波数、音
量、発話速度を格納しておく。

【００４２】図５の（ａ）に標準の音声波のアウトライ
ン、（ｂ）に音声提供者Ａの音声波のアウトラインを示
す。基本周波数の採取については音声提供者に抑揚のな
い平板な状態で読んで貰う。基本周波数については標準
の基本周波数に対して（ｂ）の音声提供者Ａの音声波を
それぞれ予め設定された語についての基本周波数を比較
し、その結果を音声辞書の韻律部の基本周波数の部分に
格納する。

【００４３】次にアクセントについては音声提供者にい
つも話している状態で読んでもらう。予めそれぞれ設定
された各単語の各部分のピーク部分の位置、高さおよび
基本周波数を標準の音声波および音声提供者Ａの音声波
を比較し標準し、この結果の差を音声辞書の韻律部のア
クセントの部分に格納する。ここでピークの音声の位置
は図５においては標準のものでは５０２であり、音声提
供者Ａにおいては５１２である。また高さ（音声の強さ
大きさ）は標準のものでは５０１であり、音声提供者Ａ
においては５１１である。

【００４４】イントネーションについては予め決められ
た文を音声提供者にいつも話している状態で読んでもら
う。そして基本周波数の変化を標準のものと比較しその
結果の差を音声辞書の韻律部のイントネーションの部分
に格納する。図６にその様子を示した。ここで図５の
（ａ）の標準の基本周波数の変化を図６（ａ）に示すよ
うにＦとして縦軸にとった。同様に図５の（ｂ）の音
声提供者Ａの基本周波数の変化を図６（ｂ）に示すよう
にＦとして縦軸にとった。

【００４５】時間的特徴については予め決められた文章
中の各音および代表的単語の継続時間時間、てにおはお
よび接続詞の最後の音の継続時間そして文章全体を読む
早さを比較する。前記と同様に標準のものと比較しその
結果の差を音声辞書の韻律部の時間的特徴の部分に格納
する。

【００４６】方言的特徴については音声提供者が通常の
話す際に方言が出る場合には出身地方の標準の方言辞書
との比較を行いその結果の差を音声辞書の韻律部の方言
部分に格納する。

【００４７】ポーズの特徴については図５に示すポーズ
部の継続時間、標準では５０４、音声提供者Ａにおいて
は５１４部分を比較する。そしてその結果の差を音声辞
書の韻律部のポーズ部分に格納する。

【００４８】感情による特徴については音声提供者に前
述のように興奮した場合、悲しい場合、怒った場合等の
感情の起伏を予め決められた文書の必用部分に添付して
おく。そしてこの感情をこめてこの文章を読んで貰う。
そしてこの部分を標準のものと比較する。この時比較の
対象は文章を読む早さ、基本周波数、音量（音の強さ）
を比較する。そしてこの結果を音声辞書の韻律部の感情
部分に格納する。

【００４９】任意の人の声で音声合成したものに任意の
バックグラウンド音響を付加するとさらに臨場感が増
す。このために環境音響についても環境音響情報テーブ
ルを作成する。前述したように海の波の音、駅構内の
音、高速道路の脇の車の風きり音を図７に示したように
アナログ録音したものを合成音声に付加できる形にデジ
タル変換し環境音響情報テーブル７１に格納すればよ
い。

【００５０】任意の人の音声に関連した画像あるいは入
力テキストに関連した画像、又はその双方を音声発生時
にディスプレイ上に表示することも効果的である。これ
を実現するためには、画像情報テーブルを必用とする。
これも前述した環境情報テーブルと同様に作成すればよ
い。例えば任意の人の声の基の声の音声提供者がアニメ
ーションの主人公の声優であれば、そのアニメーション
の主人公の話をしている状態の画像を取り込み画像情報
テーブルに格納すればよい。また音声提供者自身をスチ
ルカメラでとり静止画像として取り込んでもよいし、ま
たビデオカメラで話をしている所を取り込んでもよく、
これを図８に示すように音声発生データに付加できる形
に変換し画像情報テーブルに格納すればよい。入力テキ
ストに関連した画像も同様に、その入力テキストが列車
の旅の場面であれば列車をスチルカメラあるいはビデオ
カメラで撮影しておき音声発生データに付加できる形に
変換し画像情報テーブルに格納すればよい。

【００５１】各地方毎に標準化された方言辞書は韻律だ
けでなく一部の単語も置き換わる場合があるので置き換
え用の単語辞書も必用となる。そこで方言辞書の構成は
図９に示すように単語置き換え部と韻律部から構成すれ
ばよい。単語置き換え部は標準語の単語に対応する各地
方の独特の単語を採取しその地方の単語のテキストと語
音の標準語との差を方言辞書の単置き換え部に格納す
る。同様に例えば発話速度が早かったり語尾を上げると
いった全体の韻律も採取し標準語の韻律との差を方言辞
書の韻律部に格納する。

【００５２】図１０のブロック図においてユーザーのシ
ステムについてさらに詳しく説明する。まず紙面上の活
字をスキャナーで読み込みシステムに取り込む。これを
テキストに変換する。次にこのテキストを標準辞書１０
０１を参照して１０１１のテキスト解析部で解析する。
ここで１０１０はユーザーシステムのシステム制御部で
ある。この結果を基に任意の人の声を基にした音声辞書
の音声素片部分１００３（１）を参照して音韻系列生成
部１０１３により音韻系列を作成する。同様に標準の韻
律辞書１００２および任意の人の声を基にした音声辞書
の韻律生成部１００３（２）を参照し韻律を生成する。
そしてこの生成した音韻系列および韻律から音声合成デ
ータを作成する。

【００５３】ここでユーザーが方言を指定した場合はシ
ステム制御部１０１０より指令を出し、まず標準化され
た方言辞書１００４の単語置き換え部を参照して標準語
に対応する単語を特定地方の単語テキストに置き換え
る。次に韻律生成部においても標準化された方言辞書１
００４の韻律部分および単語置き換え部の語調を参照し
前述の単語に対する韻律を生成すると共に、文全体の韻
律も標準辞書１００１の韻律部分および任意の人の声を
基にした音声辞書１００３（２）の方言部分を参照して
韻律を生成させる。

【００５４】またユーザーが例えば怒った感情を付加し
たい場合には、韻律の一部を可変すればよい。システム
制御部１０１０より指令を出し標準辞書１００１の韻律
部分および任意の人の声を基にした音声辞書１００３
（２）の感情部分を参照して韻律修正部１０１５により
修正した韻律を生成させる。さらにユーザーが怒った感
情を更に強調したい場合には基本周波数を５％増加し、
発話速度を１０％早くし、音量を３０％増加させる。

【００５５】ユーザーがバックグラウンド音響として前
述の合成音声に例えば駅構内の音を付加したい場合には
システム制御部１０１０より指令を出し環境音響情報テ
ーブル１００５を参照して駅の構内の音を環境音響付加
部１０１７において環境音響を付加し音声データを作成
する。

【００５６】同様にユーザーが任意の人の声を基にした
人に関連した画像をディスプレイ上に表示したい場合に
は付加したい場合にはシステム制御部より指令を出し画
像情報テーブル１００６を参照して任意の人の声を基に
した人に関連した画像を選択し、前述の音声データに画
像データを付加し、画像付き音声データとする。

【００５７】次にこれを実音声変換部１０１９において
音声データを実音声に変換しスピーカー１００７により
実音声化すると共に画像処理部１０２０により画像処理
し任意の人の声を基にした人に関連した画像をディスプ
レイ上に表示する。

【００５８】さらに各テキストの部分で声質の異なる場
合の音声発生の手順を説明していく。ここではＣＤ−Ｒ
ＯＭの形で関西地方の標準化された方言辞書、Ａ氏、Ｂ
氏の声を基にした音声辞書をユーザーのシステムのハー
ドディスクにインストールした。Ａ氏の声を基にした
音声素片辞書は１００３（１）のＡ部、韻律辞書は１０
０４（２）のＡ部に、Ｂ氏の声を基にした音声素片辞
書は１００３（１）Ｂ部に、韻律辞書は１００４（２）
のＢ部に格納されている。同様に環境音響情報テーブル
には駅構内の音を、画像情報テーブルにはそれぞれＡ
氏、Ｂ氏の話をしている動画をインストールしておく。

【００５９】図１１にこの場合の時間的流れと出力した
い音声を示した。ここで時間の流れは左から右であり、
１１０１は標準語のＡ氏の声、１１０２は関西弁のＢ氏
の声、そして１１０３はＡ氏の声質にＢ氏の語調を選択
した。この指令は図１０のシステム制御部１０１０よ
り、各部へ送られ必用なテキストを解析し１１０１部分
の合成は音声辞書の音声素片辞書部分の１００３（１）
のＡ部を参照して音韻系列を生成し、音声辞書の韻律部
分の１００３（２）のＡ部を参照して韻律を生成する。
次に１１０２部分の合成はテキスト解析した結果を方言
辞書１００４を参照して単語置き換えを行う。次にこの
結果を基に音声辞書の音声素片辞書部分の１０３（１）
Ｂ部を参照して音韻系列を生成し、標準方言辞書１００
４、標準辞書１００１の韻律部分および音声辞書の韻律
部分の１００４（２）Ｂ部を参照して韻律を生成する。

【００６０】次に１１０３の部分の音声合成について説
明する。この部分は標準語でＢ氏の声質Ａ氏の語調で話
している状態である。この場合にはまず音声辞書の音声
素片辞書部分の１００３（１）Ｂ部を参照して音韻系列
を生成し、音声辞書の韻律部分の１００３（２）Ａ部を
参照して韻律を生成する。そして前述の音韻系列および
韻律からそれぞれ１１０１、１１０２、１１０３の部分
の合成音声データを生成する。

【００６１】前述の合成音声のデータに駅構内の音を付
加する。これは図９の環境音響情報テーブルを参照して
駅構内の音を付加し音声発生データとする。

【００６２】次にＡ氏、Ｂ氏の画像を付加していく。そ
れぞれ１１０１はＡ氏の動画、１１０２および１１０３
はＢ氏動画を付加すればよいから、図１０の画像情報テ
ーブル１００６を参照して前述の音声発生データに画像
データを付加し画像データ付き音声発生データとする。

【００６３】この画像データ付き音声発生データ処理し
音声はスピーカーから、画像はディスプレイに表示す
る。もちろん入力テキストに関連した画像の場合も同様
である。

【００６４】次に歌声を発生させる方法について述べ
る。通常歌についての情報は楽譜に記載されている。楽
譜の情報には歌詞、音符、音楽記号が有り、歌詞にはテ
キスト情報、音符には音の高さ（周波数）と長さ、音楽
記号には強弱記号が含まれる。まず前述の楽譜情報から
歌声を合成するための情報を作成する必用がある。

【００６５】楽譜をスキャナーあるいは手入力でコンピ
ュータに取り込む。そして歌詞の情報をテキストに変換
する。同様に音符情報、および音楽記号情報から韻律を
作成するための基情報を作成する。

【００６６】前述の音楽に対応する楽器の演奏も付加す
ればさらに臨場感が出る。これを実現するために前述の
音楽の楽器演奏を録音し歌声に付加できる形にデジタル
変換しておけばよい。この楽器演奏の情報には歌声と同
期するためにタイミング信号を挿入しておく。

【００６７】前述の方法で作成した情報をＣＤ−ＲＯＭ
に格納しユーザーに供給する。ユーザーはこの情報を自
分のパソコンのハードディスクに格納する。図１２にユ
ーザーが歌声音声を発生させるまでのフロチャートをを
示した。まず１２０１にある歌情報からユーザーの任意
の歌情報テーブルを参照し１２１１でテキスト解析を行
う。次にこの結果をもとに音声素片辞書１２０２を参照
してユーザーの任意の声質を選び１２１２で音韻系列を
作成する。１２１２では歌情報テーブル１２０１の韻律
作成のための基情報部分を参照して韻律を作成し、両者
を用いて音声合成データを１２１４で作成する。つぎに
前述の歌声データに前述の音楽に対応した任意の楽器演
奏情報を１２０３の楽器演奏情報テーブルを参照して付
加する。

【００６８】次に音声発生ソフトおよび各辞書のユーザ
ーへの供給方法および課金の方法についてのシステムを
説明する。前述のシステムにおいてはユーザーのシステ
ムがパソコンの場合を説明したが音声発生ソフトおよび
各辞書が回線に結合されたサーバー上に常駐させ、必用
に応じてユーザーの装置から前記サーバーに接続して前
記音声発生ソフト、各辞書、各情報テーブルを使用する
ＮＣ（ネットワークコンピューター）的使用の場合と異
なるため分けて説明する。まずユーザーのシステムがパ
ソコンの場合には、大きく分けて２つの方法があり、１
つはハード媒体で供給する方法であり、もう１つは回線
で供給する方法である。

【００６９】前者においてはまず音声発生ソフトおよび
音声辞書、環境音響情報テーブル、画像情報テーブルの
各辞書、各情報テーブルを一切ガードをかけずにＣＤ−
ＲＯＭなどの媒体に格納する。そしてこのＣＤ−ＲＯＭ
媒体をユーザーに売り切りで販売する方法がある。また
この音声発生ソフトおよび各辞書それぞれに異なった暗
証番号でガードが外れるようにしてインストールする。
そしてこの場合ＣＤ−ＲＯＭ媒体を低価格で販売する
か、あるいは無料で配布しユーザーは必用部分のみの代
金を払い、供給者はこの代金の入金を確認したらユーザ
ーに必用部分の暗証番号を発行する。この暗証番号発行
方法は公衆回線を通じてパソコン通信で配布すればよ
い。もちろん郵送、電話で告げるなどの方法でもよい。
ユーザーはこの暗証番号を利用してＣＤ−ＲＯＭ媒体の
必用部分のガードをはずしユーザーのパソコンシステム
のハードディスクにインストールする。

【００７０】公衆電話回線を通じて供給してもよい。音
声発生ソフトおよび各辞書を公衆電話回線に結合したサ
ーバー上に常駐させておく。ユーザーは必用とするソフ
ト、辞書、情報テーブルを前述の回線を通じて入手すれ
ばよい。この場合代金の回収は前述のＣＤ−ＲＯＭの場
合と同様に音声発生ソフトおよび各辞書それぞれに異な
った暗証番号でガードをかけておきサーバー上に常駐さ
せておけばよい。そしてユーザーは自由に前記音声発生
ソフト、各辞書、各情報テーブルの必用部分を前記回線
を通じて自分の装置に取り込む。前述のＣＤ−ＲＯＭの
場合と同様な方法でガードをはずしユーザーは自分のシ
ステムに必用部分をインストールすればよい。

【００７１】ユーザーのシステムに無償あるいは有償で
ＣＤ−ＲＯＭ媒体あるいは公衆電話回線を通じてインス
トールされた音声発生ソフトおよび各辞書の必用部分は
試用期間を設けておき試用期間がすぎたら自動消滅する
ように設定しておいてもよい。

【００７２】また他の方法として前記回線に結合された
サーバー上の音声発生ソフトおよび各辞書にそれぞれ独
立に接続のためのゲートを設ける。このゲートを通過す
るためにはそれぞれ暗証番号を入力することが必用であ
る構造とする。ユーザーは必用部分のみの代金を払い、
供給者はこの代金の入金を確認したらユーザーに必用部
分の暗証番号を発行する。ユーザーは前記回線を通じて
サーバーに接続し音声発生ソフトおよび各辞書の必用部
分に前記暗証番号を使い接続する。そして自分のシステ
ムに必用部分をインストールすればよい。

【００７３】次にＮＣ（ネットワークコンピュータ）的
使用の場合について説明する。この場合音声発生ソフト
および各辞書は公衆電話回線に結合されたサーバー上に
のみ存在しているわけであるから、音声を発生させるた
めにはユーザーの装置から常に前記回線に結合されたサ
ーバーに接続する必用がある。この場合にはサーバーに
接続するためのゲートを設けておき、供給者はユーザー
の入金を確認したらそのユーザーが前記サーバーに接続
可能な状態にするために前記ゲートを通過できるように
すればよい。また前述のように暗証番号を発行しその暗
証番号によりゲートを通過できる構造でもよい。

【００７４】このゲートを通過可能な状態はユーザーの
入金状態により通過不能としてもよい。例えばこのゲー
トの通過可能状態の期限を設定し、その期限が過ぎた場
合通過不能とし、新たに入金があれば再びゲートを通過
可能とすればよい。

【００７５】他の方法でもよく供給者はユーザーの使用
量に応じて請求してもよい。例えば各辞書、各情報テー
ブルへのアクセスタイムを記録しておき、このアクセス
タイムに応じてユーザーの銀行口座から必用金額を引き
落とせばよい。

【００７６】前述のシステムで作成した音声を録音媒体
に記録し、例えば路線バスの車内の案内放送などに使用
してもよい。この場合任意の音声を選択することが可能
となるのでバスの運行場所、日時などに応じた音声の選
択も可能となる。

【００７７】本音声発声システムをパソコン通信のチャ
ットのユーザーが使用すれば今まで無味乾燥であったチ
ャットが自分の任意の声を選べるため非常に臨場感のあ
るものとなる。例えばチャットに参加する人の声を基に
音声辞書を作成しておく。そして自分のシステムに前記
チャットに参加する人の音声辞書をインストールしてお
き、その人の発言の時に本システムを稼働すればチャッ
トに参加している人の声でその発言を聞くことが可能と
なる。本発明の趣旨を逸脱しない範囲で自由に組み合わ
せればよい。

【００７８】

【発明の効果】以上説明したように本発明によれば、人
間の声を基にした音声辞書を容易にユーザーに供給する
ことが可能となり、ユーザーのシステムにおいては、ユ
ーザーの任意の音声およびバックグラウンド音響、音声
に合致した画像、そして任意音楽が任意の歌声で選択で
きるため多種多様の音声合成を楽しむことが可能とな
る。。

【図面の簡単な説明】

【図１】実施例の全体のシステムの概要

【図２】ユーザーのシステムの概略フロチャート

【図３】音声辞書の構造

【図４】音声素片の作成のフロチャート

【図５】（ａ）標準の音声波のアウトライン（ｂ）音声提供者Ａの音声波のアウトライン

【図６】（ａ）標準の音声波の基本周波数の変化（ｂ）音声提供者Ａの音声波の基本周波数の変化

【図７】環境音響の情報

【図８】画像の情報

【図９】方言辞書の構成

【図１０】ユーザーのシステムの詳細

【図１１】時間と出力したい音声の種類

【図１２】歌声発生のフロチャート

【符号の説明】

１音声提供者２音声記録装置４ＣＤ−ＲＯＭ５サーバー２１音声素片辞書２２韻律辞書２３環境音響情報テーブル３０１音声素片辞書３０２韻律辞書３０３基本周波数部分３０４アクセント部分３０５イントネーション部分３０６時間的特徴３０７音量の特徴３０８方言の特徴３０９ポーズの取り方の特徴３１０感情による発声の特徴４０８音素ラベリングテーブル４１０音声素片辞書７１環境音響情報テーブル１００１標準辞書１００３（１）音声辞書の音声素片部分１００３（２）音声辞書の韻律部分１００４標準化方言辞書１００５環境音響情報テーブル１００６画像情報テーブル１０１０システム制御部１０１１テキスト解析部１２０１歌情報テーブル１２０３楽器演奏情報テーブル

Claims

【特許請求の範囲】

【請求項１】入力テキストを解析するテキスト解析手段
と解析されたテキスト情報に対して音韻系列を作成する
音韻系列作成手段と韻律を作成する韻律作成手段と前記
音韻系列と韻律に基づいて合成音声を作成する合成手段
を有する音声規則合成により音声を発生させるシステム
においてＡ：人間の声を基に音声辞書を作成するステップＢ：前記音声辞書をハード媒体に格納してユーザーに供
給すること及びユーザーの装置が接続可能な回線を通じ
てユーザーに供給することから選ばれた少なくとも１つ
のユーザーへの音声辞書供給ステップＣ：前記音声辞書は前記ハード媒体に格納してユーザー
に供給され方法及びユーザーの装置が接続可能な回線に
結合可能なサーバーを通じてユーザーに供給することか
ら選ばれた少なくとも１つの供給法により供給された前
記人間の声を基にした音声辞書をユーザーのシステムの
必要に応じて追加インストールおよび削除するステップＤ：前記入力テキストを解析するステップＥ：前記ユーザーのシステムにおいてはユーザーが任意
の音声を選択するため前記音声辞書の中から任意の音声
辞書を選択するステップＦ：前記解析されたテキスト情報に従って前記音声辞書
の必用部分を使用し音声を合成するための音声信号デー
タを作成していくステップＧ：前記音声信号データを音声の出力に変換するステッ
プの各ステップを有することを特徴とする音声発生システ
ム。
【請求項２】入力テキストを解析するテキスト解析手段
と解析されたテキスト情報に対して音韻系列を作成する
音韻系列作成手段と韻律を作成する韻律作成手段と前記
音韻系列と韻律に基づいて合成音声を作成する合成手段
を有する音声規則合成により音声を発生させるシステム
においてＡ：人間の声を基に音声辞書を作成するステップＢ：前記音声辞書をユーザーの装置が接続可能な回線に
結合されたサーバー上に設置するステップＣ：前記テキストを解析するステップＤ：ユーザーが任意の音声を選択するために前記サーバ
ー上の前記音声辞書の中から任意の音声辞書を選択する
ステップＥ：前記解析されたテキスト情報に従って前記音声辞書
の必用部分を使用し音声を合成するための音声信号デー
タを作成していくステップＦ：前記音声信号データを音声の出力に変換するステッ
プの各ステップを有することを特徴とする音声発生システ
ム。
【請求項３】ユーザーは必用に応じてそれぞれの前記人
間の声を基にした音声辞書をユーザーの任意の組み合わ
せで選べること、前記人間の声を基にした音声辞書から
選択した音声辞書の各要素の中から必用に応じて前記音
声の可変可能部分の少なくとも１つをユーザーの任意の
選択で可変させることを可能とすることを特徴とする特
許請求範囲第１項記載および第２項記載の音声発生シス
テム。
【請求項４】前記システムは入力テキストが予めテキス
トである情報、デジタル入力装置によって入力されテキ
ストに変換された情報、ＯＣＲによって活字からテキス
トに変換された情報の少なくとも１つの情報から音声を
発生させることを特徴とする特許請求範囲第１項記載お
よび第２項記載の音声発生システム。
【請求項５】前記システムは入力がキーボード入力、活
字文字の認識、手書き文字の認識入力から選ばれる少な
くとも１つの方法の入力法であり、１文字入力の後の音
声出力、単語確定後の音声出力、文節確定後の音声出
力、文確定後の音声出力、１文字認識の後音声出力、単
語認識後の音声出力、文節認識後の音声出力、文認識後
の音声出力の少なくとも１つをユーザーの必用に応じて
選択でき、前記１文字入力の後音声出力の場合にはアル
ファベット、ひらがな、及びカタカナから選ばれる少な
くとも１つの方法で入力された１つの日本語文字を認識
した直後に前記認識した文字に対応した音声を合成する
こと、単語確定後あるいは単語認識後音声出力において
は、単語確定あるいは単語認識した直後に前記確定ある
いは認識した単語に対応した音声を合成すること、文節
確定後あるいは認識後の音声出力においては、文節を確
定あるいは認識した直後に前記確定あるいは認識した文
節に対応した音声を合成すること、文確定あるいは認識
後の音声出力においては、文を確定あるいは認識した後
に前記確定した文に対応する音声を合成することを特徴
とする特許請求範囲第１項記載および第２項記載の音声
発生システム。
【請求項６】前記人間の声を基にした音声辞書は音声素
片部分、韻律部分の少なくとも１つからなることを特徴
とする特許請求範囲第１項記載および第２項記載の音声
発生システム。
【請求項７】前記人間の声を基にした音声辞書の前記韻
律部分は基本周波数、アクセント、イントネーション、
時間的特徴、音量の特徴、方言的特徴、ポーズの取り方
の特徴、感情による発声の特徴から選ばれる少なくとも
１つ以上の独立部分を含んでいることを特徴とする特許
請求範囲第６項記載の音声発生システム。
【請求項８】前記人間の声を基にした音声辞書の各部分
は音声素片、基本周波数、アクセント、イントネーショ
ン、時間的特徴、音量の特徴、方言的特徴、ポーズの取
り方の特徴、感情による発声の特徴から選ばれる少なく
とも１つ以上の独立部分を含んでいることを特徴とする
特許請求範囲第１項記載および第２項記載の音声発生シ
ステム。
【請求項９】前記可変部分は、声の高さ、発声速度、音
量、から選ばれた少なくとも１つ以上であることを特徴
とする特許請求範囲第３項記載の音声発生システム。
【請求項１０】前記システムにおいて環境音響をデジタ
ル情報に変換し前記環境音響をハード媒体に格納してユ
ーザーに供給される方法及びユーザーの装置が接続可能
な回線を通じてユーザーに供給することから選ばれた少
なくとも１つの供給法によりユーザーは必用に応じてバ
ックグラウンド音響としての環境音響を前記合成音声に
付加することが可能であることを特徴とする特許請求範
囲第１項記載の音声発生システム。
【請求項１１】前記システムにおいて環境音響をデジタ
ル情報に変換しユーザーの装置が接続可能な回線に結合
されたサーバー上に前記環境音響をデジタル情報に変換
した環境音響情報テーブルとして置いておき前記環境音
響のデジタル情報をユーザーは必用に応じて前記サーバ
ーに接続し前記バックグラウンド音響としての環境音響
を前記合成音声に付加することが可能であることを特徴
とする特許請求範囲第２項記載の音声発生システム。
【請求項１２】ユーザーの任意な音楽の歌詞に対応した
テキストをユーザーの任意の前記音声素片辞書から選ば
れた音声素片を接続し音韻系列を作成し前記音韻系列に
前記ユーザーの任意な音楽に対応した韻律情報を与える
ことにより前記音楽に対応した歌声を合成することを特
徴とする特許請求範囲第１項記載および特許請求範囲第
２項記載の音声発生システム。
【請求項１３】前記ユーザーの任意な音楽に対応した歌
詞および楽譜から作成した音韻系列および韻律作成のた
めの基情報はハード媒体に格納してユーザーに供給され
る方法及びユーザーの装置が接続可能な回線を通じてユ
ーザーに供給することから選ばれた少なくとも１つの供
給法によりユーザーは必用に応じて前記ユーザーの任意
な音楽に対応した音韻系列および韻律作成のための基情
報を使用することが可能であることを特徴とする特許請
求範囲第１２項記載の音声発生システム。
【請求項１４】前記ユーザーの任意な音楽に対応した歌
詞および楽譜から作成した音韻系列および韻律作成のた
めの基情報テーブルはユーザーの装置が接続可能な回線
に結合されたサーバー上に置いておきユーザーは必用に
応じて前記音楽に対応した前記ユーザーの任意な音楽に
対応した音韻系列および韻律作成のための基情報を使用
することが可能であることを特徴とする特許請求範囲第
１２項記載の音声発生システム。
【請求項１５】前記ユーザーの任意の音楽に対応した楽
器の演奏をデジタル情報に変換し前記合成音声である歌
声に付加することが可能であることを特徴とする特許請
求範囲第１２項記載の音声発生システム。
【請求項１６】前記ユーザーの任意の音楽に対応した楽
器の演奏をデジタル情報に変換しハード媒体に格納して
ユーザーに供給される方法及びユーザーの装置が接続可
能な回線を通じてユーザーに供給することから選ばれた
少なくとも１つの供給法によりユーザーは必用に応じて
前記ユーザーの任意の音楽に対応した楽器の演奏をデジ
タル情報に変換した情報を前記合成音声である歌声に付
加することが可能であることを特徴とする特許請求範囲
第１５項記載の音声発生システム。
【請求項１７】前記ユーザーの任意の音楽に対応した楽
器の演奏をデジタル情報に変換した楽器演奏情報テーブ
ルをユーザーの装置が接続可能な回線に結合されたサー
バー上に置いておき前記ユーザーの任意の音楽に対応し
た楽器の演奏のデジタル情報に変換した情報をユーザー
は必用に応じて前記サーバーに接続し前記ユーザーの任
意の音楽に対応した楽器の演奏のデジタル情報に変換し
た情報を前記合成音声である歌声に付加することが可能
であることを特徴とする特許請求範囲第１５項記載の音
声発生システム。
【請求項１８】前記人の声の基にした音声辞書の基の人
に関連した画像および前記入力テキストに関連した画像
から選ばれた少なくとも１つの画像を音声発生時にディ
スプレイ上に表示することを特徴とする特許請求範囲第
１項記載および特許請求範囲第２項記載の音声発生シス
テム。
【請求項１９】前記人の声を基にした音声辞書の基の人
に関連した画像および前記入力テキストに関連した画像
から選ばれた少なくとも１つの画像をデジタル情報に変
換しハード媒体に格納してユーザーに供給される方法及
びユーザーの装置が接続可能な回線を通じてユーザーに
供給することから選ばれた少なくとも１つの供給法によ
りユーザーは必用に応じて前記画像情報を付加すること
が可能であることを特徴とする特許請求範囲第１８項記
載の音声発生システム。
【請求項２０】前記人の声を基にした音声辞書の基の人
に関連した画像および前記入力テキストに関連した画像
から選ばれた少なくとも１つの画像をデジタル情報に変
換し画像情報テーブルとしユーザーの装置が接続可能な
回線に結合されたサーバー上に置いておきユーザーは必
用に応じて前記サーバーに接続し前記画像情報を付加す
ることが可能であることを特徴とする特許請求範囲第１
８項記載の音声発生システム。
【請求項２１】前記システムにおいて各地方毎に標準化
された方言辞書を有することを特徴とする特許請求範囲
第１項記載および特許請求範囲第２項記載の音声発生シ
ステム。
【請求項２２】前記システムにおいて前記方言辞書はテ
キスト解析部、音声合成部に関する音声辞書から選ばれ
る少なくとも１つに関連づけられることを特徴とする特
許請求範囲第２１項記載の音声発生システム。
【請求項２３】前記方言辞書をハード媒体に格納してユ
ーザーに供給される方法及びユーザーの装置が接続可能
な回線を通じてユーザーに供給することから選ばれた少
なくとも１つの供給法によりユーザーは必用に応じて前
記方言辞書を使用することが可能であることを特徴とす
る特許請求範囲第２１項記載の音声発生システム。
【請求項２４】前記方言辞書をユーザーの装置が接続可
能な回線に結合されたサーバー上に置いておきユーザー
は必用に応じて前記サーバーに接続し前記方言辞書使用
することが可能であることを特徴とする特許請求範囲第
２１項記載の音声発生システム。
【請求項２５】前記ハード媒体はフロッピーディスク、
ＣＤ−ＲＯＭ、ＭＯ、ＰＤ、ＤＶＤ、メモリーカードか
ら選ばれた少なくとも１つの媒体であることを特徴とす
る特許請求範囲第１項記載、特許請求範囲第１０項記
載、特許請求範囲第１３項記載、特許請求範囲第１６項
記載、特許請求範囲第１９項記載および特許請求範囲第
２３項記載の音声発生システム。
【請求項２６】前記回線は一般公衆回線及び専用回線か
ら選ばれた少なくとも１つの回線であることを特徴とす
る特許請求範囲第１項記載、特許請求範囲第２項記載、
特許請求範囲第１０項記載、特許請求範囲第１１項記
載、特許請求範囲第１３項記載、特許請求範囲第１４項
記載、特許請求範囲第１６項記載、特許請求範囲第１７
項記載、特許請求範囲第１９項記載、特許請求範囲第２
０項記載、特許請求範囲第２３項記載および特許請求範
囲第２４項記載の音声発生システム。
【請求項２７】前記回線は有線回線および無線回線から
選ばれた少なくとも１つの回線であることを特徴とする
特許請求範囲第１項記載、特許請求範囲第２項記載、特
許請求範囲第１０項記載、特許請求範囲第１１項記載、
特許請求範囲第１３項記載、特許請求範囲第１４項記
載、特許請求範囲第１６項記載、特許請求範囲第１７項
記載、特許請求範囲第１９項記載、特許請求範囲第２０
項記載、特許請求範囲第２３項記載および特許請求範囲
第２４項記載の音声発生システム。
【請求項２８】前記有線回線は電気信号および光信号か
ら選ばれた少なくとも１つの有線回線であることを特徴
とする特許請求範囲第２７項記載の音声発生システム。
【請求項２９】前記無線回線は電磁波信号及び光信号か
ら選ばれた少なくとも１つの無線回線であることを特徴
とする特許請求範囲第２７項記載の音声発生システム。
【請求項３０】前記システムにおいてユーザーがテキス
トの内容に応じて前記テキスト部分、部分で任意の音声
を選べることを特徴とする特許請求範囲第１項及び第２
項記載の音声発生システム。
【請求項３１】前記システムに使用される装置はパソコ
ン、音発生機能付きワープロ、専用装置から選ばれる少
なくとも１つの装置であることを特徴とする特許請求範
囲第１項記載の音声発生システム。
【請求項３２】前記システムに使用される装置はパソコ
ン、音発生機能付きワープロ、専用装置、ＮＣ（ネット
ワークコンピューター）、ゲームマシン、ＳＴＢ（セッ
ト・トップ・ボックス）から選ばれる少なくとも１つの
装置であることを特徴とする特許請求範囲第２項記載の
音声発生システム。
【請求項３３】前記システムにおける少なくとも１人以
上人の声を基にした前記音声辞書、前記環境音響をデジ
タル情報に変換した情報、前記ユーザーの任意な音楽に
対応した音韻系列および韻律作成のための基情報、前記
ユーザーの任意の音楽に対応した楽器の演奏情報に変換
した情報、前記画像情報、前記方言辞書から選ばれた少
なくとも１つのデータを格納した前記ハード媒体は売り
切りであることを特徴とする特許請求範囲第１項記載、
特許請求範囲第１０項記載、特許請求範囲第１３項記
載、特許請求範囲第１６項記載、特許請求範囲第１９項
記載、および特許請求範囲第２３項記載の音声発生シス
テム。
【請求項３４】前記システムにおける前記ハード媒体は
１人以上の人の声を基にした音声辞書、前記環境音響を
デジタル情報に変換した情報、前記ユーザーの任意な音
楽に対応した音韻系列および韻律作成のための基情報、
前記ユーザーの任意の音楽に対応した楽器の演奏情報、
前記画像情報、前記方言辞書から選ばれた少なくとも１
つのデータを格納しガードをかけ、ユーザーに供給しユ
ーザーの入金を確認後前記ガードを外すことを特徴とす
る特許請求範囲第１項記載、特許請求範囲第１０項記
載、特許請求範囲第１３項記載、特許請求範囲第１６項
記載、特許請求範囲第１９項記載、および特許請求範囲
第２３項記載の音声発生システム。
【請求項３５】前記システムにおける前記ハード媒体に
格納およびユーザーの接続可能な回線に結合されたサー
バー上に格納から選ばれた少なくとも１つの格納データ
は複数の人の声を基にした音声辞書、前記環境音響をデ
ジタル情報に変換した情報、前記ユーザーの任意な音楽
に対応した音韻系列および韻律作成のための基情報、前
記ユーザーの任意の音楽に対応した楽器の演奏をデジタ
ル情報に変換した情報、前記画像情報、前記方言辞書か
ら選ばれた少なくとも１つのデータであり、それぞれの
データは独立にガードをかけ、ユーザーの入金を確認後
それぞれ独立に前記ガードを外すことを特徴とする特許
請求範囲第１項記載、特許請求範囲第１０項記載、特許
請求範囲第１３項記載特許請求範囲第１６項記載、特許
請求範囲第１９項記載、および特許請求範囲第２３項記
載の音声発生システム。
【請求項３６】前記システムにおいてユーザーの入金確
認により前記サーバー及びサーバー上の辞書、情報の必
用部分から選ばれた少なくとも１つのデータに接続可能
とすることを特徴とする特許請求範囲第１項記載、特許
請求範囲第２項記載、特許請求範囲第１０項記載、特許
請求範囲第１１項記載、特許請求範囲第１３項記載、特
許請求範囲第１４項記載、特許請求範囲第１６項記載、
特許請求範囲第１７項記載、特許請求範囲第１９項記
載、特許請求範囲第２０項記載、特許請求範囲第２３項
記載および特許請求範囲第２４項記載の音声発生システ
ム。
【請求項３７】前記システムにおいてユーザーの入金に
より前記サーバーに接続し必要音声辞書部分、情報部分
をユーザーの装置にコピー可能なことを特徴とする特許
請求範囲第１項記載、特許請求範囲第２項記載、特許請
求範囲第１０項記載、特許請求範囲第１１項記載、特許
請求範囲第１３項記載、特許請求範囲第１４項記載、特
許請求範囲第１６項記載、特許請求範囲第１７項記載、
特許請求範囲第１９項記載、特許請求範囲第２０項記
載、特許請求範囲第２３項記載および特許請求範囲第２
４項記載の音声発生システム。
【請求項３８】前記システムにおいてユーザーの装置に
コピーされた前記音声辞書、情報が必要に応じて自動消
滅することを特徴とする特許請求範囲第１項記載、特許
請求範囲第１０項記載、特許請求範囲第１３項記載特許
請求範囲第１６項記載、特許請求範囲第１９項記載、お
よび特許請求範囲第２３項記載の音声発生システム。
【請求項３９】前記システムにおいてユーザーが前記サ
ーバーに接続し前記サーバー上の音声辞書、情報の使用
量に応じて料金を決定し、前記料金をクレジットカー
ド、銀行引き落とし、請求書発行による入金から選ばれ
た少なくとも１つの決済法をとることを特徴とする特許
請求範囲第１項記載、特許請求範囲第２項記載、特許請
求範囲第１０項記載、特許請求範囲第１１項記載、特許
請求範囲第１３項記載、特許請求範囲第１４項記載、特
許請求範囲第１６項記載、特許請求範囲第１７項記載、
特許請求範囲第１９項記載、特許請求範囲第２０項記
載、特許請求範囲第２３項記載および特許請求範囲第２
４項記載の音声発生システム。
【請求項４０】前記システムによって作成した音声をオ
ーディオカセット、ＭＤ、ＤＣＣなどの録音媒体に記録
することを特徴とする特許請求範囲第１項記載および特
許請求範囲第２項記載の音声発生システム。
【請求項４１】前記システムにおいてパソコン通信にお
けるチャットのテキストを音声に変換することを特徴と
する特許請求範囲第１項記載の音声発生システム。