JPH11143483A

JPH11143483A - 音声発生システム

Info

Publication number: JPH11143483A
Application number: JP10236622A
Authority: JP
Inventors: Hiroshi Kurita; 洋栗田; Keiichi Kato; 圭一加藤
Original assignee: Individual
Current assignee: Individual
Priority date: 1997-08-15
Filing date: 1998-08-10
Publication date: 1999-05-28

Abstract

(57)【要約】【目的】パソコン、ワープロ、ゲーム機、専用機、Ｎ
Ｃ（ネットワークコンピューター）、ＳＴＢ（セット・
トップ・ボックス）などを利用する際の合成音声の発生
に係わり、特にユーザーが任意でかつ多様な合成音声を
選ぶことが可能な手段を実現するシステム。【構成】人の音声を入力しその音声認識を行い、この
認識した結果を解析し音韻系列作成のための音韻記号列
情報をおよび韻律情報を抽出し、そして特定の人の音声
から作成した音声辞書（音声素片辞書）を準備してお
き、前述の抽出した音韻記号列に基づいて音声素片を接
続補間し音韻系列を作成する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明はパソコン、ワープロ、ゲ
ーム機、専用機、ＮＣ（ネットワークコンピュータ
ー）、ＳＴＢ（セット・トップ・ボックス）などを利用
する際の合成音声の発生に係わり、特にユーザーが任意
でかつ多様な合成音声を選ぶことが可能な手段を実現す
るシステムに関する。

【０００２】

【従来の技術】従来の音声合成に関しては、多種多様の
装置及び方法が提案されておりまた構内放送、ゲーム、
情報サービス等の様々な分野で応用されている。音声は
言語として意味をなす最小単位である音素から構成され
ている。この音素は波形として表現処理される。その波
形の一部あるいは全部が音声の合成に使用される音声素
片となる。この音声素片を合成単位として任意の音声を
作る合成方式では、各音声素片を結合、補間することに
よって合成音声を発生させている。

【０００３】自然な言語を実現するために各音声素片の
接合の工夫も種々の工夫が提案されており人が実際に発
声するように自然な発声が実現されている。また文書の
意味を解析しその結果を基にして、重要な部分を強調す
るためにその部分の語調を強めたりする音声合成方法な
ど各種の方法が提案されている。実際の商品としてはド
キュメントトーカー、ＴＴＳなどの商品などがありテキ
ストファイルを読み上げる音声合成の商品として実際商
品化されておりパソコン上で音声合成を実現してる。そ
してそのほとんどの音声合成はテキストを入力しそのテ
キストを解析しその解析結果をもとに音声合成を行って
いる。

【０００４】現行カラオケなどで男性の声を女性の声
に、或いは女性の声を男性の声に変えるといったボイス
チェンジャーなどの商品もある。こういった商品は主に
周波数変換を行っているため任意の声質の声に変換する
といったことはできていなかった。

【０００５】

【発明が解決しようとする課題】従来の音声合成では音
声合成を行うためにはまずテキストを用意する必要があ
った。いちいちテキストを用意することなく人の喋る言
葉を基に元の人の声質と異なる音声を合成することがの
ぞまれていた。また人の言葉を情報化したものから任意
の声質の音声を得ることも興味ぶかい。そして人が聞い
て違和感のない自然な音声はいつも聞いている人の声を
ベースにしたものの方が自然なはずである。またいつも
同質の声ではメリハリがつかないため、或いは状況など
によって聞きたい声質は異なるため、色々な人の声をベ
ースにした音声を状況によって使い分け種々な音声を発
声させることも上記と同様に興味深い。例えばある人の
声をマイクで拾いその声を他の人の声に変換するといっ
たことが望まれていた。

【０００５】人にはそれぞれ声質、基本周波数、アクセ
ント、イントネーション、ポーズの取り方、言葉の一部
を伸ばしたりする時間的特徴、固有の方言の特徴、感情
により音の高低、音量の変化などの特徴が異なる。こう
いった人により異なる特徴的要素を加えることが可能と
なればより臨場感のある音声発声がユーザーの状況に合
わせ自由に選べるはずである。

【０００６】各地方の方言による音声合成を任意の人の
声をベースにしたもの聞きたいなどということも望まれ
ていた。また任意の合成音声を雰囲気或いは状況に応じ
た任意のバックグラウンド音響の中で聞くということも
望まれていた。同様に任意の声質で歌を歌わせることも
望まれている。前記ユーザーが任意に選択した声質に関
連した画像をディスプレイ上に表示することにより更に
臨場感を増すことが可能となる。

【０００７】

【課題を解決するための手段】前記目的を達成するため
に、本発明においては次に示す方法をとる。人の音声を
入力しその音声を音声認識を行いこの認識した結果を解
析し音韻系列作成のための音韻記号列情報をおよび韻律
情報を抽出する。但しこの韻律情報は必要のない場合は
抽出しなくてもよい。

【０００８】そして特定の人の音声から作成した音声辞
書（音声素片辞書）を準備しておき、前述の抽出した音
韻記号列に基づいて音声素片を接続補間し音韻系列を作
成する。韻律情報を抽出してある場合には音声素片を接
続補間した音韻系列にこの韻律情報を付与することによ
って音声合成をすればよい。

【０００９】人の音声を入力しこの音声を認識しこの認
識した結果を解析し前記解析した結果に基づいて入力さ
れた音声と声質が異なる音声を発生させる場合において
はＡ：人間の声を基に音声辞書（音声素片辞書）を作成す
るステップＢ：前記音声辞書をハード媒体に格納してユーザーに供
給すること及びユーザーの装置が接続可能な回線を通じ
てユーザーに供給することから選ばれた少なくとも１つ
のユーザーへの音声辞書供給ステップＣ：前記ユーザーに供給された前記人間の声を基にした
音声辞書をユーザーのシステムに必要に応じて追加イン
ストールおよび削除するステップＤ：前記入力された音声を認識するステップＥ：前記認識した音声を解析しテキスト情報を抽出する
ステップ。Ｆ：前記ユーザーのシステムにおいてはユーザーが任意
の音声を選択するため前記音声辞書の中から任意の音声
辞書を選択するステップ０Ｇ：前記テキスト情報に基づいて前記音声辞書（音声
素片辞書）の音声素片の必要部分を接合し補間し音韻系
列を作成するステップＨ：前記音韻系列を音声の出力に変換するステップの各ステップを実行することにより達成できる。

【００１０】人の音声を入力しこの音声を認識し認識し
た結果を解析し解析した結果に基づいて入力された音声
と声質が異なる音声を発生させる場合においてはＡ：人間の声を基に音声辞書（音声素片辞書）を作成す
るステップＢ：前記音声辞書をハード媒体に格納してユーザーに供
給すること及びユーザーの装置が接続可能な回線を通じ
てユーザーに供給することから選ばれた少なくとも１つ
のユーザーへの音声辞書供給ステップＣ：前記ユーザーに供給された前記人間の声を基にした
音声辞書をユーザーのシステムに必要に応じて追加イン
ストールおよび削除するステップＤ：前記入力された音声を認識するステップＥ：前記認識した音声を解析し音韻系列作成のための音
韻記号列情報を抽出するステップＦ：前記ユーザーのシステムにおいてはユーザーが任意
の音声を選択するため前記音声辞書の中から任意の音声
辞書を選択するステップＧ：前記音韻系列作成情報に基づいて前記音声辞書（音
声素片辞書）の音声素片の必要部分を接合し補間し音韻
系列を作成するステップＨ：前記音韻系列を音声の出力に変換するステップの各ステップを実行することにより達成できる。

【００１１】ユーザーに音声合成の元となる音韻系列作
成作成のための音韻記号列情報を供給し前記音韻記号列
に基づいて音声を発生させる場合においてはにおいてＡ：人間の声を基に音声辞書（音声素片辞書）を作成す
るステップＢ：前記音声辞書をハード媒体に格納してユーザーに供
給すること及びユーザーの装置が接続可能な回線を通じ
てユーザーに供給することから選ばれた少なくとも１つ
のユーザーへの音声辞書供給ステップＣ：前記ユーザーに供給された前記人間の声を基にした
音声辞書をユーザーのシステムに必要に応じて追加イン
ストールおよび削除するステップＤ：前記ユーザーのシステムにおいてはユーザーが任意
の音声を選択するため前記音声辞書の中から任意の音声
辞書を選択するステップＥ：前記音韻系列作成するための音韻記号列情報に基づ
いて前記音声辞書（音声素片辞書）の音声素片の必要部
分を接合し補間し音韻系列を作成するステップＦ：前記音韻系列を音声の出力に変換するステップの各ステップを実行することにより達成できる。

【００１２】人の音声を入力し前記音声を認識し前記認
識さた結果を解析し前記解析した結果に基づいて入力さ
れた音声と声質が異なる音声を発生させる場合においてＡ：特定の人間の声を基に音声辞書（音声素片辞書）を
作成するステップＢ：前記音声辞書をユーザーの装置が接続可能な回線に
結合されたサーバー上に設置するステップＣ：ユーザーが任意の音声を選択するために前記サーバ
ー上の前記音声辞書の中から任意の音声辞書を選択する
ステップＤ：前記入力された音声を認識するステップＥ：前記認識した音声を解析しテキスト情報を抽出する
ステップＦ：前記テキスト情報に基づいて前記音声辞書（音声素
片辞書）の音声素片の必要部分を接合し補間し音韻系列
を作成するステップＧ：前記音韻系列を音声の出力に変換するステップの各ステップを実行することにより達成できる。

【００１３】人の音声を入力し前記音声を認識し前記認
識さた結果を解析し前記解析した結果に基づいて入力さ
れた音声と声質が異なる音声を発生させる場合において
はＡ：特定の人間の声を基に音声辞書（音声素片辞書）を
作成するステップＢ：前記音声辞書をユーザーの装置が接続可能な回線に
結合されたサーバー上に設置するステップＣ：ユーザーが任意の音声を選択するために前記サーバ
ー上の前記音声辞書の中から任意の音声辞書を選択する
ステップＤ：前記入力された音声を認識するステップＥ：前記認識した音声を解析し音韻系列作成のための音
韻記号列情報を抽出するステップＦ：前記音韻系列作成情報に基づいて前記音声辞書（音
声素片辞書）の音声素片の必要部分を接合し補間し音韻
系列を作成するステップ：前記音韻系列を音声の出力に変換するステップの各ステップを実行することにより達成できる。

【００１４】ユーザーに音声合成の元となる音韻系列作
成のための音韻記号列情報を供給し前記音韻記号列情報
に基づいて音声を発生させるシステムにおいてＡ：特定の人間の声を基に音声辞書（音声素片辞書）を
作成するステップＢ：前記音声辞書をユーザーの装置が接続可能な回線に
結合されたサーバー上に設置するステップＣ：ユーザーが任意の音声を選択するために前記サーバ
ー上の前記音声辞書の中から任意の音声辞書を選択する
ステップＤ：前記音韻記号列情報に基づいて前記音声辞書（音声
素片辞書）の音声素片の必要部分を接合し補完し音韻系
列を作成するステップＥ：前記音韻系列を音声の出力に変換するステップの各ステップを実行することにより達成できる。

【００１５】人の音声を入力し前記音声を認識し前記認
識した結果を解析し前記解析した結果に基づいて入力さ
れた音声と声質が異なる音声を発生させる場合ににおい
てはＡ：人間の声を基に音声辞書を作成するステップＢ：前記音声辞書をハード媒体に格納してユーザーに供
給すること及びユーザーの装置が接続可能な回線を通じ
てユーザーに供給することから選ばれた少なくとも１つ
のユーザーへの音声辞書供給ステップＣ：前記ユーザーに供給された前記人間の声を基にした
音声辞書をユーザーのシステムに必要に応じて追加イン
ストールおよび削除するステップＤ：前記入力された音声を認識するステップＥ：前記認識した音声を解析しテキスト情報と、韻律情
報を抽出するステップ。Ｆ：前記ユーザーのシステムにおいてはユーザーが任意
の音声を選択するため前記音声辞書の中から任意の音声
辞書を選択するステップＧ：前記テキスト情報に基づいて前記音声辞書の音声素
片辞書の音声素片の必要部分を接合し補間し音韻系列を
作成するステップＨ：前記音声素片辞書の音声素片必要部分を接合した音
韻系列に前記韻律情報を付加し音声合成のための音声信
号を作成するステップＩ：前記音声信号を音声の出力に変換するステップの各ステップを実行することにより達成できる。

【００１６】人の音声を入力し前記音声を認識し前記認
識した結果を解析し前記解析した結果に基づいて入力さ
れた音声と声質が異なる音声を発生させる場合において
はＡ：人間の声を基に音声辞書を作成するステップＢ：前記音声辞書をハード媒体に格納してユーザーに供
給すること及びユーザーの装置が接続可能な回線を通じ
てユーザーに供給することから選ばれた少なくとも１つ
のユーザーへの音声辞書供給ステップＣ：前記ユーザーに供給された前記人間の声を基にした
音声辞書をユーザーのシステムに必要に応じて追加イン
ストールおよび削除するステップＤ：前記入力された音声を認識するステップＥ：前記認識した音声を解析し音韻系列作成のための音
韻記号列情報と、韻律情報を抽出するステップＦ：前記ユーザーのシステムにおいてはユーザーが任意
の音声を選択するため前記音声辞書の中から任意の音声
辞書を選択するステップＧ：前記音韻系列作成情報に基づいて前記音声辞書の音
声素片辞書の音声素片必要部分を接合し補間し音韻系列
を作成するステップＨ：前記音声素片辞書の音声素片必要部分を接合した音
韻系列に前記韻律情報を付加し音声合成のための音声信
号を作成するステップＩ：前記音声信号を音声の出力に変換するステップの各ステップを有することを特徴とする音声発生システ
ム。

【００１７】ユーザーに音声合成の元となる音韻系列作
成のための音韻記号列情報及び韻律情報を供給し前記音
韻記号列情報及び韻律情報に基づいて音声を発生させる
場合においてはＡ：人間の声を基に音声辞書を作成するステップＢ：前記音声辞書をハード媒体に格納してユーザーに供
給すること及びユーザーの装置が接続可能な回線を通じ
てユーザーに供給することから選ばれた少なくとも１つ
のユーザーへの音声辞書供給ステップＣ：前記ユーザーに供給された前記人間の声を基にした
音声辞書をユーザーのシステムに必要に応じて追加イン
ストールおよび削除するステップＤ：前記ユーザーのシステムにおいてはユーザーが任意
の音声を選択するため前記音声辞書の中から任意の音声
辞書を選択するステップＥ：前記音韻記号列情報に基づいて前記音声辞書の音声
素片辞書の音声素片の必要部分を接合し補間し音韻系列
を作成するステップＦ：前記音声素片辞書の音声素片の必要部分を接合した
音韻系列に前記韻律情報を付加し音声合成のための音声
信号を作成するステップＧ：前記音声信号データを音声の出力に変換するステッ
プの各ステップを実行することにより達成できる。

【００１８】ユーザーに音声合成の元となる音韻系列作
成のための音韻記号列情報を供給し前記音韻記号列情報
に基づいて音声を発生させる場合においてはＡ：特定の人間の声を基に音声素片および韻律情報から
なる音声辞書を作成するステップＢ：前記音声辞書をハード媒体に格納してユーザーに供
給すること及びユーザーの装置が接続可能な回線を通じ
てユーザーに供給することから選ばれた少なくとも１つ
のユーザーへの音声辞書供給ステップＣ：前記ユーザーに供給された前記人間の声を基にした
音声辞書をユーザーのシステムに必要に応じて追加イン
ストールおよび削除するステップＤ：前記ユーザーのシステムにおいてはユーザーが任意
の音声を選択するため前記音声辞書の中から任意の音声
辞書を選択するステップＥ：前記音韻記号列情報に基づいて前記音声辞書の音声
素片辞書の音声素片の必要部分を接合し補間し音韻系列
を作成するステップＦ：前記音声素片辞書の音声素片の必要部分を接合した
音韻系列に前記音声辞書の前記韻律情報を付加し音声合
成のための音声信号を作成するステップＧ：前記音声信号データを音声の出力に変換するステッ
プの各ステップを有することを特徴とする音声発生システ
ム。

【００１９】ユーザーに音声合成の元となる音韻系列作
成のための音韻記号列情報及び韻律情報を供給し前記音
韻記号情報及び韻律情報に基づいて音声を発生させる場
合においてはＡ：特定の人間の声を基に音声素片および韻律情報から
なる音声辞書を作成するステップＢ：前記音声辞書をハード媒体に格納してユーザーに供
給すること及びユーザーの装置が接続可能な回線を通じ
てユーザーに供給することから選ばれた少なくとも１つ
のユーザーへの音声辞書供給ステップＣ：前記ユーザーに供給された前記人間の声を基にした
音声辞書をユーザーのシステムに必要に応じて追加イン
ストールおよび削除するステップＤ：前記ユーザーのシステムにおいてはユーザーが任意
の音声を選択するため前記音声辞書の中から任意の音声
辞書を選択するステップＥ：前記音韻記号列成情報に基づいて前記音声辞書の音
声素片辞書の音声素片の必要部分を接合し補間し音韻系
列を作成するステップＦ：前記音声辞書の韻律情報部をもちいて前記音韻系列
の任意の部分の韻律を任意の韻律にするために前記音韻
系列のそれぞれの部分に対応する韻律を作成するステッ
プＧ：前記音声素片辞書の音声素片の必要部分を接合した
音韻系列に前記韻律情報を付加し音声合成のための音声
信号を作成するステップＨ：前記音声信号データを音声の出力に変換するステッ
プの各ステップを実行することにより達成できる。

【００２０】人の音声を入力し前記音声を認識し前記認
識さた結果を解析し前記解析した結果に基づいて入力さ
れた音声と声質が異なる音声を発生させる場合において
はＡ：特定の人間の声を基に音声辞書を作成するステップＢ：前記音声辞書をユーザーの装置が接続可能な回線に
結合されたサーバー上に設置するステップＣ：ユーザーが任意の音声を選択するために前記サーバ
ー上の前記音声辞書の中から任意の音声辞書を選択する
ステップＤ：前記入力された音声を認識するステップＥ：前記認識した音声を解析しテキスト情報と、韻律情
報を抽出するステップＦ：前記テキスト情報に基づいて前記音声辞書の音声素
片辞書の音声素片の必要部分を接合し補間し音韻系列を
作成するステップＧ：前記音声素片辞書の音声素片の必要部分を接合した
音韻系列に前記韻律情報を付加し音声合成のための音声
信号を作成するステップＨ：前記音声信号データを音声の出力に変換するステッ
プの各ステップを実行することにより達成できる。

【００２１】人の音声を入力し前記音声を認識し前記認
識さた結果を解析し前記解析した結果に基づいて入力さ
れた音声と声質が異なる音声を発生させる場合において
はＡ：特定の人間の声を基に音声辞書を作成するステップＢ：前記音声辞書をユーザーの装置が接続可能な回線に
結合されたサーバー上に設置するステップＣ：ユーザーが任意の音声を選択するために前記サーバ
ー上の前記音声辞書の中から任意の音声辞書を選択する
ステップＤ：前記入力された音声を認識するステップＥ：前記認識した音声を解析し音韻系列作成のための音
韻記号列情報と、韻律情報を抽出するステップＦ：前記音韻記号列情報に基づいて前記音声辞書の音声
素片辞書の音声素片の必要部分を接合し補間し音韻系列
を作成するステップＧ：前記音声素片辞書の音声素片の必要部分を接合した
音韻系列に前記韻律情報を付加し音声合成のための音声
信号を作成するステップＨ：前記音声信号データを音声の出力に変換するステッ
プの各ステップを有することを特徴とする音声発生システ
ム。

【００２２】ユーザーに音声合成の元となる音韻系列作
成のための音韻記号列情報及び韻律情報を供給し前記音
韻記号列情報及び韻律情報に基づいて音声を発生させる
場合においてはＡ：特定の人間の声を基に音声辞書を作成するステップＢ：前記音声辞書をユーザーの装置が接続可能な回線に
結合されたサーバー上に設置するステップＣ：ユーザーが任意の音声を選択するために前記サーバ
ー上の前記音声辞書の中から任意の音声辞書を選択する
ステップＥ：前記音韻記号列系列情報に基づいて前記音声辞書の
音声素片辞書の音声素片の必要部分を接合し補間し音韻
系列を作成するステップＦ：前記音声素片辞書の音声素片の必要部分を接合した
音韻系列に前記韻律情報を付加し音声合成のための音声
信号を作成するステップＧ：前記音声信号データを音声の出力に変換するステッ
プの各ステップを実行することにより達成できる。

【００２３】ユーザーに音声合成の元となる音韻系列作
成のための音韻記号列情報を供給し前記音韻記号列情報
に基づいて音声を発生させる場合においてＡ：特定の人間の声を基に音声素片及び韻律情報からな
る音声辞書を作成するステップＢ：前記音声辞書をユーザーの装置が接続可能な回線に
結合されたサーバー上に設置するステップ。Ｃ：ユーザーが任意の音声を選択するために前記サーバ
ー上の前記音声辞書の中から任意の音声辞書を選択する
ステップＥ：前記音韻記号列情報に基づいて前記音声辞書の音声
素片辞書の音声素片の必要部分を接合し補間し音韻系列
を作成するステップＦ：前記音声素片辞書の音声素片の必要部分を接合した
音韻系列に前記音声辞書の前記韻律情報を付加し音声合
成のための音声信号を作成するステップ。Ｇ：前記音声信号データを音声の出力に変換するステッ
プの各ステップを実行することにより達成できる。

【００２４】ユーザーに音声合成の元となる音韻系列作
成のための音韻記号列情報及び韻律情報を供給し前記音
韻記号列情報及び韻律情報に基づいて音声を発生させる
場合においてはＡ：特定の人間の声を基に音声辞書を作成するステップＢ：前記音声辞書をユーザーの装置が接続可能な回線に
結合されたサーバー上に設置するステップＣ：ユーザーが任意の音声を選択するために前記サーバ
ー上の前記音声辞書の中から任意の音声辞書を選択する
ステップＤ：前記音韻記号列情報に基づいて前記音声辞書の音声
素片辞書の音声素片の必要部分を接合し補間し音韻系列
を作成するステップＥ：前記音声辞書の韻律情報部をもちいて前記音韻系列
の任意の部分の韻律を任意の韻律にするために前記音韻
系列のそれぞれの部分に対応する韻律を作成するステッ
プ。Ｆ：前記音声素片辞書の音声素片の必要部分を接合した
音韻系列に前記韻律情報を付加し音声合成のための音声
信号を作成するステップＧ：前記音声信号データを音声の出力に変換するステッ
プの各ステップを実行することにより達成できる。

【００２５】そして音声合成する場合には人間の声を基
にした音声辞書は必要に応じて音声素片部分、そして基
にした人間の声の韻律を使用する場合には韻律部分から
構成させればよい。音声素片部分でその人声の質を実現
できまた韻律分でその人のしゃべり方の語調等を実現で
きる。

【００２６】基にした人間の声の主の韻律情報を使用す
る場合には音声辞書の前記韻律部分は必要に応じて基本
周波数、アクセント、イントネーション、時間的特徴、
音量の特徴、方言的特徴、ポーズの取り方の特徴、感情
による発声の特徴から選ばれる少なくとも１つ以上の独
立部分を含んでいる構成とすればよい。

【００２７】或いは人間の声を基にした音声辞書の各部
分は音声素片、基本周波数、アクセント、イントネーシ
ョン、時間的特徴、音量の特徴、方言的特徴、ポーズの
取り方の特徴、感情による発声の特徴から選ばれる少な
くとも１つ以上の独立部分から構成してもよい。

【００２８】ユーザーは必用に応じてそれぞれの前述の
複数の人間の声を基にした音声辞書をユーザーの任意の
組み合わせで選べること、その人間の声を基にした音声
辞書から選択した音声辞書の韻律情報各要素の中から必
用に応じてその音声において声の高さ、発声速度、音量
を可変可能としこの可変可能部分の３つのうち少なくと
も１つをユーザーの任意の選択で可変させればよりユー
ザーの選択肢が広がり感情等の表現をより強調すること
ができる。

【００２９】ユーザーのシステムにおいて各種情報を自
分のシステムのハードディスク等にインストール可能な
場合にはこのシステムで合成音声のバックグラウンド音
響となる環境音響をデジタル情報に変換しこの環境音響
デジタル情報をハード媒体に格納してユーザーに供給さ
れる方法及びユーザーの装置が接続可能な回線を通じて
ユーザーに供給することから選ばれた少なくとも１つの
供給法によりユーザーは必用に応じてバックグラウンド
音響としての環境音響を自分のシステムに導入できるよ
うにして前述の合成音声にこの環境音響を付加してもよ
い。

【００３０】或いはユーザーのシステムが接続可能なサ
ーバー上において各種情報がセット可能な場合には合成
音声のバックグラウンド音響となる環境音響をデジタル
情報に変換しユーザーの装置が接続可能な回線に結合さ
れたサーバー上にこの環境音響をデジタル情報に変換し
た環境音響情報テーブルとして置いておきこの環境音響
のデジタル情報をユーザーは必用に応じて前記サーバー
に接続し前記バックグラウンド音響としての環境音響を
前記合成音声に付加してもよい。

【００３１】前述の人の声を基にした音声辞書の基の人
に関連した画像或いは前述の入力に関連した画像などの
画像を音声発生時にディスプレイ上に表示しても効果的
である。

【００３２】その方法はユーザーのシステムにおいて各
種情報を自分のシステムのハードディスク等にインスト
ール可能な場合には前述の人の声を基にした音声辞書の
基の人に関連した画像或いは前述の入力に関連した画像
などの画像をデジタル情報に変換しハード媒体に格納し
てユーザーに供給される方法及びユーザーの装置が接続
可能な回線を通じてユーザーに供給することから選ばれ
た少なくとも１つの供給法によりユーザーは必用に応じ
て前述の画像情報を付加してもよい。

【００３３】ユーザーのシステムが接続可能なサーバー
上において各種情報がセット可能な場合には前述の人の
声を基にした音声辞書の基の人に関連した画像或いは前
述の入力に関連した画像などの画像をデジタル情報に変
換し画像情報テーブルとしユーザーの装置が接続可能な
回線に結合されたサーバー上に置いておきユーザーは必
用に応じて前記サーバーに接続し前述の画像情報を付加
してもよい。

【００３４】またこのシステムにおいて各地方毎に標準
化された方言辞書部分を設けこの方言辞書はひつよに応
じて解析部、音声合成部に関する音声辞書から選ばれる
少なくとも１つに関連づけるようにしてもよい。

【００３５】ユーザーのシステムにおいて各種情報を自
分のシステムのハードディスク等にインストール可能な
場合にはこの方言辞書をハード媒体に格納してユーザー
に供給される方法及びユーザーの装置が接続可能な回線
を通じてユーザーに供給することから選ばれた少なくと
も１つの供給法によりユーザーは必用に応じてこの方言
辞書を使用できるシステムとすればよい。

【００３６】或いはユーザーのシステムが接続可能なサ
ーバー上において各種情報がセット可能な場合にはこの
方言辞書をユーザーの装置が接続可能な回線に結合され
たサーバー上に置いておきユーザーは必用に応じて前述
のサーバーに接続しこの方言辞書使用できるようにして
もよい。

【００３７】前述のハード媒体はフロッピーディスク、
ＣＤ−ＲＯＭ、ＭＯ、ＰＤ、ＤＶＤ、メモリーカードな
どから最も適当なものを選べばよい。

【００３８】前述の回線は一般公衆回線或いは専用回線
であり、この回線は有線回線或いは無線回線でこの有線
回線は電気信号または光信号であればばよい。そして前
述の無線回線は電磁波信号及び光信号から選ばれた少な
くとも１つの無線回線であるればよい。

【００３９】このシステムにおいてユーザーが内容に応
じてそれぞれの部分、部分で任意の音声（音声素片辞
書、韻律情報等から選択）を選べるようにすれば、すな
わち一連の話の流れのそれぞれの部分（合成される音声
の部分、部分）で声質、韻律の異なった多用な合成音声
を得ることが可能となる。

【００４０】そしてユーザーのシステムにおいて各音声
辞書、各種情報を自分のシステムのハードディスク等に
インストール可能な場合にはこのシステムに使用される
装置はパソコン、音発生機能付きワープロ、専用装置な
どから目的に応じて一番適当なものを選べばよい。

【００４１】サーバー上に各音声辞書、各情報を設置し
ている場合にはシステムに使用される装置はパソコン、
音発生機能付きワープロ、専用装置、ＮＣ（ネットワー
クコンピューター）、ゲームマシン、ＳＴＢ（セット・
トップ・ボックス）から目的に応じて一番適当なものを
選べばよい。

【００４２】前記システムにおける少なくとも１人以上
人の声を基にした前記音声辞書、前記環境音響をデジタ
ル情報に変換した情報、前記画像情報、前記方言辞書か
ら選ばれた少なくとも１つのデータを格納したこれらの
ＣＤ−ＲＯＭなどのハード媒体は売り切りとすればよ
い。

【００４３】このシステムにおける前述のハード媒体は
１人以上の人の声を基にした音声辞書、前記環境音響を
デジタル情報に変換した情報、前記画像情報、前記方言
辞書から選ばれた少なくとも１つのデータを格納しガー
ドをかけ、ユーザーに供給しユーザーの入金を確認後前
記ガードを外すシステムとしてもよい。

【００４４】或いはシステムにおいて前述のハード媒体
に格納およびユーザーの接続可能な回線に結合されたサ
ーバー上に格納から選ばれた少なくとも１つの格納デー
タは複数の人の声を基にした音声辞書、前記環境音響を
デジタル情報に変換した情報、前記画像情報、前記方言
辞書から選ばれた少なくとも１つのデータであり、それ
ぞれのデータは独立にガードをかけ、ユーザーの入金を
確認後それぞれ独立に前記ガードをはずすようにしても
よい。

【００４５】前述のシステムにおいてユーザーのシステ
ムが接続可能なサーバー上において各音声辞書、各種情
報がセット可能な場合にはユーザーの入金確認により前
記サーバー及びサーバー上の辞書、情報の必用部分から
選ばれた少なくとも１つのデータにユーザーのＩＤなど
を利用して接続可能とするシステムとしてもよい。

【００４７】或いはユーザーのシステムにおいて各音声
辞書、各種情報を自分のシステムのハードディスク等に
インストール可能な場合にはこのシステムにおいてユー
ザーの入金により前記サーバーに接続し必要音声辞書部
分、情報部分をユーザーの装置にコピー可能としてもよ
い。そして前述システムにおいてユーザーの装置にコピ
ーされた前記音声辞書、情報が必要に応じて自動消滅す
るようにしてもよい。

【００４８】前述のシステムにおいてユーザーのシステ
ムが接続可能なサーバー上において各音声辞書、各種情
報がセット可能な場合にはユーザーが前記サーバーに接
続し前記サーバー上の音声辞書、情報の使用量に応じて
料金を決定し、前記料金をクレジットカード、銀行引き
落とし、請求書発行による入金から選ばれた少なくとも
１つの決済法をとってもよい。

【００４９】

【作用】前述のシステムによれば人の声をベースにし
た各特徴を独立に有する音声辞書および各情報を使っ
て、各ユーザーが、雰囲気、状況などに合わせて、人の
喋る言葉を基に元の人の声質と異なる音声を合成するこ
とが可能となる。各地方の方言、または人により異なる
方言的特徴なども加味した任意の音声で実現できる。

【００５０】また各音声辞書と同様にバックグラウンド
音響もユーザーに容易に供給できるのでユーザーの任意
のバックグラウンド音響で任意の音声を聞くことが可能
となる。任意の声質の基の人に関連した画像をディスプ
レイ上に表示することができるのでより臨場感が出る。
この合成音声を録音媒体に記録することにより携帯用の
オーディオカセットテープにより繰り返して再生させる
ことが可能となり学習などにも役に立つ。

【００５１】

【実施例１】図１は実施例１の人の声を認識してその声
を基に音声を出力する様子の概略を示したものである。
ここで人の声を入力すると音声認識部１０１で音声を認
識し音声情報を検出する。検出された音声情報は認識音
声分析部１０２で分析され、発声情報が抽出される。こ
の発声情報を基に音声合成部１０３で音声信号が合成さ
れる。この音声信号を音声出力変換し出力する。

【００５２】図２は音声認識部の一構成例で、従来技術
で容易に実現できるものである。入力装置からの音声デ
ータは、周波数分析部２０１で所定の時間（例えば、１
５から３０ｍｓ程度）毎に順次周波数分析することによ
り周波数スペクトルデータを生成してスペクトル特徴抽
出部２０２に送出する。音素検出部２０３では、特徴抽
出部で抽出された特徴をもとにパターンマッチングに基
づく音素認識アルゴリズムやスペクログラムリーディン
グ情報に基づく音素認識アルゴリズムによって音素候補
の検出を行う。

【００５３】韻律情報抽出部２０４では、自己相関法な
どの手法による基本周波数を抽出、さらには母音重心点
をサーチが行われる。この母音重心点を基に基本周波数
パタンが求められる。母音重心点は（１）有声区間であ
る、（２）振幅の極大点近くである、（３）自己相関係
数の安定点で極小点である、などの条件を用いて抽出す
ることができる。このようにして抽出された韻律情報は
音声合成部に送られる。

【００５４】図３は認識音声分析部の一構成例である。
単語候補検出部３０１では音声認識部から送られてきた
音韻記号列候補（認識された音素候補）を基に、あらか
じめ用意された単語辞書３０２を用いて単語照合処理を
行う。それぞれ尤度計算されて検出された単語候補は、
発話確定部３０３で発話意図に基づいて作成される重要
語辞書３０４に照らし合わされて再度計算される。その
結果として発話意図に沿った発生音声文が生成され、情
報抽出部３０５で音韻記号列が抽出される。

【００５５】図４は音声合成部の一構成例である。音韻
系列作成部４０１では、抽出された音韻記号列を基に音
声素片辞書４０５を使用して、それぞれの音声素片を接
続補完し音韻系列を作成する。韻律情報部から送られて
きた韻律情報は、韻律付加部４０２において音韻系列に
必要に応じて韻律情報を付加し音声信号作成部４０３に
おいて音声信号を作成する。そしてこの音声信号を音声
出力変換部分４０４において変換し４０６のスピーカー
において音声を出力する。

【００５６】次に音声素片辞書の作成について説明す
る。図５に音声素片辞書の作成のフロチャートを示し
た。音声提供者に予め決められた文章を朗読してもら
う。この際音声提供者にはヘッドホンを装着してもら
い、このヘッドフォンを通じて文書の朗読のタイミング
を指示する。音声提供者はこの指示に基づいて前述の予
め決められた文章を朗読していく。この朗読した音声を
図５の５０１に示すようにアナログ録音する。

【００５７】次に５０２においてアナログの音声をデジ
タル変換していく。このデジタル変換された音声データ
を５０３に示すように時間分割処理を行う。次に５０４
に示すように予め決められた文書の音素と音声提供者の
音素の対応付けを行う。この対応付けを行った結果を元
に各音素にラベリングを行う。この結果を音素ラベリン
グテーブル５０８に格納する。音素ラベリングテーブル
および予め作成してある音声素片切り出しテーブル５０
９に従い５０６で音声素片を切り出す。切り出された音
声素片は５０７で示された格納処理部において辞書化処
理を行い音声素片辞書５１０に格納する。

【００５８】この音声素片辞書を図４の音声素片辞書４
０５にマスクＲＯＭの形で格納しておく。そうすること
によって上述したように人の音声認識しその音声を基に
入力した音声とは声質の異なる声を出力することが可能
となる。本実施例では韻律情報を付加したがしなくても
よい。その場合音韻記号列をそのまま音声に変換すれば
よい。

【００５９】

【実施例２】次に他の実施例で説明する。図６に示すよ
うに、実施例１と同じ方法で人の声から音声素片辞書を
作成し、この音声素片辞書を６０１のＣＤ−ＲＯＭに格
納するそしてこのＣＤ−ＲＯＭをユーザーに供給しユー
ザーのシステム６０２にのハードディスク６０３この音
声素片辞書をインストールすればよい。ここでユーザー
は任意の人の音声素片辞書（Ａ氏、Ｂ氏そしてＣ氏）を
自分のシステムにインストールしておく。

【００６０】音声素片辞書を一般電話回線を通じてユー
ザー供給する場合には図７に示すように音声素片辞書を
７０１のサーバーシステムのハードディスク７０２にセ
ットしユーザーは一般電話回線を通じて音声素片辞書を
取り込み自分のシステム７０３のハードディスク７０４
にインストールすればよい。

【００６１】図８に本実施例の人の音声認識しその音声
を基に音声出力をする様子の概略フロチャートを示す。
まず人の声を入力し音声認識部８０１において音声を認
識し、次に８０２の認識音声分析部で認識した音声から
必要な情報を抽出する。ここでは発声音声文を生成し、
さらにこの生成した発声音声文から音韻記号列情報と韻
律情報を抽出する。そして、発話意図から感情成分を抽
出する。次に音声辞書選択部８０３おいてユーザーの任
意の人から作成した音声辞書を音声辞書（音声素片辞
書）８０４から選択する。ここではＡ氏の声から作成し
た音声素片辞書Ａを選んだ。

【００６２】次に８０９の選択したＡ氏の声から作成し
た音声素片辞書を使用して音韻記号列から音韻系列を８
０５の音韻系列作成部で作成する。次に８０６の韻律付
加部でこの音韻記号列に韻律を付加する。さらに、この
韻律を付加した音韻系列に感情成分による補正（例え
ば、発話意図に怒りがある場合、発話速度を速くするな
ど）を加えた上で、８０７の音声信号作成部において音
声信号に変換し８０８の音声出力変換部で音声出力にし
８０９のスピーカーにて音声を出力する。

【００６３】この場合の認識音声分析部の働きを図3を
使って詳しく説明する。実施例１の場合と同様に認識さ
れた音素候補を基に単語照合処理を行う。さらに、発話
意図確定部３０３において重要単語辞書３０４と照らし
合わせて再度計算することにより、発話意図に沿った発
声音声文を生成することができる。実施例１では、この
発声音声文の読み上げ情報である音韻記号列のみを利用
するが、ここでは、この発生音声文をテキスト情報とし
て情報抽出部３０５に送出してテキスト解析し、フレー
ズ成分などの韻律情報、さらには感情成分を抽出する。

【００６４】人の音声を基にした音声辞書に音声素片だ
けではなく韻律部分を作成しておいてもよい。その内容
は図９に示す。ここでそれぞれ９０１は音声素片辞書で
あり９０２は韻律辞書である。さらにこの韻律辞書部分
は９０３の基本周波数部分、９０４の発音される個々の
語が持つ強さまたは高さの配置であるアクセント部分、
９０５の話をするとき話し手の上がり下がりの調子であ
るイントネーション部分、９０６の時間的特徴部分、９
０７の声の大きさを表す音量の特徴、９０８の方言的特
徴、９０９のポーズの取り方の特徴、９１０の感情によ
る発声の特徴の独立部分を備えている。

【００６５】韻律辞書の作成方法について説明する。韻
律辞書も音声素片辞書と同様に予め決められた文章を音
声提供者に読んでもらう。但し音声素片辞書作成の時と
異なるのは読む際のタイミングの指示を音声提供者に行
わない。また興奮した場合、悲しい場合、怒った場合等
の感情の起伏を予めきめられた文書の必用部分に添付し
ておく。そして韻律辞書の場合には標準の韻律を定めて
おき各音声提供者の辞書は標準との差の形で作成する。
この時予め標準として定めたの男性の声と女性の声の韻
律辞書（標準の韻律辞書）を作成しておく。但し標準の
韻律辞書の感情部分は抑揚のない状態での基本周波数、
音量、発話速度を格納しておく。

【００６６】図１０の（ａ）に標準の音声波のアウトラ
イン、（ｂ）に音声提供者Ａの音声波のアウトラインを
示す。基本周波数の採取については音声提供者に抑揚の
ない平板な状態で読んで貰う。基本周波数については標
準の基本周波数に対して（ｂ）の音声提供者Ａの音声波
をそれぞれ予め設定された語についての基本周波数を比
較し、その結果を音声辞書の韻律部の基本周波数の部分
に格納する。

【００６７】次にアクセントについては音声提供者にい
つも話している状態で読んでもらう。予めそれぞれ設定
された各単語の各部分のピーク部分の位置、高さおよび
基本周波数を標準の音声波および音声提供者Ａの音声波
を比較し標準し、この結果の差を音声辞書の韻律部のア
クセントの部分に格納する。ここでピークの音声の位置
は図１０においては標準のものでは１００２であり、音
声提供者Ａにおいては１０１２である。また高さ（音声
の強さ大きさ）は標準のものでは１００１であり、音声
提供者Ａにおいては１０１１である。

【００６７】イントネーションについては予め決められ
た文を音声提供者にいつも話している状態で読んでもら
う。そして基本周波数の変化を標準のものと比較しその
結果の差を音声辞書の韻律部のイントネーションの部分
に格納する。図１１にその様子を示した。ここで図１０
の（ａ）の標準の基本周波数の変化を図１１（ａ）に示
すようにdＦとして縦軸にとった。同様に図１０の
（ｂ）の音声提供者Ａの基本周波数の変化を図１１
（ｂ）に示すように dＦとして縦軸にとった。

【００６８】時間的特徴については予め決められた文章
中の各音および代表的単語の継続時間時間、てにおはお
よび接続詞の最後の音の継続時間そして文章全体を読む
早さを比較する。前記と同様に標準のものと比較しその
結果の差を音声辞書の韻律部の時間的特徴の部分に格納
する。韻律部分（辞書）も音声素片と同様の方法でユー
ザーのシステムにインストールすればよい。

【００６９】前述のように作成した音声辞書の韻律部分
を使い前述の音韻系列に対応した韻律情報を作成しこれ
を音韻系列に付加してもよい。本実施例で説明すればＡ
氏の声から作成した音声素片辞書を使用して音韻記号列
から音韻系列を作成するとともにＡ氏の声から作成した
韻律辞書を使用し上述の音韻系列に対応する韻律情報を
作成しこれを８０６の韻律付加部において付加すればよ
い。

【００７０】方言を盛り込む場合について述べる。基本
的な流れは図８と同様であるが、８０２の認識音声分析
部から８０６の韻律付加部までについて方言を盛り込む
場合について更に詳しく説明する。この部分は図１３に
示すしたが、ここで１３０８は地方毎に標準化して作成
した方言辞書であり単語の置き換えテーブル及び各言葉
の韻律の辞書である。図１２に方言辞書の構造をしめし
た。

【００７１】１３０１の認識音声分析部においてテキス
トを解析し１３０２の方言辞書選択部で方言辞書を選択
する。そして必要に応じて１３０３の単語置き換え部で
単語を置き換え音韻記号列を生成し１３０４の音声辞書
選択部で音声辞書の選択を行う。そして１３０５の音韻
系列作成部分で１３１０の音声辞書の音声素片部分を使
いＡ氏の音韻系列を作成する。次に１３０８方言辞書及
び音声辞書の韻律部分１３０９を使い音韻系列に対応し
たＡ氏の韻律情報を１３０７の韻律作成部において作成
する。この韻律情報を韻律付加部１３０６で付加すれば
よい。

【００７２】本実施例ではユーザーのシステムがパーソ
ナルコンピューターのようにそのシステムの中でハード
ディスクの容量が十分で複数の音声辞書等が格納可能な
場合であるが、例えばネットワークコンピュータなどの
ように音声辞書が格納できない場合には一般電話回線を
使いサーバー上の音声辞書を必要に応じてその都度使用
し音声を合成していけばよい。

【００７３】

【実施例３】図１４に本実施例の人の音声認識しその音
声を基に音声出力をする様子の概略フロチャートを示
す。ここで実施例２と同様の方法で音声辞書を作成し、
ＣＤ−ＲＯＭなどの媒体に格納しユーザーに配布するか
或いは公衆回線を通じてユーザーに配布しユーザーは任
意の人の音声素片辞書（Ａ氏、Ｂ氏そしてＣ氏）を自分
のシステムにインストールする。

【００７４】まず人の声を入力し１４０１の音声認識部
において音声を認識し、次に１４０２の認識音声分析部
で認識した音声から情報を抽出する。ここでは音韻系列
作成のための音韻記号列情報および韻律情報を抽出す
る。次に１４０３の音声辞書（音声素片辞書）選択部に
おいてユーザーの任意の人から作成した音声辞書を１４
０８の音声辞書（音声素片辞書）から選択する。ここで
はＢ氏の声から作成した音声素片辞書Ｂを選んだ。

【００７５】次に１４０８の選択したＢ氏の声から作成
した音声素片辞書を使用して音韻記号列情報より１４０
４の音韻系列作成部において各音声素片を接続補完し音
韻系列を作成する。次に１４０５の韻律付加部でこの音
韻系列に韻律を付加する。そしてこの韻律を付加した音
韻系列を１４０６の音声信号作成部において音声信号に
変換し、１４０７の音声出力変換部で音声出力に変換し
１４０９のスピーカーにて音声を出力する。

【００７６】実施例２と同様前述のように作成した音声
辞書の韻律部分を使い前述の音韻系列に対応した韻律情
報を作成しこれを音韻系列に付加してもよい。本実施例
で説明すればＢ氏の声から作成した音声素片辞書を使用
して音韻記号列から音韻系列を作成するとともにＢ氏の
声から作成した韻律辞書を使用し上述の音韻系列に対応
する韻律情報を作成しこれを１４０５の韻律付加部にお
いて付加すればよい。実施例２と同様に認識音声分析部
および音声認識部において抽出した韻律情報を韻律付加
部において韻律情報付加しているが、音韻系列を作成し
そのまま音声信号に変換しても、また標準の韻律情報を
付加するか、或いは音声辞書の韻律情報すなわちＢ氏の
話す様子から作成した韻律情報を付加してもよい

【００７７】方言を盛り込む場合について述べる。基本
的な流れは図１４と同様であるが、１４０２の認識音声
分析部から１４０５の韻律付加の部分までについて方言
を盛り込む場合について更に詳しく説明する。これはは
図１５に示したが、ここで１５０８は地方毎に標準化し
て作成した方言辞書であり各単語の音韻記号列の置き換
えテーブル及び各単語のの韻律の辞書であり図１２に示
したとおりである。

【００７８】１５０１の認識音声分析部において情報を
抽出し１５０２の方言辞書選択部で方言辞書を選択する
そして必要に応じて１５０３の単語の音韻記号列置き換
え部で音韻記号列を置き換え新しい音韻記号列を生成し
１５０４のの音声辞書選択部で音声辞書の選択を行う。
そして１５０５の音韻系列作成部で１５１０の音声辞書
の音声素片部分を使いＢ氏の音韻系列を作成する。次に
１５０８及び音声辞書の韻律部分１５０９を使い音韻記
号列に対応したＢ氏の韻律情報を１５０７の韻律作成部
において作成する。この韻律情報を韻律付加部１５０６
で付加すればよい。

【００７９】また図１６に示すように音声のある部分の
みを他の韻律に変えてもよい。この図は時間とともに語
調（音の高さ話すスピードそしてポーズ等を意味する）
及び声質の変化させる様子を示している。ここでは１６
０１部では入力音声の韻律（語調）、１６０２部ではＢ
氏の韻律（語調）Ｂ氏の声質、１６０３ではＣ氏の韻律
（語調）Ｂ氏の声質としている。これを実現するために
は基本的流れは図１４と同様であるが認識音声分析部１
４０２から韻律付加部１４０５の部分についてさらに詳
しく述べる。これを図１７に示すが、１７０１は認識音
声分析部、１７０２は音声辞書及びその音声素片部分、
韻律部分の選択部である。そして１７０５は韻律情報作
成部である。

【００８０】まず図１６の１６０１は図１７の音韻系列
作成部１７０３において１７０７の音声辞書の音声素片
部分１７０７のＡ氏の音声素片を使用し韻律は認識音声
分析部１７０１で抽出した韻律情報をそのまま使用し韻
律付加部１７０５において付加する。次に図１６の１６
０２部は図１７の音韻系列作成部１７０３において１７
０７の音声辞書の音声素片部分１７０７のＢ氏の音声素
片を使用し、韻律は韻律作成部１７０６において１７０
８の音声辞書の韻律部分のＢ氏の部分を使用して音韻系
列に対応させ作成した韻律情報を韻律付加部１７０５に
おいて付加する。次に図１６の１６０３部は、図１７の
音韻系列作成部１７０３において音声辞書１７０７の音
声素片部分からＢ氏の音声素片を使用し、韻律は韻律作
成部１７０６において１７０８の音声辞書の韻律部分の
Ｂ氏の部分をしようして音韻系列に対応させ作成した韻
律情報を韻律付加部１７０５において付加すればよい。

【００８１】実施例２と同様本実施例ではユーザーのシ
ステムがパーソナルコンピューターのようにそのシステ
ムの中でハードディスクの容量が十分で複数の音声辞書
等が格納可能な場合であるが、例えばネットワークコン
ピュータなどのように音声辞書が格納できない場合には
一般電話回線を使いサーバー上の音声辞書を必要に応じ
てその都度使用し音声を合成していけばよい。

【００８２】

【実施例４】図１８に本実施例の音韻系列を作成するた
めの音韻記号列を韻律付きでユーザーに配布し音声出力
をする様子の概略フロチャートを示す。ここで前の実施
例と同様に音声素片辞書は前述と同じ方法で作成し、Ｃ
Ｄ−ＲＯＭなどの媒体に格納しユーザーに配布するか或
いは公衆回線を通じてユーザーに配布しユーザーは任意
の人の音声素片辞書（Ａ氏、Ｂ氏そしてＣ氏）を自分の
システムにインストールする。

【００８３】またユーザーに音韻系列を作成するための
音韻記号列を韻律付きで配布するのは通信回線を通じて
送信する。この送信された韻律付き音韻記号列を１８０
１の情報分割部において音韻記号列及び韻律情報に分割
する。次に音声辞書の選択部１８０２においてユーザー
の任意の人から作成した音声辞書を１８０８の音声辞書
部（音声素片辞書）から選択する。ここではＢ氏の声か
ら作成した音声素片辞書Ｂを選んだ。

【００８４】次に１８０８の選択したＢ氏の声から作成
した音声素片辞書を使用して前述の音韻記号列情報より
１８０３の音韻系列作成部において各音声素片を接続補
間し音韻系列を作成する。次に１８０４の韻律付加部で
この音韻系列に前述の情報分割部１８０１において分割
した韻律情報を付加する。そしてこの韻律を付加した音
韻系列を１８０５の音声信号作成部において音声信号に
変換し１８０６の音声出力変換部で音声出力にし１８０
９のスピーカーによって音声を出力する。

【００８５】本実施例ではユーザーに音韻系列を作成す
るための音韻記号列情報を韻律情報付きで配布するのは
通信回線を通じて送信しているが例えば無線放送に乗せ
てもよい。また書籍の文章を音韻系列を作成するための
音韻記号列情報を韻律付き情報に加工してＣＤ−ＲＯＭ
などのハード媒体に格納してもよい。音韻記号列情報と
韻律情報を別々に配布してもよい。

【００８６】情報分割部において抽出した韻律情報を韻
律付加部において韻律情報付加しているが、音韻系列を
作成しそのまま音声信号に変換しても、また標準の韻律
情報を付加するか、或いは音声辞書の韻律情報すなわち
Ｂ氏の話す様子から作成した韻律情報を付加してもよ
い。

【００８７】本実施例においてはユーザーに音韻系列を
作成するための音韻記号列を韻律付きで配布するのは通
信回線を通じて送信したがこれに限られるものではなく
ハード媒体に格納して配布してもよい。もちろん実施例
２，３，４に述べた組み合わせに限られるものではな
い。他の組み合わせも本発明の範囲内で用途目的に応じ
て自由である。次に前述の実施例に付加する情報ついて
述べる。

【００８８】任意の人の声で音声合成したものに任意の
バックグラウンド音響を付加するとさらに臨場感が増
す。このために環境音響についても環境音響情報テーブ
ルを作成する。前述したように海の波の音、駅構内の
音、高速道路の脇の車の風きり音、効果音楽などを図１
９に示したようにアナログ録音したものを合成音声に付
加できる形にデジタル変換し環境音響情報テーブル１９
０１に格納すればよい。

【００８９】前述の環境音響情報テーブルを前述の音声
辞書と同様にハード媒体或いは公衆回線を通じてユーザ
ーのシステムに供給しユーザーのシステムにインストー
ルする。そして図２０に示すように音声信号に環境音響
付加部２００１において２００３の環境音響情報テーブ
ルから環境音響を付加し音変換部２００２においてこれ
を音に変換し２００４のスピーカーで出力する。

【００９０】本実施例ではユーザーのシステムがパーソ
ナルコンピューターのようにそのシステムの中でハード
ディスクの容量が十分で環境音響情報テーブルが格納可
能な場合であるが、例えばネットワークコンピュータな
どのように環境音響情報テーブルが格納できない場合に
は一般電話回線等を使いその都度サーバー上の環境音響
情報テーブルにアクセスしこれをを使用すればよい。

【００９１】任意の人の音声に関連した画像あるいは入
力に関連した画像、又はその双方を音声発生時にディス
プレイ上に表示することも効果的である。これを実現す
るためには、画像情報テーブルを必用とする。これも前
述した環境情報テーブルと同様に作成すればよい。例え
ば任意の人の声の基の声の音声提供者がアニメーション
の主人公の声優であれば、そのアニメーションの主人公
の話をしている状態の画像を取り込み画像情報テーブル
に格納すればよい。

【００９２】また音声提供者自身をスチルカメラでとり
静止画像として取り込んでもよいし、またビデオカメラ
で話をしている所を取り込んでもよく、これを図２１に
示すように音声発生データに付加できる形に変換し画像
情報テーブルに格納すればよい。入力に関連した画像も
同様に、その入力の想定が列車の旅の場面であれば列車
をスチルカメラあるいはビデオカメラで撮影しておき音
声信号データに付加できる形に変換し画像情報テーブル
に格納すればよい。

【００９３】前述の画像情報テーブルを前述の音声辞書
と同様にハード媒体或いは公衆回線を通じてユーザーの
システムに供給しユーザーのシステムにインストールす
る。そして図２２に示すように音声信号に画像付加部２
２０１において２２０４の画像情報テーブルから画像情
報を付加し音変換部２２０２においてこれを音に変換し
２２０５のスピーカーで出力し、２２０３の画像処理部
で画像処理を行い２２０６のディスプレーにおいて表示
する。

【００９４】次に各辞書及び各情報のユーザーへの供給
方法および課金の方法についてのシステムを説明する。
ユーザーのシステムがパソコンの場合を説明したが音声
発生ソフトおよび各辞書が回線に結合されたサーバー上
に常駐させ、必用に応じてユーザーの装置から前記サー
バーに接続して前記音声発生ソフト、各辞書、各情報テ
ーブルを使用するＮＣ（ネットワークコンピューター）
的使用の場合と異なるため分けて説明する。まずユーザ
ーのシステムがパソコンの場合には、大きく分けて２つ
の方法があり、１つはハード媒体で供給する方法であ
り、もう１つは回線で供給する方法である。

【００９５】前者においてはまず音声辞書、環境音響情
報テーブル、画像情報テーブルの各辞書、各情報テーブ
ルを一切ガードをかけずにＣＤ−ＲＯＭなどの媒体に格
納する。そしてこのＣＤ−ＲＯＭ媒体をユーザーに売り
切りで販売する方法がある。またこの音声発生ソフトお
よび各辞書それぞれに異なった暗証番号でガードが外れ
るようにしてインストールする。そしてこの場合ＣＤ
−ＲＯＭ媒体を低価格で販売するか、あるいは無料で配
布しユーザーは必用部分のみの代金を払い、供給者はこ
の代金の入金を確認したらユーザーに必用部分の暗証番
号を発行する。

【００９６】この暗証番号発行方法は公衆回線を通じて
パソコン通信で配布すればよい。もちろん郵送、電話で
告げるなどの方法でもよい。ユーザーはこの暗証番号を
利用してＣＤ−ＲＯＭ媒体の必用部分のガードをはずし
ユーザーのパソコンシステムのハードディスクにインス
トールする。

【００９７】公衆電話回線を通じて供給してもよい。各
辞書、買う情報テーブルを公衆電話回線に結合したサー
バー上に常駐させておく。ユーザーは必用とする辞書、
情報テーブルを前述の回線を通じて入手すればよい。こ
の場合代金の回収は前述のＣＤ−ＲＯＭの場合と同様に
音声発生ソフトおよび各辞書それぞれに異なった暗証番
号でガードをかけておきサーバー上に常駐させておけば
よい。そしてユーザーは自由に前記音声発生ソフト、各
辞書、各情報テーブルの必用部分を前記回線を通じて自
分の装置に取り込む。前述のＣＤ−ＲＯＭの場合と同様
な方法でガードをはずしユーザーは自分のシステムに必
用部分をインストールすればよい。

【００９８】ユーザーのシステムに無償あるいは有償で
ＣＤ−ＲＯＭ媒体あるいは公衆電話回線を通じてインス
トールされた各辞書、情報テーブルの必用部分は試用期
間を設けておき試用期間がすぎたら自動消滅するように
設定しておいてもよい。

【００９９】また他の方法として前記回線に結合された
サーバー上の各辞書、各情報テーブルにそれぞれ独立に
接続のためのゲートを設ける。このゲートを通過するた
めにはそれぞれ暗証番号を入力することが必用である構
造とする。ユーザーは必用部分のみの代金を払い、供給
者はこの代金の入金を確認したらユーザーに必用部分の
暗証番号を発行する。ユーザーは前記回線を通じてサー
バーに接続し各辞書、各情報テーブルの必用部分に前記
暗証番号を使い接続する。そして自分のシステムに必用
部分をインストールすればよい。

【０１００】次にＮＣ（ネットワークコンピュータ）的
使用の場合について説明する。この場合音声発生ソフト
および各辞書は公衆電話回線に結合されたサーバー上に
のみ存在しているわけであるから、音を発生させるため
にはユーザーの装置から常に前記回線に結合されたサー
バーに接続するひつようがある。この場合にはサーバー
に接続するためのゲートを設けておき、供給者はユーザ
ーの入金を確認したらそのユーザーが前記サーバーに接
続可能な状態にするために前記ゲートを通過できるよう
にすればよい。また前述のように暗証番号を発行しその
暗証番号によりゲートを通過できる構造でもよい。

【０１０１】このゲートを通過可能な状態はユーザーの
入金状態により通過不能としてもよい。例えばこのゲー
トの通過可能状態の期限を設定し、その期限が過ぎた場
合通過不能とし、新たに入金があれば再びゲートを通過
可能とすればよい。

【０１０２】他の方法でもよく供給者はユーザーの使用
量に応じて請求してもよい。例えば各辞書、各情報テー
ブルへのアクセスタイムを記録しておき、このアクセス
タイムに応じてユーザーの銀行口座から必用金額を引き
落とせばよい。

【０１０３】

【発明の効果】以上説明したように本発明によれば、人
間の声を基にした音声辞書を容易にユーザーに供給する
ことが可能となり、ユーザーのシステムにおいては、ユ
ーザーの任意の音声およびバックグラウンド音響、音声
に合致した画像等が選択できるため多種多様の音声合成
を楽しむことが可能となる。

【図面の簡単な説明】

【図１】実施例１のフロチャート

【図２】音声認識部の構成

【図３】認識音声分析部の構成

【図４】音声合成部の構成

【図５】音声素片辞書の作成のフローチャート

【図６】音声辞書の供給のフローチャート

【図７】公衆回線による音声辞書供給の図

【図８】実施例２の全体を示すフローチャート

【図９】音声辞書の構成

【図１０】（ａ）標準の音声波のアウトライン（ｂ）音声提供者Ａの音声波のアウトライン

【図１１】（ａ）標準の音声波の基本周波数変化（ｂ）音声提供者Ａの音声波の基本周波数の変化

【図１２】方言辞書の構成

【図１３】方言を盛り込む場合のフローチャート

【図１４】実施例３の全体のフローチャート

【図１５】実施例３に方言を盛り込む場合

【図１６】時間と出力したい音声の種類

【図１７】実施例３に複数の音声を盛り込む場合

【図１８】実施例４のフロチャート

【図１９】環境情報テーブルの作成

【図２０】環境音響情報の付加

【図２１】画像情報テーブルの作成

【図２２】画像情報の付加

フロントページの続き (51)Int.Cl.⁶ 識別記号ＦＩＧ０６Ｆ 3/16 ３３０Ｇ０６Ｆ 3/16 ３３０Ｋ

Claims

【特許請求の範囲】

【請求項１】人の音声を入力し前記音声を認識し前記認
識した結果を解析し音韻系列作成のための音韻記号列情
報を抽出し、特定の人の音声から作成した音声辞書（音
声素片辞書）を使用し前記音韻記号列にもとづいて音声
素片を接続し音韻系列を作成し前記音韻系列を音声に変
換することにより音声合成をすることを特徴とする音声
発生システム。
【請求項２】人の音声を入力し前記音声を認識し前記認
識した結果を解析し前記解析した結果に基づいて入力さ
れた音声と声質が異なる音声を発生させるシステムにお
いてＡ：人間の声を基に音声辞書（音声素片辞書）を作成す
るステップＢ：前記音声辞書をハード媒体に格納してユーザーに供
給すること及びユーザーの装置が接続可能な回線を通じ
てユーザーに供給することから選ばれた少なくとも１つ
のユーザーへの音声辞書供給ステップＣ：前記ユーザーに供給された前記人間の声を基にした
音声辞書をユーザーのシステムに必要に応じて追加イン
ストールおよび削除するステップＤ：前記入力された音声を認識するステップＥ：前記認識した音声を解析しテキスト情報を抽出する
ステップ。Ｆ：前記ユーザーのシステムにおいてはユーザーが任意
の音声を選択するため前記音声辞書の中から任意の音声
辞書を選択するステップＧ：前記テキスト情報に基づいて前記音声辞書（音声素
片辞書）の音声素片の必要部分を接合し補間し音韻系列
を作成するステップＨ：前記音韻系列を音声の出力に変換するステップの各ステップを有することを特徴とする音声発生システ
ム。
【請求項３】人の音声を入力し前記音声を認識し前記認
識した結果を解析し前記解析した結果に基づいて入力さ
れた音声と声質が異なる音声を発生させるシステムにお
いてＡ：人間の声を基に音声辞書（音声素片辞書）を作成す
るステップＢ：前記音声辞書をハード媒体に格納してユーザーに供
給すること及びユーザーの装置が接続可能な回線を通じ
てユーザーに供給することから選ばれた少なくとも１つ
のユーザーへの音声辞書供給ステップＣ：前記ユーザーに供給された前記人間の声を基にした
音声辞書をユーザーのシステムに必要に応じて追加イン
ストールおよび削除するステップＤ：前記入力された音声を認識するステップＥ：前記認識した音声を解析し音韻系列作成のための音
韻記号列情報を抽出するステップＦ：前記ユーザーのシステムにおいてはユーザーが任意
の音声を選択するため前記音声辞書の中から任意の音声
辞書を選択するステップＧ：前記音韻系列作成情報に基づいて前記音声辞書（音
声素片辞書）の音声素片の必要部分を接合し補間し音韻
系列を作成するステップＨ：前記音韻系列を音声の出力に変換するステップの各ステップを有することを特徴とする音声発生システ
ム。
【請求項４】ユーザーに音声合成の元となる音韻系列作
成作成のための音韻記号列情報を供給し前記音韻記号列
に基づいて音声を発生させるシステムにおいてＡ：人間の声を基に音声辞書（音声素片辞書）を作成す
るステップＢ：前記音声辞書をハード媒体に格納してユーザーに供
給すること及びユーザーの装置が接続可能な回線を通じ
てユーザーに供給することから選ばれた少なくとも１つ
のユーザーへの音声辞書供給ステップＣ：前記ユーザーに供給された前記人間の声を基にした
音声辞書をユーザーのシステムに必要に応じて追加イン
ストールおよび削除するステップＤ：前記ユーザーのシステムにおいてはユーザーが任意
の音声を選択するため前記音声辞書の中から任意の音声
辞書を選択するステップＥ：前記音韻系列作成するための音韻記号列情報に基づ
いて前記音声辞書（音声素片辞書）の必要部分を接合し
補間し音韻系列を作成するステップＦ：前記音韻系列を音声の出力に変換するステップの各ステップを有することを特徴とする音声発生システ
ム。
【請求項５】人の音声を入力し前記音声を認識し前記認
識さた結果を解析し前記解析した結果に基づいて入力さ
れた音声と声質が異なる音声を発生させるシステムにお
いてＡ：特定の人間の声を基に音声辞書（音声素片辞書）を
作成するステップＢ：前記音声辞書をユーザーの装置が接続可能な回線に
結合されたサーバー上に設置するステップＣ：ユーザーが任意の音声を選択するために前記サーバ
ー上の前記音声辞書の中から任意の音声辞書を選択する
ステップＤ：前記入力された音声を認識するステップＥ：前記認識した音声を解析しテキスト情報を抽出する
ステップＦ：前記テキスト情報に基づいて前記音声辞書（音声素
片辞書）の音声素片の必要部分を接合し補間し音韻系列
を作成するステップＧ：前記音韻系列を音声の出力に変換するステップの各ステップを有することを特徴とする音声発生システ
ム。
【請求項６】人の音声を入力し前記音声を認識し前記認
識さた結果を解析し前記解析した結果に基づいて入力さ
れた音声と声質が異なる音声を発生させるシステムにお
いてＡ：特定の人間の声を基に音声辞書を作成するステップＢ：前記音声辞書をユーザーの装置が接続可能な回線に
結合されたサーバー上に設置するステップＣ：ユーザーが任意の音声を選択するために前記サーバ
ー上の前記音声辞書の中から任意の音声辞書を選択する
ステップＤ：前記入力された音声を認識するステップＥ：前記認識した音声を解析し音韻系列作成のための音
韻記号列情報を抽出するステップＦ：前記音韻系列作成情報に基づいて前記音声辞書の音
声素片辞書の音声素片の必要部分を接合し補間し音韻系
列を作成するステップ：前記音韻系列を音声の出力に変換するステップの各ステップを有することを特徴とする音声発生システ
ム。
【請求項７】ユーザーに音声合成の元となる音韻系列作
成のための音韻記号列情報を供給し前記音韻記号列情報
に基づいて音声を発生させるシステムにおいてＡ：特定の人間の声を基に音声辞書（音声素片辞書）を
作成するステップＢ：前記音声辞書をユーザーの装置が接続可能な回線に
結合されたサーバー上に設置するステップＣ：ユーザーが任意の音声を選択するために前記サーバ
ー上の前記音声辞書の中から任意の音声辞書を選択する
ステップＤ：前記音韻記号列情報に基づいて前記音声辞書（音声
素片辞書）の音声素片の必要部分を接合し補完し音韻系
列を作成するステップＥ：前記音韻系列を音声の出力に変換するステップの各ステップを有することを特徴とする音声発生システ
ム。
【請求項８】人の音声を入力し前記音声を認識し前記認
識した結果を解析し音韻系列作成のための音韻記号列情
報をおよび韻律情報を抽出し、特定の人の音声から作成
した音声辞書（音声素片辞書）を使用し前記音韻記号列
にもとづいて音声素片を接続し音韻系列を作成し前記音
韻系列に前記韻律を付与することによって音声合成をす
ることを特徴とする音声発生システム。
【請求項９】人の音声を入力し前記音声を認識し前記認
識した結果を解析し前記解析した結果に基づいて入力さ
れた音声と声質が異なる音声を発生させるシステムにお
いてＡ：人間の声を基に音声辞書を作成するステップＢ：前記音声辞書をハード媒体に格納してユーザーに供
給すること及びユーザーの装置が接続可能な回線を通じ
てユーザーに供給することから選ばれた少なくとも１つ
のユーザーへの音声辞書供給ステップＣ：前記ユーザーに供給された前記人間の声を基にした
音声辞書をユーザーのシステムに必要に応じて追加イン
ストールおよび削除するステップＤ：前記入力された音声を認識するステップＥ：前記認識した音声を解析しテキスト情報と、韻律情
報を抽出するステップ。Ｆ：前記ユーザーのシステムにおいてはユーザーが任意
の音声を選択するため前記音声辞書の中から任意の音声
辞書を選択するステップＧ：前記テキスト情報に基づいて前記音声辞書の音声素
片辞書の音声素片の必要部分を接合し補間し音韻系列を
作成するステップＨ：前記音声素片辞書の音声素片必要部分を接合した音
韻系列に前記韻律情報を付加し音声合成のための音声信
号を作成するステップＩ：前記音声信号を音声の出力に変換するステップの各ステップを有することを特徴とする音声発生システ
ム。
【請求項１０】人の音声を入力し前記音声を認識し前記
認識した結果を解析し前記解析した結果に基づいて入力
された音声と声質が異なる音声を発生させるシステムに
おいてＡ：人間の声を基に音声辞書を作成するステップＢ：前記音声辞書をハード媒体に格納してユーザーに供
給すること及びユーザーの装置が接続可能な回線を通じ
てユーザーに供給することから選ばれた少なくとも１つ
のユーザーへの音声辞書供給ステップＣ：前記ユーザーに供給された前記人間の声を基にした
音声辞書をユーザーのシステムに必要に応じて追加イン
ストールおよび削除するステップＤ：前記入力された音声を認識するステップＥ：前記認識した音声を解析し音韻系列作成のための音
韻記号列情報と、韻律情報を抽出するステップＦ：前記ユーザーのシステムにおいてはユーザーが任意
の音声を選択するため前記音声辞書の中から任意の音声
辞書を選択するステップＧ：前記音韻系列作成情報に基づいて前記音声辞書の音
声素片辞書の音声素片必要部分を接合し補間し音韻系列
を作成するステップＨ：前記音声素片辞書の音声素片必要部分を接合した音
韻系列に前記韻律情報を付加し音声合成のための音声信
号を作成するステップＩ：前記音声信号を音声の出力に変換するステップの各ステップを有することを特徴とする音声発生システ
ム。
【請求項１１】ユーザーに音声合成の元となる音韻系列
作成のための音韻記号列情報及び韻律情報を供給し前記
音韻記号列情報及び韻律情報に基づいて音声を発生させ
るシステムにおいてＡ：人間の声を基に音声辞書を作成するステップＢ：前記音声辞書をハード媒体に格納してユーザーに供
給すること及びユーザーの装置が接続可能な回線を通じ
てユーザーに供給することから選ばれた少なくとも１つ
のユーザーへの音声辞書供給ステップＣ：前記ユーザーに供給された前記人間の声を基にした
音声辞書をユーザーのシステムに必要に応じて追加イン
ストールおよび削除するステップＤ：前記ユーザーのシステムにおいてはユーザーが任意
の音声を選択するため前記音声辞書の中から任意の音声
辞書を選択するステップＥ：前記音韻記号列情報に基づいて前記音声辞書の音声
素片辞書の音声素片の必要部分を接合し補間し音韻系列
を作成するステップＦ：前記音声素片辞書の音声素片の必要部分を接合した
音韻系列に前記韻律情報を付加し音声合成のための音声
信号を作成するステップＧ：前記音声信号データを音声の出力に変換するステッ
プの各ステップを有することを特徴とする音声発生システ
ム。
【請求項１２】ユーザーに音声合成の元となる音韻系列
作成のための音韻記号列情報を供給し前記音韻記号列情
報に基づいて音声を発生させるシステムにおいてＡ：特定の人間の声を基に音声素片および韻律情報から
なる音声辞書を作成するステップＢ：前記音声辞書をハード媒体に格納してユーザーに供
給すること及びユーザーの装置が接続可能な回線を通じ
てユーザーに供給することから選ばれた少なくとも１つ
のユーザーへの音声辞書供給ステップＣ：前記ユーザーに供給された前記人間の声を基にした
音声辞書をユーザーのシステムに必要に応じて追加イン
ストールおよび削除するステップＤ：前記ユーザーのシステムにおいてはユーザーが任意
の音声を選択するため前記音声辞書の中から任意の音声
辞書を選択するステップＥ：前記音韻記号列情報に基づいて前記音声辞書の音声
素片辞書の音声素片の必要部分を接合し補間し音韻系列
を作成するステップＦ：前記音声素片辞書の音声素片の必要部分を接合した
音韻系列に前記音声辞書の前記韻律情報を付加し音声合
成のための音声信号を作成するステップＧ：前記音声信号データを音声の出力に変換するステッ
プの各ステップを有することを特徴とする音声発生システ
ム。
【請求項１３】ユーザーに音声合成の元となる音韻系列
作成のための音韻記号列情報及び韻律情報を供給し前記
音韻記号情報及び韻律情報に基づいて音声を発生させる
システムにおいてＡ：特定の人間の声を基に音声素片および韻律情報から
なる音声辞書を作成するステップＢ：前記音声辞書をハード媒体に格納してユーザーに供
給すること及びユーザーの装置が接続可能な回線を通じ
てユーザーに供給することから選ばれた少なくとも１つ
のユーザーへの音声辞書供給ステップＣ：前記ユーザーに供給された前記人間の声を基にした
音声辞書をユーザーのシステムに必要に応じて追加イン
ストールおよび削除するステップＤ：前記ユーザーのシステムにおいてはユーザーが任意
の音声を選択するため前記音声辞書の中から任意の音声
辞書を選択するステップＥ：前記音韻記号列成情報に基づいて前記音声辞書の音
声素片辞書の音声素片の必要部分を接合し補間し音韻系
列を作成するステップＦ：前記音声辞書の韻律情報部をもちいて前記音韻系列
の任意の部分の韻律を任意の韻律にするために前記音韻
系列のそれぞれの部分に対応する韻律を作成するステッ
プＧ：前記音声素片辞書の音声素片の必要部分を接合した
音韻系列に前記韻律情報を付加し音声合成のための音声
信号を作成するステップＨ：前記音声信号データを音声の出力に変換するステッ
プの各ステップを有することを特徴とする音声発生システ
ム。
【請求項１４】人の音声を入力し前記音声を認識し前記
認識さた結果を解析し前記解析した結果に基づいて入力
された音声と声質が異なる音声を発生させるシステムに
おいてＡ：特定の人間の声を基に音声辞書を作成するステップＢ：前記音声辞書をユーザーの装置が接続可能な回線に
結合されたサーバー上に設置するステップＣ：ユーザーが任意の音声を選択するために前記サーバ
ー上の前記音声辞書の中から任意の音声辞書を選択する
ステップＤ：前記入力された音声を認識するステップＥ：前記認識した音声を解析しテキスト情報と、韻律情
報を抽出するステップＦ：前記テキスト情報に基づいて前記音声辞書の音声素
片辞書の音声素片の必要部分を接合し補間し音韻系列を
作成するステップＧ：前記音声素片辞書の音声素片の必要部分を接合した
音韻系列に前記韻律情報を付加し音声合成のための音声
信号を作成するステップＨ：前記音声信号データを音声の出力に変換するステッ
プの各ステップを有することを特徴とする音声発生システ
ム。
【請求項１５】人の音声を入力し前記音声を認識し前記
認識さた結果を解析し前記解析した結果に基づいて入力
された音声と声質が異なる音声を発生させるシステムに
おいてＡ：特定の人間の声を基に音声辞書を作成するステップＢ：前記音声辞書をユーザーの装置が接続可能な回線に
結合されたサーバー上に設置するステップＣ：ユーザーが任意の音声を選択するために前記サーバ
ー上の前記音声辞書の中から任意の音声辞書を選択する
ステップＤ：前記入力された音声を認識するステップＥ：前記認識した音声を解析し音韻系列作成のための音
韻記号列情報と、韻律情報を抽出するステップＦ：前記音韻記号列情報に基づいて前記音声辞書の音声
素片辞書の音声素片の必要部分を接合し補間し音韻系列
を作成するステップＧ：前記音声素片辞書の音声素片の必要部分を接合した
音韻系列に前記韻律情報を付加し音声合成のための音声
信号を作成するステップＨ：前記音声信号データを音声の出力に変換するステッ
プの各ステップを有することを特徴とする音声発生システ
ム。
【請求項１６】ユーザーに音声合成の元となる音韻系列
作成のための音韻記号列情報及び韻律情報を供給し前記
音韻記号列情報及び韻律情報に基づいて音声を発生させ
るシステムにおいてＡ：特定の人間の声を基に音声辞書を作成するステップＢ：前記音声辞書をユーザーの装置が接続可能な回線に
結合されたサーバー上に設置するステップＣ：ユーザーが任意の音声を選択するために前記サーバ
ー上の前記音声辞書の中から任意の音声辞書を選択する
ステップＥ：前記音韻記号列系列情報に基づいて前記音声辞書の
音声素片辞書の音声素片の必要部分を接合し補間し音韻
系列を作成するステップＦ：前記音声素片辞書の音声素片の必要部分を接合した
音韻系列に前記韻律情報を付加し音声合成のための音声
信号を作成するステップＧ：前記音声信号データを音声の出力に変換するステッ
プの各ステップを有することを特徴とする音声発生システ
ム。
【請求項１７】ユーザーに音声合成の元となる音韻系列
作成のための音韻記号列情報を供給し前記音韻記号列情
報に基づいて音声を発生させるシステムにおいてＡ：特定の人間の声を基に音声素片及び韻律情報からな
る音声辞書を作成するステップＢ：前記音声辞書をユーザーの装置が接続可能な回線に
結合されたサーバー上に設置するステップ。Ｃ：ユーザーが任意の音声を選択するために前記サーバ
ー上の前記音声辞書の中から任意の音声辞書を選択する
ステップＥ：前記音韻記号列情報に基づいて前記音声辞書の音声
素片辞書の音声素片の必要部分を接合し補間し音韻系列
を作成するステップＦ：前記音声素片辞書の音声素片の必要部分を接合した
音韻系列に前記音声辞書の前記韻律情報を付加し音声合
成のための音声信号を作成するステップ。Ｇ：前記音声信号データを音声の出力に変換するステッ
プの各ステップを有することを特徴とする音声発生システ
ム。
【請求項１８】ユーザーに音声合成の元となる音韻系列
作成のための音韻記号列情報及び韻律情報を供給し前記
音韻記号列情報及び韻律情報に基づいて音声を発生させ
るシステムにおいてＡ：特定の人間の声を基に音声辞書を作成するステップＢ：前記音声辞書をユーザーの装置が接続可能な回線に
結合されたサーバー上に設置するステップＣ：ユーザーが任意の音声を選択するために前記サーバ
ー上の前記音声辞書の中から任意の音声辞書を選択する
ステップＤ：前記音韻記号列情報に基づいて前記音声辞書の音声
素片辞書の音声素片の必要部分を接合し補間し音韻系列
を作成するステップＥ：前記音声辞書の韻律情報部をもちいて前記音韻系列
の任意の部分の韻律を任意の韻律にするために前記音韻
系列のそれぞれの部分に対応する韻律を作成するステッ
プ。Ｆ：前記音声素片辞書の音声素片の必要部分を接合した
音韻系列に前記韻律情報を付加し音声合成のための音声
信号を作成するステップＧ：前記音声信号データを音声の出力に変換するステッ
プの各ステップを有することを特徴とする音声発生システ
ム。
【請求項１９】前記人間の声を基に音声辞書を作成する
プロバイダーと、前記音声辞書を用いて音声信号を作成
するユーザーとは分離されていることを特徴とする特許
請求範囲第2項、第3項、第4項、第5項、第6項、第7項、
第9項、第10項、第11項、第12項、第13項、第14項、第1
5項、第16項、第17項および第18項記載の音声発声シス
テム。
【請求項２０】前記人間の声を基に音声辞書を作成する
システムと、前記音声辞書を用いて音声信号を作成する
システムとは分離されて、それぞれ単独に機能すること
をを特徴とする特許請求範囲第2項、第3項、第4項、第5
項、第6項、第7項、第9項、第10項、第11項、第12項、
第13項、第14項、第15項、第16項、第17項および第18項
記載の音声発声システム。
【請求項２１】前記人間の声を基にした音声辞書は音声
素片部分及び韻律部分からなることを特徴とする特許請
求範囲第９項記載、第１０項記載、第１１項記載、第１
２項記載、第１３項記載、第１４項記載、第１５項記
載、第１６項記載、第１７項記載および第１８項記載の
音声発生システム。
【請求項２２】前記人間の声を基にした音声辞書の前記
韻律部分は基本周波数、アクセント、イントネーショ
ン、時間的特徴、音量の特徴、方言的特徴、ポーズの取
り方の特徴、感情による発声の特徴から選ばれる少なく
とも１つ以上の独立部分を含んでいることを特徴とする
特許請求範囲第２１項記載の音声発生システム。
【請求項２３】前記人間の声を基にした音声辞書の各部
分は音声素片、基本周波数、アクセント、イントネーシ
ョン、時間的特徴、音量の特徴、方言的特徴、ポーズの
取り方の特徴、感情による発声の特徴から選ばれる少な
くとも１つ以上の独立部分を含んでいることを特徴とす
る特許請求範囲第９項、第１０項記載、第１１項記載、
第１２項記載、第１３項記載、第１４項記載、第１５項
記載、第１６項記載、第１７項記載及び第１８項記載の
音声発生システム。
【請求項２４】ユーザーは必用に応じてそれぞれの前記
人間の声を基にした音声辞書をユーザーの任意の組み合
わせで選べること、前記人間の声を基にした音声辞書か
ら選択した音声辞書の韻律部分の各要素から必用に応じ
て前記音声の可変可能部分の少なくとも１つをユーザー
の任意の選択で可変させることを可能とすることを特徴
とする特許請求範囲第９項、第１０項記載、第１１項記
載、第１２項記載、第１３項記載、第１４項記載、第１
５項記載、第１６項記載、第１７項記載及び第１８項記
載の音声発生システム。
【請求項２５】前記可変部分は、声の高さ、発声速度、
音量、から選ばれた少なくとも１つ以上であることを特
徴とする特許請求範囲第２４項記載の音声発生システ
ム。
【請求項２６】前記システムにおいて環境音響をデジタ
ル情報に変換し前記環境音響デジタル情報をハード媒体
に格納してユーザーに供給される方法及びユーザーの装
置が接続可能な回線を通じてユーザーに供給することか
ら選ばれた少なくとも１つの供給法によりユーザーは必
用に応じてバックグラウンド音響としての環境音響を前
記合成音声に付加することが可能であることを特徴とす
る特許請求範囲第２項記載、第３項記載、第４項記載、
第９項記載、第１０項記載、第１１項記載、第１２項記
載及び第１３項記載の音声発生システム。
【請求項２７】前記システムにおいて環境音響をデジタ
ル情報に変換しユーザーの装置が接続可能な回線に結合
されたサーバー上に前記環境音響をデジタル情報に変換
した環境音響情報テーブルとして置いておき前記環境音
響のデジタル情報をユーザーは必用に応じて前記サーバ
ーに接続し前記バックグラウンド音響としての環境音響
を前記合成音声に付加することが可能であることを特徴
とする特許請求範囲第５項記載、第６項記載、第７項記
載、第１４項記載、第１５項記載、第１６項記載、第１
７項記載及び第１８項記載の音声発生システム。
【請求項２８】前記人の声の基にした音声辞書の基の人
に関連した画像および前記入力に関連した画像から選ば
れた少なくとも１つの画像を音声発生時にディスプレイ
上に表示することを特徴とする特許請求範囲第２項記
載、第３項記載、第４項記載、第５項記載、第６項記
載、第７項記載、第９項記載、第１０項記載、第１１項
記載、第１２項記載、第１３項記載、第１４項記載、第
１５項記載、第１６項記載、第１７項記載及び第１８項
記載の音声発生システム。
【請求項２９】前記人の声を基にした音声辞書の基の人
に関連した画像および前記入力に関連した画像から選ば
れた少なくとも１つの画像をデジタル情報に変換しハー
ド媒体に格納してユーザーに供給される方法及びユーザ
ーの装置が接続可能な回線を通じてユーザーに供給する
ことから選ばれた少なくとも１つの供給法によりユーザ
ーは必用に応じて前記画像情報を付加することが可能で
あることを特徴とする特許請求範囲第２８項記載の音声
発生システム。
【請求項３０】前記人の声を基にした音声辞書の基の人
に関連した画像および前記入力に関連した画像から選ば
れた少なくとも１つの画像をデジタル情報に変換し画像
情報テーブルとしユーザーの装置が接続可能な回線に結
合されたサーバー上に置いておきユーザーは必用に応じ
て前記サーバーに接続し前記画像情報を付加することが
可能であることを特徴とする特許請求範囲第２８項記載
の音声発生システム。
【請求項３１】前記システムにおいて各地方毎に標準化
された方言辞書部分を有することを特徴とする特許請求
範囲第２項記載、第３項記載、第４項記載、第５項記
載、第６項記載、第７項記載、第９項記載、第１０項記
載、第１１項記載、第１２項記載、第１３項記載、第１
４項記載、第１５項記載、第１６項記載、第１７項記載
及び第１８項記載の音声発生システム。
【請求項３２】前記システムにおいて前記方言辞書は解
析部、音声合成部に関する音声辞書から選ばれる少なく
とも１つに関連づけられることを特徴とする特許請求範
囲第２３項記載の音声発生システム。
【請求項３３】前記方言辞書をハード媒体に格納してユ
ーザーに供給される方法及びユーザーの装置が接続可能
な回線を通じてユーザーに供給することから選ばれた少
なくとも１つの供給法によりユーザーは必用に応じて前
記方言辞書を使用することが可能であることを特徴とす
る特許請求範囲第３１項記載の音声発生システム。
【請求項３４】前記方言辞書をユーザーの装置が接続可
能な回線に結合されたサーバー上に置いておきユーザー
は必用に応じて前記サーバーに接続し前記方言辞書使用
することが可能であることを特徴とする特許請求範囲第
３１項記載の音声発生システム。
【請求項３５】前記システムにおいてユーザーが内容に
応じてそれぞれの部分、部分で任意の音声を選べること
を特徴とする特許請求範囲第２項記載、第３項記載、第
４項記載、第５項記載、第６項記載、第７項記載、第９
項記載、第１０項記載、第１１項記載、第１２項記載、
第１３項記載、第１４項記載、第１５項記載、第１６項
記載、第１７項記載及び第１８項記載の音声発生システ
ム。