JPH09171396A - 音声発生システム - Google Patents

音声発生システム

Info

Publication number
JPH09171396A
JPH09171396A JP8213255A JP21325596A JPH09171396A JP H09171396 A JPH09171396 A JP H09171396A JP 8213255 A JP8213255 A JP 8213255A JP 21325596 A JP21325596 A JP 21325596A JP H09171396 A JPH09171396 A JP H09171396A
Authority
JP
Japan
Prior art keywords
voice
user
dictionary
information
generation system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8213255A
Other languages
English (en)
Inventor
Keiichi Kato
圭一 加藤
Hiroshi Kurita
洋 栗田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BAISERA KK
Original Assignee
BAISERA KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BAISERA KK filed Critical BAISERA KK
Priority to JP8213255A priority Critical patent/JPH09171396A/ja
Publication of JPH09171396A publication Critical patent/JPH09171396A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 音声合成においてユーザーが任意の多様な種
類の音声の中から選択するためにユーザーに多様な種類
の音声を辞書の形で供給しこの辞書を利用してユーザー
の任意の種類の音声合成をできることを可能にするシス
テム。 【構成】 パソコンシステム、NCにおいて人の声を基
にした音声辞書をユーザーに供給し、ユーザーのシステ
ムにおいては、自由にこの辞書の各部分を組み合わせら
れるようし、ユーザーの任意の音声の音声合成を可能と
する。ユーザーへの音声辞書の供給はハード媒体あるい
は通信回線を通じて行う。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明はパソコン、ワープロ、ゲ
ーム機、専用機、NC(ネットワークコンピュータ
ー)、STB(セット・トップ・ボックス)などを利用
する際の合成音声の発生に係わり、特にユーザーが任意
でかつ多様な合成音声の発生を選ぶことが可能な手段を
実現するシステムに関する。
【0002】
【従来の技術】従来の音声合成に関しては、多種多様の
装置及び方法が提案されておりまた構内放送、ゲーム情
報サービス等の様々な分野で応用されている。音声は言
語として意味をなす最小単位である音素から構成されて
いる。この音素は波形として表現処理される。その波形
の一部あるいは全部が音声の合成に使用される音声素片
となる。この音声素片を合成単位として任意の音声を作
る合成方式では、各音声素片を一定の規則に従って結合
し、合成音声を発生させている。こういった方法では、
従来基本周波数を変えて男性音声、女性音声を区別して
作り出す方法、時間軸を伸縮させて発生速度を変える方
法などが提案されており、こういった声質を変化させる
音声合成についても実際に商品化されている。実際の商
品としてはドキュメントトーカー、TTSなどの商品な
どがありテキストファイルを読み上げる音声合成の商品
として実際商品化されておりパソコン上で音声合成を実
現してる。
【0003】自然な言語を実現するために各音声素片の
接合の工夫も種々の工夫が提案されており人が実際に発
声するように自然な発声が実現されている。また文書の
意味を解析しその結果を基にして、重要な部分を強調す
るためにその部分の語調を強めたりする音声合成方法な
ど各種の方法が提案されている。しかしながら現行の方
法では合成音声の声質は基本周波数を変更したりするも
のに限られており多種多様の声質の要求に満足できるも
のでは無かった。
【0004】
【発明が解決しようとする課題】しかしながら人が聞い
て違和感のない自然な音声はいつも聞いている人の声を
ベースにしたものの方が自然である。またいつも同質の
声ではメリハリがつかないため、或いは状況などによっ
て聞きたい声質は異なるため、色々な人の声をベースに
した音声を状況によって使い分け種々な音声を発声させ
ることが望まれていた。
【0005】人にはそれぞれ声質、基本周波数、アクセ
ント、イントネーション、ポーズの取り方、言葉の一部
を伸ばしたりする時間的特徴、固有の方言の特徴、感情
により音の高低、音量の変化などの特徴が異なる。こう
いった人により異なる特徴的要素を加えることが可能と
なればより臨場感のある音声発声がユーザーの状況に合
わせ自由に選べるはずである。
【0006】各地方の方言による音声合成を任意の人の
声をベースにしたもの聞きたいなどということも望まれ
ていた。また任意の合成音声を雰囲気或いは状況に応じ
た任意のバックグラウンド音響の中で聞くということも
望まれていた。同様に任意の声質で歌を歌わせることも
望まれている。前記ユーザーが任意に選択した声質に関
連した画像をディスプレイ上に表示することにより更に
臨場感を増すことが可能となる。
【0007】特に最近のパソコンの性能のアップにおい
ては、目を見張るものがあるが、前記音声合成をパソコ
ン上で実現する事は、非常に有意義なことである。また
パソコンだけではなくゲーム機において本技術が実現さ
れれば非常に臨場感のあるゲームが実現する。また新し
い概念であるNC(ネットワークコンピュータ)などで
も新しいアプリケーションが広がる可能性がある。
【0008】
【課題を解決するための手段】前記目的を達成するため
に、本発明においては次に示す方法をとる。すなわち予
めテキストファイルである情報、キーボードなどの入力
装置によって入力されのテキストに変換された情報、O
CR(オプティカル・キャラクター・リーダー)によっ
て活字からのテキストに変換された情報の少なくとも1
つの情報のテキスト入力を解析するテキスト解析手段と
解析されたテキストデータに対して音韻系列を作成する
音韻系列作成手段と韻律を作成する韻律作成手段と前記
音韻系列と韻律に基ずいて合成音声を作成する合成手段
を有する音声規則合成を使用して音声を発生させるシス
テムにおいてユーザーの任意の音声を発生させるシステ
ムであり、そのステップはユーザーの装置がパソコン、
音発生機能付きワープロ、専用装置から選ばれた少なく
とも1つの装置である場合は A:人間の声を基に音声辞書を作成するステップ B:前記音声辞書をハード媒体に格納してユーザーに供
給すること及びユーザーの装置が接続可能な回線を通じ
てユーザーに供給することから選ばれた少なくとも1つ
のユーザーへの音声辞書供給ステップ C:前記音声辞書は前記ハード媒体に格納してユーザー
に供給され方法及びユーザーの装置が接続可能な回線に
結合可能なサーバーを通じてユーザーに供給することか
ら選ばれた少なくとも1つの供給法により供給された前
記人間の声を基にした音声辞書をユーザーのシステムの
必要に応じて追加インストールおよび削除するステップ D:前記入力されたテキストを必用に応じて解析するス
テップ E:前記ユーザーのシステムにおいてはユーザーが任意
の音声を選択するため1以上の音声辞書を有している前
記音声辞書の中から任意の音声辞書を選択するステップ F:前記テキストを必用に応じて解析された情報に従っ
て前記音声辞書の必用部分を使用し音声を合成するため
のデータを作成していくステップ G:前記音声を合成するためのデータを音声の出力に変
換する手段を有するステップ の各ステップからなるシステムとする。
【0009】またユーザーのシステムがパソコン、音発
生機能付きワープロ、専用装置、NC(ネットワークコ
ンピュータ)、ゲームマシン、STB(セット・トップ
・ボックス)から選ばれる少なくとも1つの装置であ
り、JAVAなどの言語を使用しユーザーのシステムに
おいては最小限のソフトのみを持ち、回線に接続可能な
サーバー上にソフトおよび各種辞書が格納されている場
合には A:人間の声を基に音声辞書を作成するステップ B:前記音声辞書をユーザーの装置が接続可能な回線に
結合されたサーバー上に設置するステップ C:前記入力されたテキストを必用に応じて解析するス
テップ D:ユーザーが任意の音声を選択できるようにユーザー
の装置が接続可能な回線に結合されたサーバー上の音声
辞書の必要部分を選択するステップ E:前記テキストを必用に応じて解析された情報に従っ
て前記音声辞書の必用部分を使用し音声を合成するため
のデジタルデータを作成していくステップ F:前記音声を合成するためのデータを音声の出力に変
換する手段を有するステップ の各ステップからなるシステムとすればよい。
【0010】そして前記システムにおいてはユーザーは
必用に応じてそれぞれの前記人間の声を基にした音声辞
書をユーザーの任意の組み合わせで選べる構造とする。
前記人間の声を基にした音声辞書から選択した音声辞書
の各要素の中から必用に応じて前記音声の可変可能部分
の少なくとも1つをユーザーの好みで可変させることを
可能とする。この可変部分、声の高さ、発声速度、音
量、から選ばれた少なくとも1つ以上である。
【0011】本発明によるシステムにおいては入力がキ
ーボード入力、OCRを利用した活字文字の認識、手書
き文字の認識入力から選ばれる少なくとも1つの方法の
入力法であり、1文字入力の後の音声出力、単語確定後
の音声出力、文節確定後の音声出力、文確定後の音声出
力、1文字認識の後音声出力、単語認識後の音声出力、
文節認識後の音声出力、文認識後の音声出力の少なくと
も1つをユーザーの必用に応じて選択できることが可能
である。前記1文字入力の後音声出力の場合にはアルフ
ァベット、ひらがな、及びカタカナから選ばれる少なく
とも1つの方法で入力された1つの日本語文字を認識し
た直後に前記認識した文字に対応した音声を発生させる
こと、単語確定後あるいは単語認識後音声出力において
は、単語確定あるいは単語認識した直後に前記確定ある
いは認識した単語に対応した音声を発生させること、文
節確定後あるいは認識後の音声出力においては、文節を
確定あるいは認識した直後に前記確定あるいは認識した
文節に対応した音声を発生させること、文確定あるいは
認識後の音声出力においては、文を確定あるいは認識し
た後に前記確定した文に対応する音声を発生させること
が可能であるシステムとする。
【0012】前記人間の声を基にした音声辞書は音声素
片部分、韻律部分から構成され、必用に応じてそれぞれ
の部分に分けて格納しておく。
【0013】前記人間の声を基にした音声辞書の前記韻
律部分は基本周波数、アクセント、イントネーション、
時間的特徴、音量の特徴、方言的特徴、ポーズの取り方
の特徴、感情による発声の特徴から選ばれる少なくとも
1つ以上の独立部分を含んでおりそれぞれの部分に分け
て格納しておく。
【0014】あるいは前記人間の声を基にした音声辞書
の各部分は音声素片、基本周波数、アクセント、イント
ネーション、時間的特徴、音量の特徴、方言的特徴、ポ
ーズの取り方の特徴、感情による発声の特徴から選ばれ
る少なくとも1つ以上の独立部分を含ませてもよい。
【0015】前記手法により作成した任意の声質の合成
音声を任意の特定の場所あるいは音楽などのバックグラ
ウンド音響を付加するために以下の手法をとることも可
能である。すなわちユーザーの装置がパソコン、音発生
機能付きワープロ、専用装置から選ばれた少なくとも1
つの装置である場合は前記システムにおいて環境音響を
デジタル情報に変換し前記環境音響をハード媒体に格納
してユーザーに供給され方法及びユーザーの装置が接続
可能な回線を通じてユーザーに供給することから選ばれ
た少なくとも1つの供給法によりユーザーは必用に応じ
てバックグラウンド音響としての環境音響を前記合成音
声に付加するればよい。またユーザーのシステムがパソ
コン、音発生機能付きワープロ、専用装置、NC、ゲー
ムマシン、STB(セット・トップ・ボックス)から選
ばれる少なくとも1つの装置でありユーザーの装置が接
続可能な回線に結合されたサーバー上にソフトおよび各
種辞書が格納されている場合には環境音響をデジタル情
報に変換し環境音響テーブルとし回線に結合されたサー
バー上に置いておき前記環境音響のデジタル情報をユー
ザーは必用に応じて前記サーバーに接続しバックグラウ
ンド音響としての環境音響を前記合成音声に付加すれば
よい。
【0016】ユーザーの任意の声質で歌声を発声させる
ためには以下の方法をとればよい。すなわち前記音声素
片辞書から選ばれ前記ユーザーの任意な音楽に対応した
テキストをユーザーの任意の前記音声素片辞書から選ば
れた音声素片を接続し音韻系列とし前記ユーザーの任意
な音楽に対応した韻律を韻律情報に変換し前記ユーザー
の任意な音楽に対応した韻律情報を与えることにより前
記音楽に対応した歌声を合成すればよい。ここでユーザ
ーの装置がパソコン、音発生機能付きワープロ、専用装
置から選ばれた少なくとも1つの装置である場合は前記
ユーザーの任意な音楽に対応した韻律をデジタル情報に
変換した情報はハード媒体に格納してユーザーに供給さ
れる方法及びユーザーの装置が接続可能な回線を通じて
ユーザーに供給することから選ばれた少なくとも1つの
供給法によりユーザーは必用に応じて前記ユーザーの任
意な音楽に対応した韻律をデジタル情報に変換した情報
を使用することが可能となる。またユーザーのシステム
がパソコン、音発生機能付きワープロ、専用装置、N
C、ゲームマシン、 STB(セット・トップ・ボック
ス)から選ばれる少なくとも1つの装置であり回線に接
続可能なサーバー上にソフトおよび各種辞書が格納され
ている場合には前記ユーザーの任意な音楽に対応した韻
律をデジタル情報に変換した情報は回線に結合されたサ
ーバー上に置いておきユーザーは必用に応じて前記音楽
に対応した韻律をデジタル情報に変換した情報を使用す
るようにすればよい。
【0017】上記歌声に楽器の演奏を付加することも可
能である。すなわち前記ユーザーの任意の音楽に対応し
た楽器の演奏をデジタル情報に変換し前記音声合成であ
る歌声に付加すればよい。そしてユーザーの装置がパソ
コン、音発生機能付きワープロ、専用装置から選ばれた
少なくとも1つの装置である場合は前記ユーザーの任意
の音楽に対応した楽器の演奏をデジタル情報に変換しハ
ード媒体に格納してユーザーに供給される方法及び回線
を通じてユーザーに供給することから選ばれた少なくと
も1つの供給法によりユーザーは自分の装置に前記ユー
ザーの任意の音楽に対応した楽器の演奏をデジタル情報
に変換した情報をインストールし必用に応じて前記ユー
ザーの任意の音楽に対応した楽器の演奏をデジタル情報
に変換した情報を前記合成音声である歌声に付加すれば
よい。ユーザーのシステムがパソコン、音発生機能付き
ワープロ、専用装置、NC、ゲームマシン、STB(セ
ット・トップ・ボックス)から選ばれる少なくとも1つ
の装置でありユーザーの装置が接続可能な回線に結合さ
れたサーバー上にソフトおよび各種辞書が格納されてい
る場合には前記ユーザーの任意の音楽に対応した楽器の
演奏をデジタル情報に変換しユーザーの装置が接続可能
な回線に結合されたサーバー上に置いておき前記ユーザ
ーの任意の音楽に対応した楽器の演奏のデジタル情報に
変換した情報をユーザーは必用に応じて前記サーバーに
接続し前記ユーザーの任意の音楽に対応した楽器の演奏
のデジタル情報に変換した情報を前記合成音声である歌
声に付加する。
【0018】前記人の声を基にした音声辞書の基にした
人に関連した画像および前記入力テキストに関連した画
像から選ばれた少なくとも1つの画像をディスプレイ上
に表示することも可能であり、ユーザーの装置がパソコ
ン、音発生機能付きワープロ、専用装置から選ばれた少
なくとも1つの装置である場合は前記人の声を基にした
音声辞書の基の人に関連した画像および前記入力テキス
トに関連した画像から選ばれた少なくとも1つの画像を
デジタル情報に変換しハード媒体に格納してユーザーに
供給される方法及びユーザーの装置が接続可能な回線を
通じてユーザーに供給することから選ばれた少なくとも
1つの供給法によりユーザーは必用に応じて前記人の声
を基にした音声辞書の基の人に関連した画像および前記
入力テキストに関連した画像から選ばれた少なくとも1
つの画像をデジタル情報に変換した情報を付加すればよ
い。またユーザーのシステムがパソコン、音発生機能付
きワープロ、専用装置、NC、ゲームマシン、STB
(セット・トップ・ボックス)から選ばれる少なくとも
1つの装置であり回線に接続可能なサーバー上にソフト
および各種辞書が格納されている場合には前記人の声を
基にした音声辞書の基の人に関連した画像および前記入
力テキストに関連した画像から選ばれた少なくとも1つ
の画像をデジタル情報に変換し画像情報テーブルとして
ユーザーの装置が接続可能な回線に結合されたサーバー
上に置いておきユーザーは必用に応じて前記サーバーに
接続し前記人の声を基にした音声辞書の基の人に関連し
た画像デジタル情報に変換した情報を付加すればよい。
【0019】次に音声発生において方言的な特徴も1つ
の興味深い要素である。これを実現するには各地方毎に
標準化された方言の辞書を設ければよい。そして前記各
地方毎に標準化された方言の辞書はテキスト解析部、音
声合成部に関する音声辞書から選ばれる少なくとも1つ
に関連づけられるようにする。ユーザーの装置がパソコ
ン、音発生機能付きワープロ、専用装置から選ばれた少
なくとも1つの装置である場合は前記各地方毎に標準化
された方言の辞書をハード媒体に格納してユーザーに供
給される方法及びユーザーの装置が接続可能な回線を通
じてユーザーに供給することから選ばれた少なくとも1
つの供給法によりユーザーは必用に応じて前記各地方毎
に標準化された方言の辞書を使用すればよい。ユーザー
のシステムがパソコン、音発生機能付きワープロ、専用
装置、NC、ゲームマシンSTB(セット・トップ・ボ
ックス)から選ばれる少なくとも1つの装置であり回線
に接続可能なサーバー上にソフトおよび各種辞書が格納
されている場合には前記各地方毎に標準化された方言の
辞書をユーザーの装置が接続可能な回線に結合されたサ
ーバー上に置いておきユーザーは必用に応じて前記サー
バーに接続し前記各地方毎に標準化された方言の辞書使
用すればよい。
【0020】各種辞書、各情報テーブルをユーザーに供
給するためのハード媒体はフロッピーディスク、CD−
ROM、MO、PD、DVD、メモリーカードからその
目的によって最適なものを選択すればよい。
【0021】同様に回線を通じてユーザーに供給する場
合および回線に接続可能なサーバー上にソフト、各種辞
書、各情報テーブルが格納されている場合の回線は一般
公衆回線及び専用回線から選ばれた少なくとも1つの回
線であり、前記回線は必用に応じて有線回線および無線
回線からあるいは組み合わせて最適なものを選択すれば
よい。前記有線回線は電気信号および光信号から選ばれ
た少なくとも1つの有線回線であり、前記無線回線は電
磁波信号及び光信号から選ばれた少なくとも1つの無線
回線であればよい。
【0022】本発明のシステムにおいて文章を元に音声
を発声させる場合は文章の各部分部分で独立に任意の声
質の音声を選択できる構造とする。
【0023】本発明のシステムによるユーザーへのハー
ド媒体の供給法は前記システムにおける少なくとも1人
以上人の声を基にした前記音声辞書、前記環境音響をデ
ジタル情報に変換した情報、前記ユーザーの任意な音楽
に対応した韻律のデジタル情報に変換した情報、前記ユ
ーザーの任意の音楽に対応した楽器の演奏をデジタル情
報に変換した情報、前記人の声を基にした音声辞書の基
の人に関連した画像をデジタル情報に変換した情報、前
記各地方毎に標準化された方言の辞書から選ばれた少な
くとも1つの情報を格納した前記ハード媒体は売り切り
とする。
【0024】あるいは前記システムにおける前記ハード
媒体は1人以上の人の声を基にした音声辞書、前記環境
音響をデジタル情報に変換した情報、前記ユーザーの任
意な音楽に対応した韻律のデジタル情報に変換した情
報、前記ユーザーの任意の音楽に対応した楽器の演奏を
デジタル情報に変換した情報、前記人の声を基にした音
声辞書の基の人に関連した画像をデジタル情報に変換し
た情報、前記各地方毎に標準化された方言の辞書から選
ばれた少なくとも1つの情報を格納しガードをかけ、ユ
ーザーの入金を確認後前記ガードを外すシステムとして
もよい。
【0025】または前記システムにおける前記ハード媒
体は複数の人の声を基にした音声辞書、前記環境音響を
デジタル情報に変換した情報、前記ユーザーの任意な音
楽に対応した韻律のデジタル情報に変換した情報、前記
ユーザーの任意の音楽に対応した楽器の演奏をデジタル
情報に変換した情報、前記人の声を基にした音声辞書の
基の人に関連した画像をデジタル情報に変換した情報、
前記各地方毎に標準化された方言の辞書から選ばれた少
なくとも1つの情報を格納しそれぞれの前記人の声を基
にした音声辞書独立にガードをかけ、ユーザーの入金を
確認後それぞれ独立に前記ガードを外すシステムでもよ
く必用によって最適なものを選択すればよい。
【0026】回線を通じてユーザーに供給する方法ある
いは、ユーザーのシステムがパソコン、音発生機能付き
ワープロ、専用装置、NC、ゲームマシンSTB(セッ
ト・トップ・ボックス)から選ばれる少なくとも1つの
装置であり回線に接続可能なサーバー上にソフトおよび
各種辞書が格納されている場合にはユーザーの入金によ
り前記サーバーに接続可能とすればよい。
【0027】回線を通じてユーザーに供給する方法にお
いてはユーザーの入金により前記サーバーに接続し必要
音声辞書部分をユーザーの装置にコピー可能とすればよ
い。そしてこの場合ユーザーの装置にコピーされた前記
音声辞書が必要に応じて自動消滅する構造でもよい。前
記構造を必用に応じて自由に組み合わせればよい。
【0028】またユーザーのシステムがパソコン、音発
生機能付きワープロ、専用装置、NC、ゲームマシン、
STB(セット・トップ・ボックス)から選ばれる少な
くとも1つの装置であり回線に接続可能なサーバー上に
ソフトおよび各種辞書が格納されている場合にはユーザ
ーが前記サーバーに接続し前記サーバー上の音声辞書の
使用量に応じて料金を決定し、前記料金をクレジットカ
ード、銀行引き落とし、請求書発行による入金から選ば
れた少なくとも1つの決済法をとればよい。
【0029】上述したシステムで発生した音声をユーザ
ーの必用に応じてオーディオカセット、MD、DCCな
どの録音媒体に記録してもよい。また前記システムをパ
ソコン通信におけるチャットで使用してもよい。
【0030】
【作 用】前述のシステムによれば人の声をベースにし
た各特徴を独立に有する音声辞書および各情報を各種ユ
ーザーに容易に供給できる。また各ユーザーにおいて
は、雰囲気、状況などにより任意の声質、語調などを任
意の自由に音声を選ぶことが可能となる。各地方の方
言、または人により異なる方言的特徴なども加味した任
意の音声で実現できる。また各音声辞書と同様にバック
グラウンド音響もユーザーに容易に供給できるのでユー
ザーの任意のバックグラウンド音響で任意の音声を聞く
ことが可能となる。またユーザーは任意の声質で任意の
歌を歌わせることができ、かつ任意の楽器の伴奏も付加
することが可能となる。任意の声質の基の人に関連した
画像をディスプレイ上に表示することができるのでより
臨場感が出る。この合成音声を録音媒体に記録すること
により携帯用のオーディオカセットテープにより繰り返
して再生させることが可能となり学習などにも役に立
つ。
【0031】
【実施例】図1に本発明の実施例の全体のシステムの構
成の概要を示す。ここで1は音声提供者であり、まず予
めモデル化された文章を音声提供者に一定のテンポで朗
読して貰う。朗読時に一定のテンポで朗読してもらうた
めに音声提供者にはヘッドフォンを付けてもらいこのヘ
ッドフォンよりモデルの文書と朗読のリズムの指示を流
す。この音声提供者の朗読の結果を2の音声記録装置に
記録する。次にこの朗読の結果を元に音声辞書を作成し
ていく。そしてその結果を3のコンピュータに格納す
る。この辞書を4に示すようにCD−ROMに格納す
る。
【0032】そしてこのCD−ROMをユーザに供給
し、ユーザーのパソコン5にCD−ROMに格納されて
いる辞書をインストールする。もちろん音声辞書のユー
ザーへの供給法については、 CD−ROMである必用
はなくFD、DVD、PD、メモリーカードなどでもよ
い。また図の5のサーバーに音声辞書、情報テーブルを
格納しておきユーザーが一般電話回線を経由してサーバ
ーに接続して任意の音声辞書を自分のパソコンにインス
トールしてもよい。
【0034】図2にユーザーが音声合成していく様子を
概略フロチャート示す。まずユーザーは原稿をスキャナ
ーを用いてパソコンに取り込む。次にこの情報をテキス
トファイルに変換する。このテキストファイルに対して
テキスト解析を行う。このテキスト解析の結果に基き2
1のユーザーの任意の音声素片辞書を参照し前記テキス
トを解析した結果にそって各音声素片を接続していき接
続部を補完し音韻系列を作成する。この音韻系列と22
の韻律辞書を参照しユーザーの任意の韻律を選択して作
成した韻律を合成し音声合成データを作成する。
【0035】次に環境音響を付与する。ここでは海の波
の音をデジタル情報としたものを音声と同様の方法すな
わちCD−ROMに格納してユーザーに供給しユーザー
は自分のパソコンの環境音響情報テーブル23にインス
トールする。前述の方法で作成した合成音声に環境音響
情報テーブル23を参照してユーザーの任意の海の波の
音を付加する。
【0036】前述の処理により作成したデータをパソコ
ンの音源ボードを使用し音声出力に変換しスピーカーよ
り音として出力する。
【0037】本実施例ではユーザーの装置はパソコンで
あったがパソコンに限定されるものではなく例えば音発
生機能付きワープロ、音発生機能付きゲーム機、あるい
は専用機などでもよい。
【0038】更に現在提案されている安価なコンピュー
ターNC(ネットワークコンピュータ)、STB(セッ
ト・トップ・ボックス)などを使用してもよい。この場
合必用なソフト、音声辞書、情報テーブルは一般公衆電
話回線などに結合されたサーバー上に設置しておきユー
ザーが必用な時のみ前述のサーバーに接続し使用すれば
よい。
【0039】次に各部についてさらに詳細に述べる。図
3は音声辞書の構造を示す。ここでそれぞれ301は音
声素片辞書であり302は韻律辞書である。さらにこの
韻律辞書部分は303の基本周波数部分、304の発音
される個々の語が持つ強さまたは高さの配置であるアク
セント部分、305の話をするとき話し手の上がり下が
りの調子であるイントネーション部分、306の時間的
特徴部分、307の声の大きさを表す音量の特徴、30
8の方言的特徴、309のポーズの取り方の特徴、31
0の感情による発声の特徴の独立部分を備えている。
【0040】図4に音声素片辞書の作成のフロチャート
を示した。音声提供者に予め決められた文章を朗読して
もらう。この際音声提供者にはヘッドホンを装着しても
らい、このヘッドフォンを通じて文書の朗読のタイミン
グを指示する。音声提供者はこの指示に基づいて前述の
予め決められた文章を朗読していく。この朗読した音声
を図4の401に示すようにアナログ録音する。次に4
02においてアナログの音声をデジタル変換していく。
このデジタル変換された音声データを403に示すよう
に時間分割処理を行う。次に404に示すように予め決
められた文書の音素と音声提供者の音素の対応付けを行
う。この対応付けを行った結果を元に各音素にラベリン
グを行う。この結果を音素ラベリングテーブル408に
格納する。音素ラベリングテーブルおよび予め作成して
ある音声素片切り出しテーブル409に従い406で音
声素片を切り出す。切り出された音声素片は407で示
された格納処理部において辞書化処理を行い音声素片辞
書410に格納する。
【0041】韻律辞書も音声素片辞書と同様に予め決め
られた文章を音声提供者に読んでもらう。但し音声素片
辞書作成の時と異なるのは読む際のタイミングの指示を
音声提供者に行わない。また興奮した場合、悲しい場
合、怒った場合等の感情の起伏を予めきめられた文書の
必用部分に添付しておく。そして韻律辞書の場合には標
準の韻律を定めておき各音声提供者の辞書は標準との差
の形で作成する。この時予め標準として定めたの男性の
声と女性の声の韻律辞書を作成しておく。但し標準の韻
律辞書の感情部分は抑揚のない状態での基本周波数、音
量、発話速度を格納しておく。
【0042】図5の(a)に標準の音声波のアウトライ
ン、(b)に音声提供者Aの音声波のアウトラインを示
す。基本周波数の採取については音声提供者に抑揚のな
い平板な状態で読んで貰う。基本周波数については標準
の基本周波数に対して(b)の音声提供者Aの音声波を
それぞれ予め設定された語についての基本周波数を比較
し、その結果を音声辞書の韻律部の基本周波数の部分に
格納する。
【0043】次にアクセントについては音声提供者にい
つも話している状態で読んでもらう。予めそれぞれ設定
された各単語の各部分のピーク部分の位置、高さおよび
基本周波数を標準の音声波および音声提供者Aの音声波
を比較し標準し、この結果の差を音声辞書の韻律部のア
クセントの部分に格納する。ここでピークの音声の位置
は図5においては標準のものでは502であり、音声提
供者Aにおいては512である。また高さ(音声の強さ
大きさ)は標準のものでは501であり、音声提供者A
においては511である。
【0044】イントネーションについては予め決められ
た文を音声提供者にいつも話している状態で読んでもら
う。そして基本周波数の変化を標準のものと比較しその
結果の差を音声辞書の韻律部のイントネーションの部分
に格納する。図6にその様子を示した。ここで図5の
(a)の標準の基本周波数の変化を図6(a)に示すよ
うに Fとして縦軸にとった。同様に図5の(b)の音
声提供者Aの基本周波数の変化を図6(b)に示すよう
に Fとして縦軸にとった。
【0045】時間的特徴については予め決められた文章
中の各音および代表的単語の継続時間時間、てにおはお
よび接続詞の最後の音の継続時間そして文章全体を読む
早さを比較する。前記と同様に標準のものと比較しその
結果の差を音声辞書の韻律部の時間的特徴の部分に格納
する。
【0046】方言的特徴については音声提供者が通常の
話す際に方言が出る場合には出身地方の標準の方言辞書
との比較を行いその結果の差を音声辞書の韻律部の方言
部分に格納する。
【0047】ポーズの特徴については図5に示すポーズ
部の継続時間、標準では504、音声提供者Aにおいて
は514部分を比較する。そしてその結果の差を音声辞
書の韻律部のポーズ部分に格納する。
【0048】感情による特徴については音声提供者に前
述のように興奮した場合、悲しい場合、怒った場合等の
感情の起伏を予め決められた文書の必用部分に添付して
おく。そしてこの感情をこめてこの文章を読んで貰う。
そしてこの部分を標準のものと比較する。この時比較の
対象は文章を読む早さ、基本周波数、音量(音の強さ)
を比較する。そしてこの結果を音声辞書の韻律部の感情
部分に格納する。
【0049】任意の人の声で音声合成したものに任意の
バックグラウンド音響を付加するとさらに臨場感が増
す。このために環境音響についても環境音響情報テーブ
ルを作成する。前述したように海の波の音、駅構内の
音、高速道路の脇の車の風きり音を図7に示したように
アナログ録音したものを合成音声に付加できる形にデジ
タル変換し環境音響情報テーブル71に格納すればよ
い。
【0050】任意の人の音声に関連した画像あるいは入
力テキストに関連した画像、又はその双方を音声発生時
にディスプレイ上に表示することも効果的である。これ
を実現するためには、画像情報テーブルを必用とする。
これも前述した環境情報テーブルと同様に作成すればよ
い。例えば任意の人の声の基の声の音声提供者がアニメ
ーションの主人公の声優であれば、そのアニメーション
の主人公の話をしている状態の画像を取り込み画像情報
テーブルに格納すればよい。また音声提供者自身をスチ
ルカメラでとり静止画像として取り込んでもよいし、ま
たビデオカメラで話をしている所を取り込んでもよく、
これを図8に示すように音声発生データに付加できる形
に変換し画像情報テーブルに格納すればよい。入力テキ
ストに関連した画像も同様に、その入力テキストが列車
の旅の場面であれば列車をスチルカメラあるいはビデオ
カメラで撮影しておき音声発生データに付加できる形に
変換し画像情報テーブルに格納すればよい。
【0051】各地方毎に標準化された方言辞書は韻律だ
けでなく一部の単語も置き換わる場合があるので置き換
え用の単語辞書も必用となる。そこで方言辞書の構成は
図9に示すように単語置き換え部と韻律部から構成すれ
ばよい。単語置き換え部は標準語の単語に対応する各地
方の独特の単語を採取しその地方の単語のテキストと語
音の標準語との差を方言辞書の単置き換え部に格納す
る。同様に例えば発話速度が早かったり語尾を上げると
いった全体の韻律も採取し標準語の韻律との差を方言辞
書の韻律部に格納する。
【0052】図10のブロック図においてユーザーのシ
ステムについてさらに詳しく説明する。まず紙面上の活
字をスキャナーで読み込みシステムに取り込む。これを
テキストに変換する。次にこのテキストを標準辞書10
01を参照して1011のテキスト解析部で解析する。
ここで1010はユーザーシステムのシステム制御部で
ある。この結果を基に任意の人の声を基にした音声辞書
の音声素片部分1003(1)を参照して音韻系列生成
部1013により音韻系列を作成する。同様に標準の韻
律辞書1002および任意の人の声を基にした音声辞書
の韻律生成部1003(2)を参照し韻律を生成する。
そしてこの生成した音韻系列および韻律から音声合成デ
ータを作成する。
【0053】ここでユーザーが方言を指定した場合はシ
ステム制御部1010より指令を出し、まず標準化され
た方言辞書1004の単語置き換え部を参照して標準語
に対応する単語を特定地方の単語テキストに置き換え
る。次に韻律生成部においても標準化された方言辞書1
004の韻律部分および単語置き換え部の語調を参照し
前述の単語に対する韻律を生成すると共に、文全体の韻
律も標準辞書1001の韻律部分および任意の人の声を
基にした音声辞書1003(2)の方言部分を参照して
韻律を生成させる。
【0054】またユーザーが例えば怒った感情を付加し
たい場合には、韻律の一部を可変すればよい。システム
制御部1010より指令を出し標準辞書1001の韻律
部分および任意の人の声を基にした音声辞書1003
(2)の感情部分を参照して韻律修正部1015により
修正した韻律を生成させる。さらにユーザーが怒った感
情を更に強調したい場合には基本周波数を5%増加し、
発話速度を10%早くし、音量を30%増加させる。
【0055】ユーザーがバックグラウンド音響として前
述の合成音声に例えば駅構内の音を付加したい場合には
システム制御部1010より指令を出し環境音響情報テ
ーブル1005を参照して駅の構内の音を環境音響付加
部1017において環境音響を付加し音声データを作成
する。
【0056】同様にユーザーが任意の人の声を基にした
人に関連した画像をディスプレイ上に表示したい場合に
は付加したい場合にはシステム制御部より指令を出し画
像情報テーブル1006を参照して任意の人の声を基に
した人に関連した画像を選択し、前述の音声データに画
像データを付加し、画像付き音声データとする。
【0057】次にこれを実音声変換部1019において
音声データを実音声に変換しスピーカー1007により
実音声化すると共に画像処理部1020により画像処理
し任意の人の声を基にした人に関連した画像をディスプ
レイ上に表示する。
【0058】さらに各テキストの部分で声質の異なる場
合の音声発生の手順を説明していく。ここではCD−R
OMの形で関西地方の標準化された方言辞書、A氏、B
氏の声を基にした音声辞書をユーザーのシステムのハー
ドディスクにインストールした。 A氏の声を基にした
音声素片辞書は1003(1)のA部、韻律辞書は10
04(2)のA部に、 B氏の声を基にした音声素片辞
書は1003(1)B部に、韻律辞書は1004(2)
のB部に格納されている。同様に環境音響情報テーブル
には駅構内の音を、画像情報テーブルにはそれぞれA
氏、B氏の話をしている動画をインストールしておく。
【0059】図11にこの場合の時間的流れと出力した
い音声を示した。ここで時間の流れは左から右であり、
1101は標準語のA氏の声、1102は関西弁のB氏
の声、そして1103はA氏の声質にB氏の語調を選択
した。この指令は図10のシステム制御部1010よ
り、各部へ送られ必用なテキストを解析し1101部分
の合成は音声辞書の音声素片辞書部分の1003(1)
のA部を参照して音韻系列を生成し、音声辞書の韻律部
分の1003(2)のA部を参照して韻律を生成する。
次に1102部分の合成はテキスト解析した結果を方言
辞書1004を参照して単語置き換えを行う。次にこの
結果を基に音声辞書の音声素片辞書部分の103(1)
B部を参照して音韻系列を生成し、標準方言辞書100
4、標準辞書1001の韻律部分および音声辞書の韻律
部分の1004(2)B部を参照して韻律を生成する。
【0060】次に1103の部分の音声合成について説
明する。この部分は標準語でB氏の声質A氏の語調で話
している状態である。この場合にはまず音声辞書の音声
素片辞書部分の1003(1)B部を参照して音韻系列
を生成し、音声辞書の韻律部分の1003(2)A部を
参照して韻律を生成する。そして前述の音韻系列および
韻律からそれぞれ1101、1102、1103の部分
の合成音声データを生成する。
【0061】前述の合成音声のデータに駅構内の音を付
加する。これは図9の環境音響情報テーブルを参照して
駅構内の音を付加し音声発生データとする。
【0062】次にA氏、B氏の画像を付加していく。そ
れぞれ1101はA氏の動画、1102および1103
はB氏動画を付加すればよいから、図10の画像情報テ
ーブル1006を参照して前述の音声発生データに画像
データを付加し画像データ付き音声発生データとする。
【0063】この画像データ付き音声発生データ処理し
音声はスピーカーから、画像はディスプレイに表示す
る。もちろん入力テキストに関連した画像の場合も同様
である。
【0064】次に歌声を発生させる方法について述べ
る。通常歌についての情報は楽譜に記載されている。楽
譜の情報には歌詞、音符、音楽記号が有り、歌詞にはテ
キスト情報、音符には音の高さ(周波数)と長さ、音楽
記号には強弱記号が含まれる。まず前述の楽譜情報から
歌声を合成するための情報を作成する必用がある。
【0065】楽譜をスキャナーあるいは手入力でコンピ
ュータに取り込む。そして歌詞の情報をテキストに変換
する。同様に音符情報、および音楽記号情報から韻律を
作成するための基情報を作成する。
【0066】前述の音楽に対応する楽器の演奏も付加す
ればさらに臨場感が出る。これを実現するために前述の
音楽の楽器演奏を録音し歌声に付加できる形にデジタル
変換しておけばよい。この楽器演奏の情報には歌声と同
期するためにタイミング信号を挿入しておく。
【0067】前述の方法で作成した情報をCD−ROM
に格納しユーザーに供給する。ユーザーはこの情報を自
分のパソコンのハードディスクに格納する。図12にユ
ーザーが歌声音声を発生させるまでのフロチャートをを
示した。まず1201にある歌情報からユーザーの任意
の歌情報テーブルを参照し1211でテキスト解析を行
う。次にこの結果をもとに音声素片辞書1202を参照
してユーザーの任意の声質を選び1212で音韻系列を
作成する。1212では歌情報テーブル1201の韻律
作成のための基情報部分を参照して韻律を作成し、両者
を用いて音声合成データを1214で作成する。つぎに
前述の歌声データに前述の音楽に対応した任意の楽器演
奏情報を1203の楽器演奏情報テーブルを参照して付
加する。
【0068】次に音声発生ソフトおよび各辞書のユーザ
ーへの供給方法および課金の方法についてのシステムを
説明する。前述のシステムにおいてはユーザーのシステ
ムがパソコンの場合を説明したが音声発生ソフトおよび
各辞書が回線に結合されたサーバー上に常駐させ、必用
に応じてユーザーの装置から前記サーバーに接続して前
記音声発生ソフト、各辞書、各情報テーブルを使用する
NC(ネットワークコンピューター)的使用の場合と異
なるため分けて説明する。まずユーザーのシステムがパ
ソコンの場合には、大きく分けて2つの方法があり、1
つはハード媒体で供給する方法であり、もう1つは回線
で供給する方法である。
【0069】前者においてはまず音声発生ソフトおよび
音声辞書、環境音響情報テーブル、画像情報テーブルの
各辞書、各情報テーブルを一切ガードをかけずにCD−
ROMなどの媒体に格納する。そしてこのCD−ROM
媒体をユーザーに売り切りで販売する方法がある。また
この音声発生ソフトおよび各辞書それぞれに異なった暗
証番号でガードが外れるようにしてインストールする。
そしてこの場合CD−ROM媒体を低価格で販売する
か、あるいは無料で配布しユーザーは必用部分のみの代
金を払い、供給者はこの代金の入金を確認したらユーザ
ーに必用部分の暗証番号を発行する。この暗証番号発行
方法は公衆回線を通じてパソコン通信で配布すればよ
い。もちろん郵送、電話で告げるなどの方法でもよい。
ユーザーはこの暗証番号を利用してCD−ROM媒体の
必用部分のガードをはずしユーザーのパソコンシステム
のハードディスクにインストールする。
【0070】公衆電話回線を通じて供給してもよい。音
声発生ソフトおよび各辞書を公衆電話回線に結合したサ
ーバー上に常駐させておく。ユーザーは必用とするソフ
ト、辞書、情報テーブルを前述の回線を通じて入手すれ
ばよい。この場合代金の回収は前述のCD−ROMの場
合と同様に音声発生ソフトおよび各辞書それぞれに異な
った暗証番号でガードをかけておきサーバー上に常駐さ
せておけばよい。そしてユーザーは自由に前記音声発生
ソフト、各辞書、各情報テーブルの必用部分を前記回線
を通じて自分の装置に取り込む。前述のCD−ROMの
場合と同様な方法でガードをはずしユーザーは自分のシ
ステムに必用部分をインストールすればよい。
【0071】ユーザーのシステムに無償あるいは有償で
CD−ROM媒体あるいは公衆電話回線を通じてインス
トールされた音声発生ソフトおよび各辞書の必用部分は
試用期間を設けておき試用期間がすぎたら自動消滅する
ように設定しておいてもよい。
【0072】また他の方法として前記回線に結合された
サーバー上の音声発生ソフトおよび各辞書にそれぞれ独
立に接続のためのゲートを設ける。このゲートを通過す
るためにはそれぞれ暗証番号を入力することが必用であ
る構造とする。ユーザーは必用部分のみの代金を払い、
供給者はこの代金の入金を確認したらユーザーに必用部
分の暗証番号を発行する。ユーザーは前記回線を通じて
サーバーに接続し音声発生ソフトおよび各辞書の必用部
分に前記暗証番号を使い接続する。そして自分のシステ
ムに必用部分をインストールすればよい。
【0073】次にNC(ネットワークコンピュータ)的
使用の場合について説明する。この場合音声発生ソフト
および各辞書は公衆電話回線に結合されたサーバー上に
のみ存在しているわけであるから、音声を発生させるた
めにはユーザーの装置から常に前記回線に結合されたサ
ーバーに接続する必用がある。この場合にはサーバーに
接続するためのゲートを設けておき、供給者はユーザー
の入金を確認したらそのユーザーが前記サーバーに接続
可能な状態にするために前記ゲートを通過できるように
すればよい。また前述のように暗証番号を発行しその暗
証番号によりゲートを通過できる構造でもよい。
【0074】このゲートを通過可能な状態はユーザーの
入金状態により通過不能としてもよい。例えばこのゲー
トの通過可能状態の期限を設定し、その期限が過ぎた場
合通過不能とし、新たに入金があれば再びゲートを通過
可能とすればよい。
【0075】他の方法でもよく供給者はユーザーの使用
量に応じて請求してもよい。例えば各辞書、各情報テー
ブルへのアクセスタイムを記録しておき、このアクセス
タイムに応じてユーザーの銀行口座から必用金額を引き
落とせばよい。
【0076】前述のシステムで作成した音声を録音媒体
に記録し、例えば路線バスの車内の案内放送などに使用
してもよい。この場合任意の音声を選択することが可能
となるのでバスの運行場所、日時などに応じた音声の選
択も可能となる。
【0077】本音声発声システムをパソコン通信のチャ
ットのユーザーが使用すれば今まで無味乾燥であったチ
ャットが自分の任意の声を選べるため非常に臨場感のあ
るものとなる。例えばチャットに参加する人の声を基に
音声辞書を作成しておく。そして自分のシステムに前記
チャットに参加する人の音声辞書をインストールしてお
き、その人の発言の時に本システムを稼働すればチャッ
トに参加している人の声でその発言を聞くことが可能と
なる。本発明の趣旨を逸脱しない範囲で自由に組み合わ
せればよい。
【0078】
【発明の効果】以上説明したように本発明によれば、人
間の声を基にした音声辞書を容易にユーザーに供給する
ことが可能となり、ユーザーのシステムにおいては、ユ
ーザーの任意の音声およびバックグラウンド音響、音声
に合致した画像、そして任意音楽が任意の歌声で選択で
きるため多種多様の音声合成を楽しむことが可能とな
る。。
【図面の簡単な説明】
【図1】実施例の全体のシステムの概要
【図2】ユーザーのシステムの概略フロチャート
【図3】音声辞書の構造
【図4】音声素片の作成のフロチャート
【図5】(a)標準の音声波のアウトライン (b)音声提供者Aの音声波のアウトライン
【図6】(a)標準の音声波の基本周波数の変化 (b)音声提供者Aの音声波の基本周波数の変化
【図7】環境音響の情報
【図8】画像の情報
【図9】方言辞書の構成
【図10】ユーザーのシステムの詳細
【図11】時間と出力したい音声の種類
【図12】歌声発生のフロチャート
【符号の説明】
1 音声提供者 2 音声記録装置 4 CD−ROM 5 サーバー 21 音声素片辞書 22 韻律辞書 23 環境音響情報テーブル 301 音声素片辞書 302 韻律辞書 303 基本周波数部分 304 アクセント部分 305 イントネーション部分 306 時間的特徴 307 音量の特徴 308 方言の特徴 309 ポーズの取り方の特徴 310 感情による発声の特徴 408 音素ラベリングテーブル 410 音声素片辞書 71 環境音響情報テーブル 1001 標準辞書 1003(1) 音声辞書の音声素片部分 1003(2) 音声辞書の韻律部分 1004 標準化方言辞書 1005 環境音響情報テーブル 1006 画像情報テーブル 1010 システム制御部 1011 テキスト解析部 1201 歌情報テーブル 1203 楽器演奏情報テーブル

Claims (41)

    【特許請求の範囲】
  1. 【請求項1】入力テキストを解析するテキスト解析手段
    と解析されたテキスト情報に対して音韻系列を作成する
    音韻系列作成手段と韻律を作成する韻律作成手段と前記
    音韻系列と韻律に基づいて合成音声を作成する合成手段
    を有する音声規則合成により音声を発生させるシステム
    において A:人間の声を基に音声辞書を作成するステップ B:前記音声辞書をハード媒体に格納してユーザーに供
    給すること及びユーザーの装置が接続可能な回線を通じ
    てユーザーに供給することから選ばれた少なくとも1つ
    のユーザーへの音声辞書供給ステップ C:前記音声辞書は前記ハード媒体に格納してユーザー
    に供給され方法及びユーザーの装置が接続可能な回線に
    結合可能なサーバーを通じてユーザーに供給することか
    ら選ばれた少なくとも1つの供給法により供給された前
    記人間の声を基にした音声辞書をユーザーのシステムの
    必要に応じて追加インストールおよび削除するステップ D:前記入力テキストを解析するステップ E:前記ユーザーのシステムにおいてはユーザーが任意
    の音声を選択するため前記音声辞書の中から任意の音声
    辞書を選択するステップ F:前記解析されたテキスト情報に従って前記音声辞書
    の必用部分を使用し音声を合成するための音声信号デー
    タを作成していくステップ G:前記音声信号データを音声の出力に変換するステッ
    プ の各ステップを有することを特徴とする音声発生システ
    ム。
  2. 【請求項2】入力テキストを解析するテキスト解析手段
    と解析されたテキスト情報に対して音韻系列を作成する
    音韻系列作成手段と韻律を作成する韻律作成手段と前記
    音韻系列と韻律に基づいて合成音声を作成する合成手段
    を有する音声規則合成により音声を発生させるシステム
    において A:人間の声を基に音声辞書を作成するステップ B:前記音声辞書をユーザーの装置が接続可能な回線に
    結合されたサーバー上に設置するステップ C:前記テキストを解析するステップ D:ユーザーが任意の音声を選択するために前記サーバ
    ー上の前記音声辞書の中から任意の音声辞書を選択する
    ステップ E:前記解析されたテキスト情報に従って前記音声辞書
    の必用部分を使用し音声を合成するための音声信号デー
    タを作成していくステップ F:前記音声信号データを音声の出力に変換するステッ
    プ の各ステップを有することを特徴とする音声発生システ
    ム。
  3. 【請求項3】ユーザーは必用に応じてそれぞれの前記人
    間の声を基にした音声辞書をユーザーの任意の組み合わ
    せで選べること、前記人間の声を基にした音声辞書から
    選択した音声辞書の各要素の中から必用に応じて前記音
    声の可変可能部分の少なくとも1つをユーザーの任意の
    選択で可変させることを可能とすることを特徴とする特
    許請求範囲第1項記載および第2項記載の音声発生シス
    テム。
  4. 【請求項4】前記システムは入力テキストが予めテキス
    トである情報、デジタル入力装置によって入力されテキ
    ストに変換された情報、OCRによって活字からテキス
    トに変換された情報の少なくとも1つの情報から音声を
    発生させることを特徴とする特許請求範囲第1項記載お
    よび第2項記載の音声発生システム。
  5. 【請求項5】前記システムは入力がキーボード入力、活
    字文字の認識、手書き文字の認識入力から選ばれる少な
    くとも1つの方法の入力法であり、1文字入力の後の音
    声出力、単語確定後の音声出力、文節確定後の音声出
    力、文確定後の音声出力、1文字認識の後音声出力、単
    語認識後の音声出力、文節認識後の音声出力、文認識後
    の音声出力の少なくとも1つをユーザーの必用に応じて
    選択でき、前記1文字入力の後音声出力の場合にはアル
    ファベット、ひらがな、及びカタカナから選ばれる少な
    くとも1つの方法で入力された1つの日本語文字を認識
    した直後に前記認識した文字に対応した音声を合成する
    こと、単語確定後あるいは単語認識後音声出力において
    は、単語確定あるいは単語認識した直後に前記確定ある
    いは認識した単語に対応した音声を合成すること、文節
    確定後あるいは認識後の音声出力においては、文節を確
    定あるいは認識した直後に前記確定あるいは認識した文
    節に対応した音声を合成すること、文確定あるいは認識
    後の音声出力においては、文を確定あるいは認識した後
    に前記確定した文に対応する音声を合成することを特徴
    とする特許請求範囲第1項記載および第2項記載の音声
    発生システム。
  6. 【請求項6】前記人間の声を基にした音声辞書は音声素
    片部分、韻律部分の少なくとも1つからなることを特徴
    とする特許請求範囲第1項記載および第2項記載の音声
    発生システム。
  7. 【請求項7】前記人間の声を基にした音声辞書の前記韻
    律部分は基本周波数、アクセント、イントネーション、
    時間的特徴、音量の特徴、方言的特徴、ポーズの取り方
    の特徴、感情による発声の特徴から選ばれる少なくとも
    1つ以上の独立部分を含んでいることを特徴とする特許
    請求範囲第6項記載の音声発生システム。
  8. 【請求項8】前記人間の声を基にした音声辞書の各部分
    は音声素片、基本周波数、アクセント、イントネーショ
    ン、時間的特徴、音量の特徴、方言的特徴、ポーズの取
    り方の特徴、感情による発声の特徴から選ばれる少なく
    とも1つ以上の独立部分を含んでいることを特徴とする
    特許請求範囲第1項記載および第2項記載の音声発生シ
    ステム。
  9. 【請求項9】前記可変部分は、声の高さ、発声速度、音
    量、から選ばれた少なくとも1つ以上であることを特徴
    とする特許請求範囲第3項記載の音声発生システム。
  10. 【請求項10】前記システムにおいて環境音響をデジタ
    ル情報に変換し前記環境音響をハード媒体に格納してユ
    ーザーに供給される方法及びユーザーの装置が接続可能
    な回線を通じてユーザーに供給することから選ばれた少
    なくとも1つの供給法によりユーザーは必用に応じてバ
    ックグラウンド音響としての環境音響を前記合成音声に
    付加することが可能であることを特徴とする特許請求範
    囲第1項記載の音声発生システム。
  11. 【請求項11】前記システムにおいて環境音響をデジタ
    ル情報に変換しユーザーの装置が接続可能な回線に結合
    されたサーバー上に前記環境音響をデジタル情報に変換
    した環境音響情報テーブルとして置いておき前記環境音
    響のデジタル情報をユーザーは必用に応じて前記サーバ
    ーに接続し前記バックグラウンド音響としての環境音響
    を前記合成音声に付加することが可能であることを特徴
    とする特許請求範囲第2項記載の音声発生システム。
  12. 【請求項12】ユーザーの任意な音楽の歌詞に対応した
    テキストをユーザーの任意の前記音声素片辞書から選ば
    れた音声素片を接続し音韻系列を作成し前記音韻系列に
    前記ユーザーの任意な音楽に対応した韻律情報を与える
    ことにより前記音楽に対応した歌声を合成することを特
    徴とする特許請求範囲第1項記載および特許請求範囲第
    2項記載の音声発生システム。
  13. 【請求項13】前記ユーザーの任意な音楽に対応した歌
    詞および楽譜から作成した音韻系列および韻律作成のた
    めの基情報はハード媒体に格納してユーザーに供給され
    る方法及びユーザーの装置が接続可能な回線を通じてユ
    ーザーに供給することから選ばれた少なくとも1つの供
    給法によりユーザーは必用に応じて前記ユーザーの任意
    な音楽に対応した音韻系列および韻律作成のための基情
    報を使用することが可能であることを特徴とする特許請
    求範囲第12項記載の音声発生システム。
  14. 【請求項14】前記ユーザーの任意な音楽に対応した歌
    詞および楽譜から作成した音韻系列および韻律作成のた
    めの基情報テーブルはユーザーの装置が接続可能な回線
    に結合されたサーバー上に置いておきユーザーは必用に
    応じて前記音楽に対応した前記ユーザーの任意な音楽に
    対応した音韻系列および韻律作成のための基情報を使用
    することが可能であることを特徴とする特許請求範囲第
    12項記載の音声発生システム。
  15. 【請求項15】前記ユーザーの任意の音楽に対応した楽
    器の演奏をデジタル情報に変換し前記合成音声である歌
    声に付加することが可能であることを特徴とする特許請
    求範囲第12項記載の音声発生システム。
  16. 【請求項16】前記ユーザーの任意の音楽に対応した楽
    器の演奏をデジタル情報に変換しハード媒体に格納して
    ユーザーに供給される方法及びユーザーの装置が接続可
    能な回線を通じてユーザーに供給することから選ばれた
    少なくとも1つの供給法によりユーザーは必用に応じて
    前記ユーザーの任意の音楽に対応した楽器の演奏をデジ
    タル情報に変換した情報を前記合成音声である歌声に付
    加することが可能であることを特徴とする特許請求範囲
    第15項記載の音声発生システム。
  17. 【請求項17】前記ユーザーの任意の音楽に対応した楽
    器の演奏をデジタル情報に変換した楽器演奏情報テーブ
    ルをユーザーの装置が接続可能な回線に結合されたサー
    バー上に置いておき前記ユーザーの任意の音楽に対応し
    た楽器の演奏のデジタル情報に変換した情報をユーザー
    は必用に応じて前記サーバーに接続し前記ユーザーの任
    意の音楽に対応した楽器の演奏のデジタル情報に変換し
    た情報を前記合成音声である歌声に付加することが可能
    であることを特徴とする特許請求範囲第15項記載の音
    声発生システム。
  18. 【請求項18】前記人の声の基にした音声辞書の基の人
    に関連した画像および前記入力テキストに関連した画像
    から選ばれた少なくとも1つの画像を音声発生時にディ
    スプレイ上に表示することを特徴とする特許請求範囲第
    1項記載および特許請求範囲第2項記載の音声発生シス
    テム。
  19. 【請求項19】前記人の声を基にした音声辞書の基の人
    に関連した画像および前記入力テキストに関連した画像
    から選ばれた少なくとも1つの画像をデジタル情報に変
    換しハード媒体に格納してユーザーに供給される方法及
    びユーザーの装置が接続可能な回線を通じてユーザーに
    供給することから選ばれた少なくとも1つの供給法によ
    りユーザーは必用に応じて前記画像情報を付加すること
    が可能であることを特徴とする特許請求範囲第18項記
    載の音声発生システム。
  20. 【請求項20】前記人の声を基にした音声辞書の基の人
    に関連した画像および前記入力テキストに関連した画像
    から選ばれた少なくとも1つの画像をデジタル情報に変
    換し画像情報テーブルとしユーザーの装置が接続可能な
    回線に結合されたサーバー上に置いておきユーザーは必
    用に応じて前記サーバーに接続し前記画像情報を付加す
    ることが可能であることを特徴とする特許請求範囲第1
    8項記載の音声発生システム。
  21. 【請求項21】前記システムにおいて各地方毎に標準化
    された方言辞書を有することを特徴とする特許請求範囲
    第1項記載および特許請求範囲第2項記載の音声発生シ
    ステム。
  22. 【請求項22】前記システムにおいて前記方言辞書はテ
    キスト解析部、音声合成部に関する音声辞書から選ばれ
    る少なくとも1つに関連づけられることを特徴とする特
    許請求範囲第21項記載の音声発生システム。
  23. 【請求項23】前記方言辞書をハード媒体に格納してユ
    ーザーに供給される方法及びユーザーの装置が接続可能
    な回線を通じてユーザーに供給することから選ばれた少
    なくとも1つの供給法によりユーザーは必用に応じて前
    記方言辞書を使用することが可能であることを特徴とす
    る特許請求範囲第21項記載の音声発生システム。
  24. 【請求項24】前記方言辞書をユーザーの装置が接続可
    能な回線に結合されたサーバー上に置いておきユーザー
    は必用に応じて前記サーバーに接続し前記方言辞書使用
    することが可能であることを特徴とする特許請求範囲第
    21項記載の音声発生システム。
  25. 【請求項25】前記ハード媒体はフロッピーディスク、
    CD−ROM、MO、PD、DVD、メモリーカードか
    ら選ばれた少なくとも1つの媒体であることを特徴とす
    る特許請求範囲第1項記載、特許請求範囲第10項記
    載、特許請求範囲第13項記載、特許請求範囲第16項
    記載、特許請求範囲第19項記載および特許請求範囲第
    23項記載の音声発生システム。
  26. 【請求項26】前記回線は一般公衆回線及び専用回線か
    ら選ばれた少なくとも1つの回線であることを特徴とす
    る特許請求範囲第1項記載、特許請求範囲第2項記載、
    特許請求範囲第10項記載、特許請求範囲第11項記
    載、特許請求範囲第13項記載、特許請求範囲第14項
    記載、特許請求範囲第16項記載、特許請求範囲第17
    項記載、特許請求範囲第19項記載、特許請求範囲第2
    0項記載、特許請求範囲第23項記載および特許請求範
    囲第24項記載の音声発生システム。
  27. 【請求項27】前記回線は有線回線および無線回線から
    選ばれた少なくとも1つの回線であることを特徴とする
    特許請求範囲第1項記載、特許請求範囲第2項記載、特
    許請求範囲第10項記載、特許請求範囲第11項記載、
    特許請求範囲第13項記載、特許請求範囲第14項記
    載、特許請求範囲第16項記載、特許請求範囲第17項
    記載、特許請求範囲第19項記載、特許請求範囲第20
    項記載、特許請求範囲第23項記載および特許請求範囲
    第24項記載の音声発生システム。
  28. 【請求項28】前記有線回線は電気信号および光信号か
    ら選ばれた少なくとも1つの有線回線であることを特徴
    とする特許請求範囲第27項記載の音声発生システム。
  29. 【請求項29】前記無線回線は電磁波信号及び光信号か
    ら選ばれた少なくとも1つの無線回線であることを特徴
    とする特許請求範囲第27項記載の音声発生システム。
  30. 【請求項30】前記システムにおいてユーザーがテキス
    トの内容に応じて前記テキスト部分、部分で任意の音声
    を選べることを特徴とする特許請求範囲第1項及び第2
    項記載の音声発生システム。
  31. 【請求項31】前記システムに使用される装置はパソコ
    ン、音発生機能付きワープロ、専用装置から選ばれる少
    なくとも1つの装置であることを特徴とする特許請求範
    囲第1項記載の音声発生システム。
  32. 【請求項32】前記システムに使用される装置はパソコ
    ン、音発生機能付きワープロ、専用装置、NC(ネット
    ワークコンピューター)、ゲームマシン、STB(セッ
    ト・トップ・ボックス)から選ばれる少なくとも1つの
    装置であることを特徴とする特許請求範囲第2項記載の
    音声発生システム。
  33. 【請求項33】前記システムにおける少なくとも1人以
    上人の声を基にした前記音声辞書、前記環境音響をデジ
    タル情報に変換した情報、前記ユーザーの任意な音楽に
    対応した音韻系列および韻律作成のための基情報、前記
    ユーザーの任意の音楽に対応した楽器の演奏情報に変換
    した情報、前記画像情報、前記方言辞書から選ばれた少
    なくとも1つのデータを格納した前記ハード媒体は売り
    切りであることを特徴とする特許請求範囲第1項記載、
    特許請求範囲第10項記載、特許請求範囲第13項記
    載、特許請求範囲第16項記載、特許請求範囲第19項
    記載、および特許請求範囲第23項記載の音声発生シス
    テム。
  34. 【請求項34】前記システムにおける前記ハード媒体は
    1人以上の人の声を基にした音声辞書、前記環境音響を
    デジタル情報に変換した情報、前記ユーザーの任意な音
    楽に対応した音韻系列および韻律作成のための基情報、
    前記ユーザーの任意の音楽に対応した楽器の演奏情報、
    前記画像情報、前記方言辞書から選ばれた少なくとも1
    つのデータを格納しガードをかけ、ユーザーに供給しユ
    ーザーの入金を確認後前記ガードを外すことを特徴とす
    る特許請求範囲第1項記載、特許請求範囲第10項記
    載、特許請求範囲第13項記載、特許請求範囲第16項
    記載、特許請求範囲第19項記載、および特許請求範囲
    第23項記載の音声発生システム。
  35. 【請求項35】前記システムにおける前記ハード媒体に
    格納およびユーザーの接続可能な回線に結合されたサー
    バー上に格納から選ばれた少なくとも1つの格納データ
    は複数の人の声を基にした音声辞書、前記環境音響をデ
    ジタル情報に変換した情報、前記ユーザーの任意な音楽
    に対応した音韻系列および韻律作成のための基情報、前
    記ユーザーの任意の音楽に対応した楽器の演奏をデジタ
    ル情報に変換した情報、前記画像情報、前記方言辞書か
    ら選ばれた少なくとも1つのデータであり、それぞれの
    データは独立にガードをかけ、ユーザーの入金を確認後
    それぞれ独立に前記ガードを外すことを特徴とする特許
    請求範囲第1項記載、特許請求範囲第10項記載、特許
    請求範囲第13項記載特許請求範囲第16項記載、特許
    請求範囲第19項記載、および特許請求範囲第23項記
    載の音声発生システム。
  36. 【請求項36】前記システムにおいてユーザーの入金確
    認により前記サーバー及びサーバー上の辞書、情報の必
    用部分から選ばれた少なくとも1つのデータに接続可能
    とすることを特徴とする特許請求範囲第1項記載、特許
    請求範囲第2項記載、特許請求範囲第10項記載、特許
    請求範囲第11項記載、特許請求範囲第13項記載、特
    許請求範囲第14項記載、特許請求範囲第16項記載、
    特許請求範囲第17項記載、特許請求範囲第19項記
    載、特許請求範囲第20項記載、特許請求範囲第23項
    記載および特許請求範囲第24項記載の音声発生システ
    ム。
  37. 【請求項37】前記システムにおいてユーザーの入金に
    より前記サーバーに接続し必要音声辞書部分、情報部分
    をユーザーの装置にコピー可能なことを特徴とする特許
    請求範囲第1項記載、特許請求範囲第2項記載、特許請
    求範囲第10項記載、特許請求範囲第11項記載、特許
    請求範囲第13項記載、特許請求範囲第14項記載、特
    許請求範囲第16項記載、特許請求範囲第17項記載、
    特許請求範囲第19項記載、特許請求範囲第20項記
    載、特許請求範囲第23項記載および特許請求範囲第2
    4項記載の音声発生システム。
  38. 【請求項38】前記システムにおいてユーザーの装置に
    コピーされた前記音声辞書、情報が必要に応じて自動消
    滅することを特徴とする特許請求範囲第1項記載、特許
    請求範囲第10項記載、特許請求範囲第13項記載特許
    請求範囲第16項記載、特許請求範囲第19項記載、お
    よび特許請求範囲第23項記載の音声発生システム。
  39. 【請求項39】前記システムにおいてユーザーが前記サ
    ーバーに接続し前記サーバー上の音声辞書、情報の使用
    量に応じて料金を決定し、前記料金をクレジットカー
    ド、銀行引き落とし、請求書発行による入金から選ばれ
    た少なくとも1つの決済法をとることを特徴とする特許
    請求範囲第1項記載、特許請求範囲第2項記載、特許請
    求範囲第10項記載、特許請求範囲第11項記載、特許
    請求範囲第13項記載、特許請求範囲第14項記載、特
    許請求範囲第16項記載、特許請求範囲第17項記載、
    特許請求範囲第19項記載、特許請求範囲第20項記
    載、特許請求範囲第23項記載および特許請求範囲第2
    4項記載の音声発生システム。
  40. 【請求項40】前記システムによって作成した音声をオ
    ーディオカセット、MD、DCCなどの録音媒体に記録
    することを特徴とする特許請求範囲第1項記載および特
    許請求範囲第2項記載の音声発生システム。
  41. 【請求項41】前記システムにおいてパソコン通信にお
    けるチャットのテキストを音声に変換することを特徴と
    する特許請求範囲第1項記載の音声発生システム。
JP8213255A 1995-10-18 1996-07-25 音声発生システム Pending JPH09171396A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8213255A JPH09171396A (ja) 1995-10-18 1996-07-25 音声発生システム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP29382295 1995-10-18
JP7-293822 1995-10-18
JP8213255A JPH09171396A (ja) 1995-10-18 1996-07-25 音声発生システム

Publications (1)

Publication Number Publication Date
JPH09171396A true JPH09171396A (ja) 1997-06-30

Family

ID=26519689

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8213255A Pending JPH09171396A (ja) 1995-10-18 1996-07-25 音声発生システム

Country Status (1)

Country Link
JP (1) JPH09171396A (ja)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2336974A (en) * 1998-04-28 1999-11-03 Ibm Singlecast interactive radio system
JP2002221980A (ja) * 2001-01-25 2002-08-09 Oki Electric Ind Co Ltd テキスト音声変換装置
JP2002304186A (ja) * 2001-04-05 2002-10-18 Sharp Corp 音声合成装置、音声合成方法および音声合成プログラム
JP2002358092A (ja) * 2001-06-01 2002-12-13 Sony Corp 音声合成システム
JP2003058180A (ja) * 2001-06-08 2003-02-28 Matsushita Electric Ind Co Ltd 合成音販売システムおよび音素の著作権認定システム
JP2003122387A (ja) * 2001-10-11 2003-04-25 Matsushita Electric Ind Co Ltd 読み上げシステム
JP2003140677A (ja) * 2001-11-06 2003-05-16 Matsushita Electric Ind Co Ltd 読み上げシステム
JP2003140672A (ja) * 2001-11-06 2003-05-16 Matsushita Electric Ind Co Ltd 音素ビジネスシステム
KR100403293B1 (ko) * 1999-07-23 2003-10-30 코나미 가부시키가이샤 음성합성방법, 음성합성장치 및 음성합성프로그램을기록한 컴퓨터판독 가능한 매체
KR100467590B1 (ko) * 2002-06-28 2005-01-24 삼성전자주식회사 발음 사전 갱신 장치 및 방법
KR100522889B1 (ko) * 1999-07-21 2005-10-19 코나미 가부시키가이샤 음성합성방법,음성합성장치 및 음성합성 프로그램을 기록한 컴퓨터판독 가능한 매체
US6983249B2 (en) 2000-06-26 2006-01-03 International Business Machines Corporation Systems and methods for voice synthesis
JP2008158029A (ja) * 2006-12-21 2008-07-10 Oki Electric Ind Co Ltd 音声合成用分散データベースシステム
JP2008170947A (ja) * 2007-01-05 2008-07-24 National Taiwan Univ Of Science & Technology 自律型読譜および音楽演奏ロボット、およびその方法
US7421304B2 (en) 2002-01-21 2008-09-02 Kenwood Corporation Audio signal processing device, signal recovering device, audio signal processing method and signal recovering method

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2336974A (en) * 1998-04-28 1999-11-03 Ibm Singlecast interactive radio system
GB2336974B (en) * 1998-04-28 2003-03-05 Ibm Singlecast interactive radio system
KR100522889B1 (ko) * 1999-07-21 2005-10-19 코나미 가부시키가이샤 음성합성방법,음성합성장치 및 음성합성 프로그램을 기록한 컴퓨터판독 가능한 매체
KR100403293B1 (ko) * 1999-07-23 2003-10-30 코나미 가부시키가이샤 음성합성방법, 음성합성장치 및 음성합성프로그램을기록한 컴퓨터판독 가능한 매체
US6983249B2 (en) 2000-06-26 2006-01-03 International Business Machines Corporation Systems and methods for voice synthesis
JP2002221980A (ja) * 2001-01-25 2002-08-09 Oki Electric Ind Co Ltd テキスト音声変換装置
JP2002304186A (ja) * 2001-04-05 2002-10-18 Sharp Corp 音声合成装置、音声合成方法および音声合成プログラム
JP2002358092A (ja) * 2001-06-01 2002-12-13 Sony Corp 音声合成システム
JP2003058180A (ja) * 2001-06-08 2003-02-28 Matsushita Electric Ind Co Ltd 合成音販売システムおよび音素の著作権認定システム
JP2003122387A (ja) * 2001-10-11 2003-04-25 Matsushita Electric Ind Co Ltd 読み上げシステム
JP2003140672A (ja) * 2001-11-06 2003-05-16 Matsushita Electric Ind Co Ltd 音素ビジネスシステム
JP2003140677A (ja) * 2001-11-06 2003-05-16 Matsushita Electric Ind Co Ltd 読み上げシステム
US7421304B2 (en) 2002-01-21 2008-09-02 Kenwood Corporation Audio signal processing device, signal recovering device, audio signal processing method and signal recovering method
KR100467590B1 (ko) * 2002-06-28 2005-01-24 삼성전자주식회사 발음 사전 갱신 장치 및 방법
JP2008158029A (ja) * 2006-12-21 2008-07-10 Oki Electric Ind Co Ltd 音声合成用分散データベースシステム
JP2008170947A (ja) * 2007-01-05 2008-07-24 National Taiwan Univ Of Science & Technology 自律型読譜および音楽演奏ロボット、およびその方法

Similar Documents

Publication Publication Date Title
EP0831460B1 (en) Speech synthesis method utilizing auxiliary information
KR101274961B1 (ko) 클라이언트단말기를 이용한 음악 컨텐츠 제작시스템
US5774854A (en) Text to speech system
Eide et al. A corpus-based approach to< ahem/> expressive speech synthesis
KR100811568B1 (ko) 대화형 음성 응답 시스템들에 의해 스피치 이해를 방지하기 위한 방법 및 장치
US6463412B1 (en) High performance voice transformation apparatus and method
JP4884212B2 (ja) 音声合成装置
CN101156196A (zh) 混合语音合成器、方法和使用
JPH09171396A (ja) 音声発生システム
Malcangi Text-driven avatars based on artificial neural networks and fuzzy logic
JPH1138989A (ja) 音声合成装置及び方法
Macon et al. Concatenation-based midi-to-singing voice synthesis
JPH11143483A (ja) 音声発生システム
JP2003271194A (ja) 音声対話装置及びその制御方法
Hsu Synthesizing personalized non-speech vocalization from discrete speech representations
JP2005215888A (ja) テキスト文の表示装置
JP2020003762A (ja) 簡易操作声質変換システム
JPH08335096A (ja) テキスト音声合成装置
Aso et al. Speakbysinging: Converting singing voices to speaking voices while retaining voice timbre
JPH0950286A (ja) 音声合成装置及びこれに使用する記録媒体
Henton Challenges and rewards in using parametric or concatenative speech synthesis
Gahlawat et al. Integrating human emotions with spatial speech using optimized selection of acoustic phonetic units
JP4244661B2 (ja) 音声データ提供システムならびに音声データ作成装置および音声データ作成プログラム
Lopez-Gonzalo et al. Automatic prosodic modeling for speaker and task adaptation in text-to-speech
JPH05224689A (ja) 音声合成装置