JPH11143483A - 音声発生システム - Google Patents

音声発生システム

Info

Publication number
JPH11143483A
JPH11143483A JP10236622A JP23662298A JPH11143483A JP H11143483 A JPH11143483 A JP H11143483A JP 10236622 A JP10236622 A JP 10236622A JP 23662298 A JP23662298 A JP 23662298A JP H11143483 A JPH11143483 A JP H11143483A
Authority
JP
Japan
Prior art keywords
speech
voice
dictionary
user
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10236622A
Other languages
English (en)
Inventor
Hiroshi Kurita
洋 栗田
Keiichi Kato
圭一 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP10236622A priority Critical patent/JPH11143483A/ja
Publication of JPH11143483A publication Critical patent/JPH11143483A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 パソコン、ワープロ、ゲーム機、専用機、N
C(ネットワークコンピューター)、STB(セット・
トップ・ボックス)などを利用する際の合成音声の発生
に係わり、特にユーザーが任意でかつ多様な合成音声を
選ぶことが可能な手段を実現するシステム。 【構成】 人の音声を入力しその音声認識を行い、この
認識した結果を解析し音韻系列作成のための音韻記号列
情報をおよび韻律情報を抽出し、そして特定の人の音声
から作成した音声辞書(音声素片辞書)を準備してお
き、前述の抽出した音韻記号列に基づいて音声素片を接
続補間し音韻系列を作成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明はパソコン、ワープロ、ゲ
ーム機、専用機、NC(ネットワークコンピュータ
ー)、STB(セット・トップ・ボックス)などを利用
する際の合成音声の発生に係わり、特にユーザーが任意
でかつ多様な合成音声を選ぶことが可能な手段を実現す
るシステムに関する。
【0002】
【従来の技術】従来の音声合成に関しては、多種多様の
装置及び方法が提案されておりまた構内放送、ゲーム、
情報サービス等の様々な分野で応用されている。音声は
言語として意味をなす最小単位である音素から構成され
ている。この音素は波形として表現処理される。その波
形の一部あるいは全部が音声の合成に使用される音声素
片となる。この音声素片を合成単位として任意の音声を
作る合成方式では、各音声素片を結合、補間することに
よって合成音声を発生させている。
【0003】自然な言語を実現するために各音声素片の
接合の工夫も種々の工夫が提案されており人が実際に発
声するように自然な発声が実現されている。また文書の
意味を解析しその結果を基にして、重要な部分を強調す
るためにその部分の語調を強めたりする音声合成方法な
ど各種の方法が提案されている。実際の商品としてはド
キュメントトーカー、TTSなどの商品などがありテキ
ストファイルを読み上げる音声合成の商品として実際商
品化されておりパソコン上で音声合成を実現してる。そ
してそのほとんどの音声合成はテキストを入力しそのテ
キストを解析しその解析結果をもとに音声合成を行って
いる。
【0004】現行カラオケなどで男性の声を女性の声
に、或いは女性の声を男性の声に変えるといったボイス
チェンジャーなどの商品もある。こういった商品は主に
周波数変換を行っているため任意の声質の声に変換する
といったことはできていなかった。
【0005】
【発明が解決しようとする課題】従来の音声合成では音
声合成を行うためにはまずテキストを用意する必要があ
った。いちいちテキストを用意することなく人の喋る言
葉を基に元の人の声質と異なる音声を合成することがの
ぞまれていた。また人の言葉を情報化したものから任意
の声質の音声を得ることも興味ぶかい。そして人が聞い
て違和感のない自然な音声はいつも聞いている人の声を
ベースにしたものの方が自然なはずである。またいつも
同質の声ではメリハリがつかないため、或いは状況など
によって聞きたい声質は異なるため、色々な人の声をベ
ースにした音声を状況によって使い分け種々な音声を発
声させることも上記と同様に興味深い。例えばある人の
声をマイクで拾いその声を他の人の声に変換するといっ
たことが望まれていた。
【0005】人にはそれぞれ声質、基本周波数、アクセ
ント、イントネーション、ポーズの取り方、言葉の一部
を伸ばしたりする時間的特徴、固有の方言の特徴、感情
により音の高低、音量の変化などの特徴が異なる。こう
いった人により異なる特徴的要素を加えることが可能と
なればより臨場感のある音声発声がユーザーの状況に合
わせ自由に選べるはずである。
【0006】各地方の方言による音声合成を任意の人の
声をベースにしたもの聞きたいなどということも望まれ
ていた。また任意の合成音声を雰囲気或いは状況に応じ
た任意のバックグラウンド音響の中で聞くということも
望まれていた。同様に任意の声質で歌を歌わせることも
望まれている。前記ユーザーが任意に選択した声質に関
連した画像をディスプレイ上に表示することにより更に
臨場感を増すことが可能となる。
【0007】
【課題を解決するための手段】前記目的を達成するため
に、本発明においては次に示す方法をとる。人の音声を
入力しその音声を音声認識を行いこの認識した結果を解
析し音韻系列作成のための音韻記号列情報をおよび韻律
情報を抽出する。但しこの韻律情報は必要のない場合は
抽出しなくてもよい。
【0008】そして特定の人の音声から作成した音声辞
書(音声素片辞書)を準備しておき、前述の抽出した音
韻記号列に基づいて音声素片を接続補間し音韻系列を作
成する。韻律情報を抽出してある場合には音声素片を接
続補間した音韻系列にこの韻律情報を付与することによ
って音声合成をすればよい。
【0009】人の音声を入力しこの音声を認識しこの認
識した結果を解析し前記解析した結果に基づいて入力さ
れた音声と声質が異なる音声を発生させる場合において
は A:人間の声を基に音声辞書(音声素片辞書)を作成す
るステップ B:前記音声辞書をハード媒体に格納してユーザーに供
給すること及びユーザーの装置が接続可能な回線を通じ
てユーザーに供給することから選ばれた少なくとも1つ
のユーザーへの音声辞書供給ステップ C:前記ユーザーに供給された前記人間の声を基にした
音声辞書をユーザーのシステムに必要に応じて追加イン
ストールおよび削除するステップ D:前記入力された音声を認識するステップ E:前記認識した音声を解析しテキスト情報を抽出する
ステップ。 F:前記ユーザーのシステムにおいてはユーザーが任意
の音声を選択するため前記音声辞書の中から任意の音声
辞書を選択するステップ 0G:前記テキスト情報に基づいて前記音声辞書(音声
素片辞書)の音声素片の必要部分を接合し補間し音韻系
列を作成するステップ H:前記音韻系列を音声の出力に変換するステップ の各ステップを実行することにより達成できる。
【0010】人の音声を入力しこの音声を認識し認識し
た結果を解析し解析した結果に基づいて入力された音声
と声質が異なる音声を発生させる場合においては A:人間の声を基に音声辞書(音声素片辞書)を作成す
るステップ B:前記音声辞書をハード媒体に格納してユーザーに供
給すること及びユーザーの装置が接続可能な回線を通じ
てユーザーに供給することから選ばれた少なくとも1つ
のユーザーへの音声辞書供給ステップ C:前記ユーザーに供給された前記人間の声を基にした
音声辞書をユーザーのシステムに必要に応じて追加イン
ストールおよび削除するステップ D:前記入力された音声を認識するステップ E:前記認識した音声を解析し音韻系列作成のための音
韻記号列情報を抽出するステップ F:前記ユーザーのシステムにおいてはユーザーが任意
の音声を選択するため前記音声辞書の中から任意の音声
辞書を選択するステップ G:前記音韻系列作成情報に基づいて前記音声辞書(音
声素片辞書)の音声素片の必要部分を接合し補間し音韻
系列を作成するステップ H:前記音韻系列を音声の出力に変換するステップ の各ステップを実行することにより達成できる。
【0011】ユーザーに音声合成の元となる音韻系列作
成作成のための音韻記号列情報を供給し前記音韻記号列
に基づいて音声を発生させる場合においてはにおいて A:人間の声を基に音声辞書(音声素片辞書)を作成す
るステップ B:前記音声辞書をハード媒体に格納してユーザーに供
給すること及びユーザーの装置が接続可能な回線を通じ
てユーザーに供給することから選ばれた少なくとも1つ
のユーザーへの音声辞書供給ステップ C:前記ユーザーに供給された前記人間の声を基にした
音声辞書をユーザーのシステムに必要に応じて追加イン
ストールおよび削除するステップ D:前記ユーザーのシステムにおいてはユーザーが任意
の音声を選択するため前記音声辞書の中から任意の音声
辞書を選択するステップ E:前記音韻系列作成するための音韻記号列情報に基づ
いて前記音声辞書(音声素片辞書)の音声素片の必要部
分を接合し補間し音韻系列を作成するステップ F:前記音韻系列を音声の出力に変換するステップ の各ステップを実行することにより達成できる。
【0012】人の音声を入力し前記音声を認識し前記認
識さた結果を解析し前記解析した結果に基づいて入力さ
れた音声と声質が異なる音声を発生させる場合において A:特定の人間の声を基に音声辞書(音声素片辞書)を
作成するステップ B:前記音声辞書をユーザーの装置が接続可能な回線に
結合されたサーバー上に設置するステップ C:ユーザーが任意の音声を選択するために前記サーバ
ー上の前記音声辞書の中から任意の音声辞書を選択する
ステップ D:前記入力された音声を認識するステップ E:前記認識した音声を解析しテキスト情報を抽出する
ステップ F:前記テキスト情報に基づいて前記音声辞書(音声素
片辞書)の音声素片の必要部分を接合し補間し音韻系列
を作成するステップ G:前記音韻系列を音声の出力に変換するステップ の各ステップを実行することにより達成できる。
【0013】人の音声を入力し前記音声を認識し前記認
識さた結果を解析し前記解析した結果に基づいて入力さ
れた音声と声質が異なる音声を発生させる場合において
は A:特定の人間の声を基に音声辞書(音声素片辞書)を
作成するステップ B:前記音声辞書をユーザーの装置が接続可能な回線に
結合されたサーバー上に設置するステップ C:ユーザーが任意の音声を選択するために前記サーバ
ー上の前記音声辞書の中から任意の音声辞書を選択する
ステップ D:前記入力された音声を認識するステップ E:前記認識した音声を解析し音韻系列作成のための音
韻記号列情報を抽出するステップ F:前記音韻系列作成情報に基づいて前記音声辞書(音
声素片辞書)の音声素片の必要部分を接合し補間し音韻
系列を作成するステップ :前記音韻系列を音声の出力に変換するステップ の各ステップを実行することにより達成できる。
【0014】ユーザーに音声合成の元となる音韻系列作
成のための音韻記号列情報を供給し前記音韻記号列情報
に基づいて音声を発生させるシステムにおいて A:特定の人間の声を基に音声辞書(音声素片辞書)を
作成するステップ B:前記音声辞書をユーザーの装置が接続可能な回線に
結合されたサーバー上に設置するステップ C:ユーザーが任意の音声を選択するために前記サーバ
ー上の前記音声辞書の中から任意の音声辞書を選択する
ステップ D:前記音韻記号列情報に基づいて前記音声辞書(音声
素片辞書)の音声素片の必要部分を接合し補完し音韻系
列を作成するステップ E:前記音韻系列を音声の出力に変換するステップ の各ステップを実行することにより達成できる。
【0015】人の音声を入力し前記音声を認識し前記認
識した結果を解析し前記解析した結果に基づいて入力さ
れた音声と声質が異なる音声を発生させる場合ににおい
ては A:人間の声を基に音声辞書を作成するステップ B:前記音声辞書をハード媒体に格納してユーザーに供
給すること及びユーザーの装置が接続可能な回線を通じ
てユーザーに供給することから選ばれた少なくとも1つ
のユーザーへの音声辞書供給ステップ C:前記ユーザーに供給された前記人間の声を基にした
音声辞書をユーザーのシステムに必要に応じて追加イン
ストールおよび削除するステップ D:前記入力された音声を認識するステップ E:前記認識した音声を解析しテキスト情報と、韻律情
報を抽出するステップ。 F:前記ユーザーのシステムにおいてはユーザーが任意
の音声を選択するため前記音声辞書の中から任意の音声
辞書を選択するステップ G:前記テキスト情報に基づいて前記音声辞書の音声素
片辞書の音声素片の必要部分を接合し補間し音韻系列を
作成するステップ H:前記音声素片辞書の音声素片必要部分を接合した音
韻系列に前記韻律情報を付加し音声合成のための音声信
号を作成するステップ I:前記音声信号を音声の出力に変換するステップ の各ステップを実行することにより達成できる。
【0016】人の音声を入力し前記音声を認識し前記認
識した結果を解析し前記解析した結果に基づいて入力さ
れた音声と声質が異なる音声を発生させる場合において
は A:人間の声を基に音声辞書を作成するステップ B:前記音声辞書をハード媒体に格納してユーザーに供
給すること及びユーザーの装置が接続可能な回線を通じ
てユーザーに供給することから選ばれた少なくとも1つ
のユーザーへの音声辞書供給ステップ C:前記ユーザーに供給された前記人間の声を基にした
音声辞書をユーザーのシステムに必要に応じて追加イン
ストールおよび削除するステップ D:前記入力された音声を認識するステップ E:前記認識した音声を解析し音韻系列作成のための音
韻記号列情報と、韻律情報を抽出するステップ F:前記ユーザーのシステムにおいてはユーザーが任意
の音声を選択するため前記音声辞書の中から任意の音声
辞書を選択するステップ G:前記音韻系列作成情報に基づいて前記音声辞書の音
声素片辞書の音声素片必要部分を接合し補間し音韻系列
を作成するステップ H:前記音声素片辞書の音声素片必要部分を接合した音
韻系列に前記韻律情報を付加し音声合成のための音声信
号を作成するステップ I:前記音声信号を音声の出力に変換するステップ の各ステップを有することを特徴とする音声発生システ
ム。
【0017】ユーザーに音声合成の元となる音韻系列作
成のための音韻記号列情報及び韻律情報を供給し前記音
韻記号列情報及び韻律情報に基づいて音声を発生させる
場合においては A:人間の声を基に音声辞書を作成するステップ B:前記音声辞書をハード媒体に格納してユーザーに供
給すること及びユーザーの装置が接続可能な回線を通じ
てユーザーに供給することから選ばれた少なくとも1つ
のユーザーへの音声辞書供給ステップ C:前記ユーザーに供給された前記人間の声を基にした
音声辞書をユーザーのシステムに必要に応じて追加イン
ストールおよび削除するステップ D:前記ユーザーのシステムにおいてはユーザーが任意
の音声を選択するため前記音声辞書の中から任意の音声
辞書を選択するステップ E:前記音韻記号列情報に基づいて前記音声辞書の音声
素片辞書の音声素片の必要部分を接合し補間し音韻系列
を作成するステップ F:前記音声素片辞書の音声素片の必要部分を接合した
音韻系列に前記韻律情報を付加し音声合成のための音声
信号を作成するステップ G:前記音声信号データを音声の出力に変換するステッ
プ の各ステップを実行することにより達成できる。
【0018】ユーザーに音声合成の元となる音韻系列作
成のための音韻記号列情報を供給し前記音韻記号列情報
に基づいて音声を発生させる場合においては A:特定の人間の声を基に音声素片および韻律情報から
なる音声辞書を作成するステップ B:前記音声辞書をハード媒体に格納してユーザーに供
給すること及びユーザーの装置が接続可能な回線を通じ
てユーザーに供給することから選ばれた少なくとも1つ
のユーザーへの音声辞書供給ステップ C:前記ユーザーに供給された前記人間の声を基にした
音声辞書をユーザーのシステムに必要に応じて追加イン
ストールおよび削除するステップ D:前記ユーザーのシステムにおいてはユーザーが任意
の音声を選択するため前記音声辞書の中から任意の音声
辞書を選択するステップ E:前記音韻記号列情報に基づいて前記音声辞書の音声
素片辞書の音声素片の必要部分を接合し補間し音韻系列
を作成するステップ F:前記音声素片辞書の音声素片の必要部分を接合した
音韻系列に前記音声辞書の前記韻律情報を付加し音声合
成のための音声信号を作成するステップ G:前記音声信号データを音声の出力に変換するステッ
プ の各ステップを有することを特徴とする音声発生システ
ム。
【0019】ユーザーに音声合成の元となる音韻系列作
成のための音韻記号列情報及び韻律情報を供給し前記音
韻記号情報及び韻律情報に基づいて音声を発生させる場
合においては A:特定の人間の声を基に音声素片および韻律情報から
なる音声辞書を作成するステップ B:前記音声辞書をハード媒体に格納してユーザーに供
給すること及びユーザーの装置が接続可能な回線を通じ
てユーザーに供給することから選ばれた少なくとも1つ
のユーザーへの音声辞書供給ステップ C:前記ユーザーに供給された前記人間の声を基にした
音声辞書をユーザーのシステムに必要に応じて追加イン
ストールおよび削除するステップ D:前記ユーザーのシステムにおいてはユーザーが任意
の音声を選択するため前記音声辞書の中から任意の音声
辞書を選択するステップ E:前記音韻記号列成情報に基づいて前記音声辞書の音
声素片辞書の音声素片の必要部分を接合し補間し音韻系
列を作成するステップ F:前記音声辞書の韻律情報部をもちいて前記音韻系列
の任意の部分の韻律を任意の韻律にするために前記音韻
系列のそれぞれの部分に対応する韻律を作成するステッ
プ G:前記音声素片辞書の音声素片の必要部分を接合した
音韻系列に前記韻律情報を付加し音声合成のための音声
信号を作成するステップ H:前記音声信号データを音声の出力に変換するステッ
プ の各ステップを実行することにより達成できる。
【0020】人の音声を入力し前記音声を認識し前記認
識さた結果を解析し前記解析した結果に基づいて入力さ
れた音声と声質が異なる音声を発生させる場合において
は A:特定の人間の声を基に音声辞書を作成するステップ B:前記音声辞書をユーザーの装置が接続可能な回線に
結合されたサーバー上に設置するステップ C:ユーザーが任意の音声を選択するために前記サーバ
ー上の前記音声辞書の中から任意の音声辞書を選択する
ステップ D:前記入力された音声を認識するステップ E:前記認識した音声を解析しテキスト情報と、韻律情
報を抽出するステップ F:前記テキスト情報に基づいて前記音声辞書の音声素
片辞書の音声素片の必要部分を接合し補間し音韻系列を
作成するステップ G:前記音声素片辞書の音声素片の必要部分を接合した
音韻系列に前記韻律情報を付加し音声合成のための音声
信号を作成するステップ H:前記音声信号データを音声の出力に変換するステッ
プ の各ステップを実行することにより達成できる。
【0021】人の音声を入力し前記音声を認識し前記認
識さた結果を解析し前記解析した結果に基づいて入力さ
れた音声と声質が異なる音声を発生させる場合において
は A:特定の人間の声を基に音声辞書を作成するステップ B:前記音声辞書をユーザーの装置が接続可能な回線に
結合されたサーバー上に設置するステップ C:ユーザーが任意の音声を選択するために前記サーバ
ー上の前記音声辞書の中から任意の音声辞書を選択する
ステップ D:前記入力された音声を認識するステップ E:前記認識した音声を解析し音韻系列作成のための音
韻記号列情報と、韻律情報を抽出するステップ F:前記音韻記号列情報に基づいて前記音声辞書の音声
素片辞書の音声素片の必要部分を接合し補間し音韻系列
を作成するステップ G:前記音声素片辞書の音声素片の必要部分を接合した
音韻系列に前記韻律情報を付加し音声合成のための音声
信号を作成するステップ H:前記音声信号データを音声の出力に変換するステッ
プ の各ステップを有することを特徴とする音声発生システ
ム。
【0022】ユーザーに音声合成の元となる音韻系列作
成のための音韻記号列情報及び韻律情報を供給し前記音
韻記号列情報及び韻律情報に基づいて音声を発生させる
場合においては A:特定の人間の声を基に音声辞書を作成するステップ B:前記音声辞書をユーザーの装置が接続可能な回線に
結合されたサーバー上に設置するステップ C:ユーザーが任意の音声を選択するために前記サーバ
ー上の前記音声辞書の中から任意の音声辞書を選択する
ステップ E:前記音韻記号列系列情報に基づいて前記音声辞書の
音声素片辞書の音声素片の必要部分を接合し補間し音韻
系列を作成するステップ F:前記音声素片辞書の音声素片の必要部分を接合した
音韻系列に前記韻律情報を付加し音声合成のための音声
信号を作成するステップ G:前記音声信号データを音声の出力に変換するステッ
プ の各ステップを実行することにより達成できる。
【0023】ユーザーに音声合成の元となる音韻系列作
成のための音韻記号列情報を供給し前記音韻記号列情報
に基づいて音声を発生させる場合において A:特定の人間の声を基に音声素片及び韻律情報からな
る音声辞書を作成するステップ B:前記音声辞書をユーザーの装置が接続可能な回線に
結合されたサーバー上に設置するステップ。 C:ユーザーが任意の音声を選択するために前記サーバ
ー上の前記音声辞書の中から任意の音声辞書を選択する
ステップ E:前記音韻記号列情報に基づいて前記音声辞書の音声
素片辞書の音声素片の必要部分を接合し補間し音韻系列
を作成するステップ F:前記音声素片辞書の音声素片の必要部分を接合した
音韻系列に前記音声辞書の前記韻律情報を付加し音声合
成のための音声信号を作成するステップ。 G:前記音声信号データを音声の出力に変換するステッ
プ の各ステップを実行することにより達成できる。
【0024】ユーザーに音声合成の元となる音韻系列作
成のための音韻記号列情報及び韻律情報を供給し前記音
韻記号列情報及び韻律情報に基づいて音声を発生させる
場合においては A:特定の人間の声を基に音声辞書を作成するステップ B:前記音声辞書をユーザーの装置が接続可能な回線に
結合されたサーバー上に設置するステップ C:ユーザーが任意の音声を選択するために前記サーバ
ー上の前記音声辞書の中から任意の音声辞書を選択する
ステップ D:前記音韻記号列情報に基づいて前記音声辞書の音声
素片辞書の音声素片の必要部分を接合し補間し音韻系列
を作成するステップ E:前記音声辞書の韻律情報部をもちいて前記音韻系列
の任意の部分の韻律を任意の韻律にするために前記音韻
系列のそれぞれの部分に対応する韻律を作成するステッ
プ。 F:前記音声素片辞書の音声素片の必要部分を接合した
音韻系列に前記韻律情報を付加し音声合成のための音声
信号を作成するステップ G:前記音声信号データを音声の出力に変換するステッ
プ の各ステップを実行することにより達成できる。
【0025】そして音声合成する場合には人間の声を基
にした音声辞書は必要に応じて音声素片部分、そして基
にした人間の声の韻律を使用する場合には韻律部分から
構成させればよい。音声素片部分でその人声の質を実現
できまた韻律分でその人のしゃべり方の語調等を実現で
きる。
【0026】基にした人間の声の主の韻律情報を使用す
る場合には音声辞書の前記韻律部分は必要に応じて基本
周波数、アクセント、イントネーション、時間的特徴、
音量の特徴、方言的特徴、ポーズの取り方の特徴、感情
による発声の特徴から選ばれる少なくとも1つ以上の独
立部分を含んでいる構成とすればよい。
【0027】或いは人間の声を基にした音声辞書の各部
分は音声素片、基本周波数、アクセント、イントネーシ
ョン、時間的特徴、音量の特徴、方言的特徴、ポーズの
取り方の特徴、感情による発声の特徴から選ばれる少な
くとも1つ以上の独立部分から構成してもよい。
【0028】ユーザーは必用に応じてそれぞれの前述の
複数の人間の声を基にした音声辞書をユーザーの任意の
組み合わせで選べること、その人間の声を基にした音声
辞書から選択した音声辞書の韻律情報各要素の中から必
用に応じてその音声において声の高さ、発声速度、音量
を可変可能としこの可変可能部分の3つのうち少なくと
も1つをユーザーの任意の選択で可変させればよりユー
ザーの選択肢が広がり感情等の表現をより強調すること
ができる。
【0029】ユーザーのシステムにおいて各種情報を自
分のシステムのハードディスク等にインストール可能な
場合にはこのシステムで合成音声のバックグラウンド音
響となる環境音響をデジタル情報に変換しこの環境音響
デジタル情報をハード媒体に格納してユーザーに供給さ
れる方法及びユーザーの装置が接続可能な回線を通じて
ユーザーに供給することから選ばれた少なくとも1つの
供給法によりユーザーは必用に応じてバックグラウンド
音響としての環境音響を自分のシステムに導入できるよ
うにして前述の合成音声にこの環境音響を付加してもよ
い。
【0030】或いはユーザーのシステムが接続可能なサ
ーバー上において各種情報がセット可能な場合には合成
音声のバックグラウンド音響となる環境音響をデジタル
情報に変換しユーザーの装置が接続可能な回線に結合さ
れたサーバー上にこの環境音響をデジタル情報に変換し
た環境音響情報テーブルとして置いておきこの環境音響
のデジタル情報をユーザーは必用に応じて前記サーバー
に接続し前記バックグラウンド音響としての環境音響を
前記合成音声に付加してもよい。
【0031】前述の人の声を基にした音声辞書の基の人
に関連した画像或いは前述の入力に関連した画像などの
画像を音声発生時にディスプレイ上に表示しても効果的
である。
【0032】その方法はユーザーのシステムにおいて各
種情報を自分のシステムのハードディスク等にインスト
ール可能な場合には前述の人の声を基にした音声辞書の
基の人に関連した画像或いは前述の入力に関連した画像
などの画像をデジタル情報に変換しハード媒体に格納し
てユーザーに供給される方法及びユーザーの装置が接続
可能な回線を通じてユーザーに供給することから選ばれ
た少なくとも1つの供給法によりユーザーは必用に応じ
て前述の画像情報を付加してもよい。
【0033】ユーザーのシステムが接続可能なサーバー
上において各種情報がセット可能な場合には前述の人の
声を基にした音声辞書の基の人に関連した画像或いは前
述の入力に関連した画像などの画像をデジタル情報に変
換し画像情報テーブルとしユーザーの装置が接続可能な
回線に結合されたサーバー上に置いておきユーザーは必
用に応じて前記サーバーに接続し前述の画像情報を付加
してもよい。
【0034】またこのシステムにおいて各地方毎に標準
化された方言辞書部分を設けこの方言辞書はひつよに応
じて解析部、音声合成部に関する音声辞書から選ばれる
少なくとも1つに関連づけるようにしてもよい。
【0035】ユーザーのシステムにおいて各種情報を自
分のシステムのハードディスク等にインストール可能な
場合にはこの方言辞書をハード媒体に格納してユーザー
に供給される方法及びユーザーの装置が接続可能な回線
を通じてユーザーに供給することから選ばれた少なくと
も1つの供給法によりユーザーは必用に応じてこの方言
辞書を使用できるシステムとすればよい。
【0036】或いはユーザーのシステムが接続可能なサ
ーバー上において各種情報がセット可能な場合にはこの
方言辞書をユーザーの装置が接続可能な回線に結合され
たサーバー上に置いておきユーザーは必用に応じて前述
のサーバーに接続しこの方言辞書使用できるようにして
もよい。
【0037】前述のハード媒体はフロッピーディスク、
CD−ROM、MO、PD、DVD、メモリーカードな
どから最も適当なものを選べばよい。
【0038】前述の回線は一般公衆回線或いは専用回線
であり、この回線は有線回線或いは無線回線でこの有線
回線は電気信号または光信号であればばよい。そして前
述の無線回線は電磁波信号及び光信号から選ばれた少な
くとも1つの無線回線であるればよい。
【0039】このシステムにおいてユーザーが内容に応
じてそれぞれの部分、部分で任意の音声(音声素片辞
書、韻律情報等から選択)を選べるようにすれば、すな
わち一連の話の流れのそれぞれの部分(合成される音声
の部分、部分)で声質、韻律の異なった多用な合成音声
を得ることが可能となる。
【0040】そしてユーザーのシステムにおいて各音声
辞書、各種情報を自分のシステムのハードディスク等に
インストール可能な場合にはこのシステムに使用される
装置はパソコン、音発生機能付きワープロ、専用装置な
どから目的に応じて一番適当なものを選べばよい。
【0041】サーバー上に各音声辞書、各情報を設置し
ている場合にはシステムに使用される装置はパソコン、
音発生機能付きワープロ、専用装置、NC(ネットワー
クコンピューター)、ゲームマシン、STB(セット・
トップ・ボックス)から目的に応じて一番適当なものを
選べばよい。
【0042】前記システムにおける少なくとも1人以上
人の声を基にした前記音声辞書、前記環境音響をデジタ
ル情報に変換した情報、前記画像情報、前記方言辞書か
ら選ばれた少なくとも1つのデータを格納したこれらの
CD−ROMなどのハード媒体は売り切りとすればよ
い。
【0043】このシステムにおける前述のハード媒体は
1人以上の人の声を基にした音声辞書、前記環境音響を
デジタル情報に変換した情報、前記画像情報、前記方言
辞書から選ばれた少なくとも1つのデータを格納しガー
ドをかけ、ユーザーに供給しユーザーの入金を確認後前
記ガードを外すシステムとしてもよい。
【0044】或いはシステムにおいて前述のハード媒体
に格納およびユーザーの接続可能な回線に結合されたサ
ーバー上に格納から選ばれた少なくとも1つの格納デー
タは複数の人の声を基にした音声辞書、前記環境音響を
デジタル情報に変換した情報、前記画像情報、前記方言
辞書から選ばれた少なくとも1つのデータであり、それ
ぞれのデータは独立にガードをかけ、ユーザーの入金を
確認後それぞれ独立に前記ガードをはずすようにしても
よい。
【0045】前述のシステムにおいてユーザーのシステ
ムが接続可能なサーバー上において各音声辞書、各種情
報がセット可能な場合にはユーザーの入金確認により前
記サーバー及びサーバー上の辞書、情報の必用部分から
選ばれた少なくとも1つのデータにユーザーのIDなど
を利用して接続可能とするシステムとしてもよい。
【0047】或いはユーザーのシステムにおいて各音声
辞書、各種情報を自分のシステムのハードディスク等に
インストール可能な場合にはこのシステムにおいてユー
ザーの入金により前記サーバーに接続し必要音声辞書部
分、情報部分をユーザーの装置にコピー可能としてもよ
い。そして前述システムにおいてユーザーの装置にコピ
ーされた前記音声辞書、情報が必要に応じて自動消滅す
るようにしてもよい。
【0048】前述のシステムにおいてユーザーのシステ
ムが接続可能なサーバー上において各音声辞書、各種情
報がセット可能な場合にはユーザーが前記サーバーに接
続し前記サーバー上の音声辞書、情報の使用量に応じて
料金を決定し、前記料金をクレジットカード、銀行引き
落とし、請求書発行による入金から選ばれた少なくとも
1つの決済法をとってもよい。
【0049】
【作 用】前述のシステムによれば人の声をベースにし
た各特徴を独立に有する音声辞書および各情報を使っ
て、各ユーザーが、雰囲気、状況などに合わせて、人の
喋る言葉を基に元の人の声質と異なる音声を合成するこ
とが可能となる。各地方の方言、または人により異なる
方言的特徴なども加味した任意の音声で実現できる。
【0050】また各音声辞書と同様にバックグラウンド
音響もユーザーに容易に供給できるのでユーザーの任意
のバックグラウンド音響で任意の音声を聞くことが可能
となる。任意の声質の基の人に関連した画像をディスプ
レイ上に表示することができるのでより臨場感が出る。
この合成音声を録音媒体に記録することにより携帯用の
オーディオカセットテープにより繰り返して再生させる
ことが可能となり学習などにも役に立つ。
【0051】
【実施例1】図1は実施例1の人の声を認識してその声
を基に音声を出力する様子の概略を示したものである。
ここで人の声を入力すると音声認識部101で音声を認
識し音声情報を検出する。検出された音声情報は認識音
声分析部102で分析され、発声情報が抽出される。こ
の発声情報を基に音声合成部103で音声信号が合成さ
れる。この音声信号を音声出力変換し出力する。
【0052】図2は音声認識部の一構成例で、従来技術
で容易に実現できるものである。入力装置からの音声デ
ータは、周波数分析部201で所定の時間(例えば、1
5から30ms程度)毎に順次周波数分析することによ
り周波数スペクトルデータを生成してスペクトル特徴抽
出部202に送出する。音素検出部203では、特徴抽
出部で抽出された特徴をもとにパターンマッチングに基
づく音素認識アルゴリズムやスペクログラムリーディン
グ情報に基づく音素認識アルゴリズムによって音素候補
の検出を行う。
【0053】韻律情報抽出部204では、自己相関法な
どの手法による基本周波数を抽出、さらには母音重心点
をサーチが行われる。この母音重心点を基に基本周波数
パタンが求められる。母音重心点は(1)有声区間であ
る、(2)振幅の極大点近くである、(3)自己相関係
数の安定点で極小点である、などの条件を用いて抽出す
ることができる。このようにして抽出された韻律情報は
音声合成部に送られる。
【0054】図3は認識音声分析部の一構成例である。
単語候補検出部301では音声認識部から送られてきた
音韻記号列候補(認識された音素候補)を基に、あらか
じめ用意された単語辞書302を用いて単語照合処理を
行う。それぞれ尤度計算されて検出された単語候補は、
発話確定部303で発話意図に基づいて作成される重要
語辞書304に照らし合わされて再度計算される。その
結果として発話意図に沿った発生音声文が生成され、情
報抽出部305で音韻記号列が抽出される。
【0055】図4は音声合成部の一構成例である。音韻
系列作成部401では、抽出された音韻記号列を基に音
声素片辞書405を使用して、それぞれの音声素片を接
続補完し音韻系列を作成する。韻律情報部から送られて
きた韻律情報は、韻律付加部402において音韻系列に
必要に応じて韻律情報を付加し音声信号作成部403に
おいて音声信号を作成する。そしてこの音声信号を音声
出力変換部分404において変換し406のスピーカー
において音声を出力する。
【0056】次に音声素片辞書の作成について説明す
る。図5に音声素片辞書の作成のフロチャートを示し
た。音声提供者に予め決められた文章を朗読してもら
う。この際音声提供者にはヘッドホンを装着してもら
い、このヘッドフォンを通じて文書の朗読のタイミング
を指示する。音声提供者はこの指示に基づいて前述の予
め決められた文章を朗読していく。この朗読した音声を
図5の501に示すようにアナログ録音する。
【0057】次に502においてアナログの音声をデジ
タル変換していく。このデジタル変換された音声データ
を503に示すように時間分割処理を行う。次に504
に示すように予め決められた文書の音素と音声提供者の
音素の対応付けを行う。この対応付けを行った結果を元
に各音素にラベリングを行う。この結果を音素ラベリン
グテーブル508に格納する。音素ラベリングテーブル
および予め作成してある音声素片切り出しテーブル50
9に従い506で音声素片を切り出す。切り出された音
声素片は507で示された格納処理部において辞書化処
理を行い音声素片辞書510に格納する。
【0058】この音声素片辞書を図4の音声素片辞書4
05にマスクROMの形で格納しておく。そうすること
によって上述したように人の音声認識しその音声を基に
入力した音声とは声質の異なる声を出力することが可能
となる。本実施例では韻律情報を付加したがしなくても
よい。その場合音韻記号列をそのまま音声に変換すれば
よい。
【0059】
【実施例2】次に他の実施例で説明する。図6に示すよ
うに、実施例1と同じ方法で人の声から音声素片辞書を
作成し、この音声素片辞書を601のCD−ROMに格
納するそしてこのCD−ROMをユーザーに供給しユー
ザーのシステム602にのハードディスク603この音
声素片辞書をインストールすればよい。ここでユーザー
は任意の人の音声素片辞書(A氏、B氏そしてC氏)を
自分のシステムにインストールしておく。
【0060】音声素片辞書を一般電話回線を通じてユー
ザー供給する場合には図7に示すように音声素片辞書を
701のサーバーシステムのハードディスク702にセ
ットしユーザーは一般電話回線を通じて音声素片辞書を
取り込み自分のシステム703のハードディスク704
にインストールすればよい。
【0061】図8に本実施例の人の音声認識しその音声
を基に音声出力をする様子の概略フロチャートを示す。
まず人の声を入力し音声認識部801において音声を認
識し、次に802の認識音声分析部で認識した音声から
必要な情報を抽出する。ここでは発声音声文を生成し、
さらにこの生成した発声音声文から音韻記号列情報と韻
律情報を抽出する。そして、発話意図から感情成分を抽
出する。次に音声辞書選択部803おいてユーザーの任
意の人から作成した音声辞書を音声辞書(音声素片辞
書)804から選択する。ここではA氏の声から作成し
た音声素片辞書Aを選んだ。
【0062】次に809の選択したA氏の声から作成し
た音声素片辞書を使用して音韻記号列から音韻系列を8
05の音韻系列作成部で作成する。次に806の韻律付
加部でこの音韻記号列に韻律を付加する。さらに、この
韻律を付加した音韻系列に感情成分による補正(例え
ば、発話意図に怒りがある場合、発話速度を速くするな
ど)を加えた上で、807の音声信号作成部において音
声信号に変換し808の音声出力変換部で音声出力にし
809のスピーカーにて音声を出力する。
【0063】この場合の認識音声分析部の働きを図3を
使って詳しく説明する。実施例1の場合と同様に認識さ
れた音素候補を基に単語照合処理を行う。さらに、発話
意図確定部303において重要単語辞書304と照らし
合わせて再度計算することにより、発話意図に沿った発
声音声文を生成することができる。実施例1では、この
発声音声文の読み上げ情報である音韻記号列のみを利用
するが、ここでは、この発生音声文をテキスト情報とし
て情報抽出部305に送出してテキスト解析し、フレー
ズ成分などの韻律情報、さらには感情成分を抽出する。
【0064】人の音声を基にした音声辞書に音声素片だ
けではなく韻律部分を作成しておいてもよい。その内容
は図9に示す。ここでそれぞれ901は音声素片辞書で
あり902は韻律辞書である。さらにこの韻律辞書部分
は903の基本周波数部分、904の発音される個々の
語が持つ強さまたは高さの配置であるアクセント部分、
905の話をするとき話し手の上がり下がりの調子であ
るイントネーション部分、906の時間的特徴部分、9
07の声の大きさを表す音量の特徴、908の方言的特
徴、909のポーズの取り方の特徴、910の感情によ
る発声の特徴の独立部分を備えている。
【0065】韻律辞書の作成方法について説明する。韻
律辞書も音声素片辞書と同様に予め決められた文章を音
声提供者に読んでもらう。但し音声素片辞書作成の時と
異なるのは読む際のタイミングの指示を音声提供者に行
わない。また興奮した場合、悲しい場合、怒った場合等
の感情の起伏を予めきめられた文書の必用部分に添付し
ておく。そして韻律辞書の場合には標準の韻律を定めて
おき各音声提供者の辞書は標準との差の形で作成する。
この時予め標準として定めたの男性の声と女性の声の韻
律辞書(標準の韻律辞書)を作成しておく。但し標準の
韻律辞書の感情部分は抑揚のない状態での基本周波数、
音量、発話速度を格納しておく。
【0066】図10の(a)に標準の音声波のアウトラ
イン、(b)に音声提供者Aの音声波のアウトラインを
示す。基本周波数の採取については音声提供者に抑揚の
ない平板な状態で読んで貰う。基本周波数については標
準の基本周波数に対して(b)の音声提供者Aの音声波
をそれぞれ予め設定された語についての基本周波数を比
較し、その結果を音声辞書の韻律部の基本周波数の部分
に格納する。
【0067】次にアクセントについては音声提供者にい
つも話している状態で読んでもらう。予めそれぞれ設定
された各単語の各部分のピーク部分の位置、高さおよび
基本周波数を標準の音声波および音声提供者Aの音声波
を比較し標準し、この結果の差を音声辞書の韻律部のア
クセントの部分に格納する。ここでピークの音声の位置
は図10においては標準のものでは1002であり、音
声提供者Aにおいては1012である。また高さ(音声
の強さ大きさ)は標準のものでは1001であり、音声
提供者Aにおいては1011である。
【0067】イントネーションについては予め決められ
た文を音声提供者にいつも話している状態で読んでもら
う。そして基本周波数の変化を標準のものと比較しその
結果の差を音声辞書の韻律部のイントネーションの部分
に格納する。図11にその様子を示した。ここで図10
の(a)の標準の基本周波数の変化を図11(a)に示
すようにdFとして縦軸にとった。同様に図10の
(b)の音声提供者Aの基本周波数の変化を図11
(b)に示すように dFとして縦軸にとった。
【0068】時間的特徴については予め決められた文章
中の各音および代表的単語の継続時間時間、てにおはお
よび接続詞の最後の音の継続時間そして文章全体を読む
早さを比較する。前記と同様に標準のものと比較しその
結果の差を音声辞書の韻律部の時間的特徴の部分に格納
する。韻律部分(辞書)も音声素片と同様の方法でユー
ザーのシステムにインストールすればよい。
【0069】前述のように作成した音声辞書の韻律部分
を使い前述の音韻系列に対応した韻律情報を作成しこれ
を音韻系列に付加してもよい。本実施例で説明すればA
氏の声から作成した音声素片辞書を使用して音韻記号列
から音韻系列を作成するとともにA氏の声から作成した
韻律辞書を使用し上述の音韻系列に対応する韻律情報を
作成しこれを806の韻律付加部において付加すればよ
い。
【0070】方言を盛り込む場合について述べる。基本
的な流れは図8と同様であるが、802の認識音声分析
部から806の韻律付加部までについて方言を盛り込む
場合について更に詳しく説明する。この部分は図13に
示すしたが、ここで1308は地方毎に標準化して作成
した方言辞書であり単語の置き換えテーブル及び各言葉
の韻律の辞書である。図12に方言辞書の構造をしめし
た。
【0071】1301の認識音声分析部においてテキス
トを解析し1302の方言辞書選択部で方言辞書を選択
する。そして必要に応じて1303の単語置き換え部で
単語を置き換え音韻記号列を生成し1304の音声辞書
選択部で音声辞書の選択を行う。そして1305の音韻
系列作成部分で1310の音声辞書の音声素片部分を使
いA氏の音韻系列を作成する。次に1308方言辞書及
び音声辞書の韻律部分1309を使い音韻系列に対応し
たA氏の韻律情報を1307の韻律作成部において作成
する。この韻律情報を韻律付加部1306で付加すれば
よい。
【0072】本実施例ではユーザーのシステムがパーソ
ナルコンピューターのようにそのシステムの中でハード
ディスクの容量が十分で複数の音声辞書等が格納可能な
場合であるが、例えばネットワークコンピュータなどの
ように音声辞書が格納できない場合には一般電話回線を
使いサーバー上の音声辞書を必要に応じてその都度使用
し音声を合成していけばよい。
【0073】
【実施例3】図14に本実施例の人の音声認識しその音
声を基に音声出力をする様子の概略フロチャートを示
す。ここで実施例2と同様の方法で音声辞書を作成し、
CD−ROMなどの媒体に格納しユーザーに配布するか
或いは公衆回線を通じてユーザーに配布しユーザーは任
意の人の音声素片辞書(A氏、B氏そしてC氏)を自分
のシステムにインストールする。
【0074】まず人の声を入力し1401の音声認識部
において音声を認識し、次に1402の認識音声分析部
で認識した音声から情報を抽出する。ここでは音韻系列
作成のための音韻記号列情報および韻律情報を抽出す
る。次に1403の音声辞書(音声素片辞書)選択部に
おいてユーザーの任意の人から作成した音声辞書を14
08の音声辞書(音声素片辞書)から選択する。ここで
はB氏の声から作成した音声素片辞書Bを選んだ。
【0075】次に1408の選択したB氏の声から作成
した音声素片辞書を使用して音韻記号列情報より140
4の音韻系列作成部において各音声素片を接続補完し音
韻系列を作成する。次に1405の韻律付加部でこの音
韻系列に韻律を付加する。そしてこの韻律を付加した音
韻系列を1406の音声信号作成部において音声信号に
変換し、1407の音声出力変換部で音声出力に変換し
1409のスピーカーにて音声を出力する。
【0076】実施例2と同様前述のように作成した音声
辞書の韻律部分を使い前述の音韻系列に対応した韻律情
報を作成しこれを音韻系列に付加してもよい。本実施例
で説明すればB氏の声から作成した音声素片辞書を使用
して音韻記号列から音韻系列を作成するとともにB氏の
声から作成した韻律辞書を使用し上述の音韻系列に対応
する韻律情報を作成しこれを1405の韻律付加部にお
いて付加すればよい。実施例2と同様に認識音声分析部
および音声認識部において抽出した韻律情報を韻律付加
部において韻律情報付加しているが、音韻系列を作成し
そのまま音声信号に変換しても、また標準の韻律情報を
付加するか、或いは音声辞書の韻律情報すなわちB氏の
話す様子から作成した韻律情報を付加してもよい
【0077】方言を盛り込む場合について述べる。基本
的な流れは図14と同様であるが、1402の認識音声
分析部から1405の韻律付加の部分までについて方言
を盛り込む場合について更に詳しく説明する。これはは
図15に示したが、ここで1508は地方毎に標準化し
て作成した方言辞書であり各単語の音韻記号列の置き換
えテーブル及び各単語のの韻律の辞書であり図12に示
したとおりである。
【0078】1501の認識音声分析部において情報を
抽出し1502の方言辞書選択部で方言辞書を選択する
そして必要に応じて1503の単語の音韻記号列置き換
え部で音韻記号列を置き換え新しい音韻記号列を生成し
1504のの音声辞書選択部で音声辞書の選択を行う。
そして1505の音韻系列作成部で1510の音声辞書
の音声素片部分を使いB氏の音韻系列を作成する。次に
1508及び音声辞書の韻律部分1509を使い音韻記
号列に対応したB氏の韻律情報を1507の韻律作成部
において作成する。この韻律情報を韻律付加部1506
で付加すればよい。
【0079】また図16に示すように音声のある部分の
みを他の韻律に変えてもよい。この図は時間とともに語
調(音の高さ話すスピードそしてポーズ等を意味する)
及び声質の変化させる様子を示している。ここでは16
01部では入力音声の韻律(語調)、1602部ではB
氏の韻律(語調)B氏の声質、1603ではC氏の韻律
(語調)B氏の声質としている。これを実現するために
は基本的流れは図14と同様であるが認識音声分析部1
402から韻律付加部1405の部分についてさらに詳
しく述べる。これを図17に示すが、1701は認識音
声分析部、1702は音声辞書及びその音声素片部分、
韻律部分の選択部である。そして1705は韻律情報作
成部である。
【0080】まず図16の1601は図17の音韻系列
作成部1703において1707の音声辞書の音声素片
部分1707のA氏の音声素片を使用し韻律は認識音声
分析部1701で抽出した韻律情報をそのまま使用し韻
律付加部1705において付加する。次に図16の16
02部は図17の音韻系列作成部1703において17
07の音声辞書の音声素片部分1707のB氏の音声素
片を使用し、韻律は韻律作成部1706において170
8の音声辞書の韻律部分のB氏の部分を使用して音韻系
列に対応させ作成した韻律情報を韻律付加部1705に
おいて付加する。次に図16の1603部は、図17の
音韻系列作成部1703において音声辞書1707の音
声素片部分からB氏の音声素片を使用し、韻律は韻律作
成部1706において1708の音声辞書の韻律部分の
B氏の部分をしようして音韻系列に対応させ作成した韻
律情報を韻律付加部1705において付加すればよい。
【0081】実施例2と同様本実施例ではユーザーのシ
ステムがパーソナルコンピューターのようにそのシステ
ムの中でハードディスクの容量が十分で複数の音声辞書
等が格納可能な場合であるが、例えばネットワークコン
ピュータなどのように音声辞書が格納できない場合には
一般電話回線を使いサーバー上の音声辞書を必要に応じ
てその都度使用し音声を合成していけばよい。
【0082】
【実施例4】図18に本実施例の音韻系列を作成するた
めの音韻記号列を韻律付きでユーザーに配布し音声出力
をする様子の概略フロチャートを示す。ここで前の実施
例と同様に音声素片辞書は前述と同じ方法で作成し、C
D−ROMなどの媒体に格納しユーザーに配布するか或
いは公衆回線を通じてユーザーに配布しユーザーは任意
の人の音声素片辞書(A氏、B氏そしてC氏)を自分の
システムにインストールする。
【0083】またユーザーに音韻系列を作成するための
音韻記号列を韻律付きで配布するのは通信回線を通じて
送信する。この送信された韻律付き音韻記号列を180
1の情報分割部において音韻記号列及び韻律情報に分割
する。次に音声辞書の選択部1802においてユーザー
の任意の人から作成した音声辞書を1808の音声辞書
部(音声素片辞書)から選択する。ここではB氏の声か
ら作成した音声素片辞書Bを選んだ。
【0084】次に1808の選択したB氏の声から作成
した音声素片辞書を使用して前述の音韻記号列情報より
1803の音韻系列作成部において各音声素片を接続補
間し音韻系列を作成する。次に1804の韻律付加部で
この音韻系列に前述の情報分割部1801において分割
した韻律情報を付加する。そしてこの韻律を付加した音
韻系列を1805の音声信号作成部において音声信号に
変換し1806の音声出力変換部で音声出力にし180
9のスピーカーによって音声を出力する。
【0085】本実施例ではユーザーに音韻系列を作成す
るための音韻記号列情報を韻律情報付きで配布するのは
通信回線を通じて送信しているが例えば無線放送に乗せ
てもよい。また書籍の文章を音韻系列を作成するための
音韻記号列情報を韻律付き情報に加工してCD−ROM
などのハード媒体に格納してもよい。音韻記号列情報と
韻律情報を別々に配布してもよい。
【0086】情報分割部において抽出した韻律情報を韻
律付加部において韻律情報付加しているが、音韻系列を
作成しそのまま音声信号に変換しても、また標準の韻律
情報を付加するか、或いは音声辞書の韻律情報すなわち
B氏の話す様子から作成した韻律情報を付加してもよ
い。
【0087】本実施例においてはユーザーに音韻系列を
作成するための音韻記号列を韻律付きで配布するのは通
信回線を通じて送信したがこれに限られるものではなく
ハード媒体に格納して配布してもよい。もちろん実施例
2,3,4に述べた組み合わせに限られるものではな
い。他の組み合わせも本発明の範囲内で用途目的に応じ
て自由である。次に前述の実施例に付加する情報ついて
述べる。
【0088】任意の人の声で音声合成したものに任意の
バックグラウンド音響を付加するとさらに臨場感が増
す。このために環境音響についても環境音響情報テーブ
ルを作成する。前述したように海の波の音、駅構内の
音、高速道路の脇の車の風きり音、効果音楽などを図1
9に示したようにアナログ録音したものを合成音声に付
加できる形にデジタル変換し環境音響情報テーブル19
01に格納すればよい。
【0089】前述の環境音響情報テーブルを前述の音声
辞書と同様にハード媒体或いは公衆回線を通じてユーザ
ーのシステムに供給しユーザーのシステムにインストー
ルする。そして図20に示すように音声信号に環境音響
付加部2001において2003の環境音響情報テーブ
ルから環境音響を付加し音変換部2002においてこれ
を音に変換し2004のスピーカーで出力する。
【0090】本実施例ではユーザーのシステムがパーソ
ナルコンピューターのようにそのシステムの中でハード
ディスクの容量が十分で環境音響情報テーブルが格納可
能な場合であるが、例えばネットワークコンピュータな
どのように環境音響情報テーブルが格納できない場合に
は一般電話回線等を使いその都度サーバー上の環境音響
情報テーブルにアクセスしこれをを使用すればよい。
【0091】任意の人の音声に関連した画像あるいは入
力に関連した画像、又はその双方を音声発生時にディス
プレイ上に表示することも効果的である。これを実現す
るためには、画像情報テーブルを必用とする。これも前
述した環境情報テーブルと同様に作成すればよい。例え
ば任意の人の声の基の声の音声提供者がアニメーション
の主人公の声優であれば、そのアニメーションの主人公
の話をしている状態の画像を取り込み画像情報テーブル
に格納すればよい。
【0092】また音声提供者自身をスチルカメラでとり
静止画像として取り込んでもよいし、またビデオカメラ
で話をしている所を取り込んでもよく、これを図21に
示すように音声発生データに付加できる形に変換し画像
情報テーブルに格納すればよい。入力に関連した画像も
同様に、その入力の想定が列車の旅の場面であれば列車
をスチルカメラあるいはビデオカメラで撮影しておき音
声信号データに付加できる形に変換し画像情報テーブル
に格納すればよい。
【0093】前述の画像情報テーブルを前述の音声辞書
と同様にハード媒体或いは公衆回線を通じてユーザーの
システムに供給しユーザーのシステムにインストールす
る。そして図22に示すように音声信号に画像付加部2
201において2204の画像情報テーブルから画像情
報を付加し音変換部2202においてこれを音に変換し
2205のスピーカーで出力し、2203の画像処理部
で画像処理を行い2206のディスプレーにおいて表示
する。
【0094】次に各辞書及び各情報のユーザーへの供給
方法および課金の方法についてのシステムを説明する。
ユーザーのシステムがパソコンの場合を説明したが音声
発生ソフトおよび各辞書が回線に結合されたサーバー上
に常駐させ、必用に応じてユーザーの装置から前記サー
バーに接続して前記音声発生ソフト、各辞書、各情報テ
ーブルを使用するNC(ネットワークコンピューター)
的使用の場合と異なるため分けて説明する。まずユーザ
ーのシステムがパソコンの場合には、大きく分けて2つ
の方法があり、1つはハード媒体で供給する方法であ
り、もう1つは回線で供給する方法である。
【0095】前者においてはまず音声辞書、環境音響情
報テーブル、画像情報テーブルの各辞書、各情報テーブ
ルを一切ガードをかけずにCD−ROMなどの媒体に格
納する。そしてこのCD−ROM媒体をユーザーに売り
切りで販売する方法がある。またこの音声発生ソフトお
よび各辞書それぞれに異なった暗証番号でガードが外れ
るようにしてインストールする。 そしてこの場合CD
−ROM媒体を低価格で販売するか、あるいは無料で配
布しユーザーは必用部分のみの代金を払い、供給者はこ
の代金の入金を確認したらユーザーに必用部分の暗証番
号を発行する。
【0096】この暗証番号発行方法は公衆回線を通じて
パソコン通信で配布すればよい。もちろん郵送、電話で
告げるなどの方法でもよい。ユーザーはこの暗証番号を
利用してCD−ROM媒体の必用部分のガードをはずし
ユーザーのパソコンシステムのハードディスクにインス
トールする。
【0097】公衆電話回線を通じて供給してもよい。各
辞書、買う情報テーブルを公衆電話回線に結合したサー
バー上に常駐させておく。ユーザーは必用とする辞書、
情報テーブルを前述の回線を通じて入手すればよい。こ
の場合代金の回収は前述のCD−ROMの場合と同様に
音声発生ソフトおよび各辞書それぞれに異なった暗証番
号でガードをかけておきサーバー上に常駐させておけば
よい。そしてユーザーは自由に前記音声発生ソフト、各
辞書、各情報テーブルの必用部分を前記回線を通じて自
分の装置に取り込む。前述のCD−ROMの場合と同様
な方法でガードをはずしユーザーは自分のシステムに必
用部分をインストールすればよい。
【0098】ユーザーのシステムに無償あるいは有償で
CD−ROM媒体あるいは公衆電話回線を通じてインス
トールされた各辞書、情報テーブルの必用部分は試用期
間を設けておき試用期間がすぎたら自動消滅するように
設定しておいてもよい。
【0099】また他の方法として前記回線に結合された
サーバー上の各辞書、各情報テーブルにそれぞれ独立に
接続のためのゲートを設ける。このゲートを通過するた
めにはそれぞれ暗証番号を入力することが必用である構
造とする。ユーザーは必用部分のみの代金を払い、供給
者はこの代金の入金を確認したらユーザーに必用部分の
暗証番号を発行する。ユーザーは前記回線を通じてサー
バーに接続し各辞書、各情報テーブルの必用部分に前記
暗証番号を使い接続する。そして自分のシステムに必用
部分をインストールすればよい。
【0100】次にNC(ネットワークコンピュータ)的
使用の場合について説明する。この場合音声発生ソフト
および各辞書は公衆電話回線に結合されたサーバー上に
のみ存在しているわけであるから、音を発生させるため
にはユーザーの装置から常に前記回線に結合されたサー
バーに接続するひつようがある。この場合にはサーバー
に接続するためのゲートを設けておき、供給者はユーザ
ーの入金を確認したらそのユーザーが前記サーバーに接
続可能な状態にするために前記ゲートを通過できるよう
にすればよい。また前述のように暗証番号を発行しその
暗証番号によりゲートを通過できる構造でもよい。
【0101】このゲートを通過可能な状態はユーザーの
入金状態により通過不能としてもよい。例えばこのゲー
トの通過可能状態の期限を設定し、その期限が過ぎた場
合通過不能とし、新たに入金があれば再びゲートを通過
可能とすればよい。
【0102】他の方法でもよく供給者はユーザーの使用
量に応じて請求してもよい。例えば各辞書、各情報テー
ブルへのアクセスタイムを記録しておき、このアクセス
タイムに応じてユーザーの銀行口座から必用金額を引き
落とせばよい。
【0103】
【発明の効果】以上説明したように本発明によれば、人
間の声を基にした音声辞書を容易にユーザーに供給する
ことが可能となり、ユーザーのシステムにおいては、ユ
ーザーの任意の音声およびバックグラウンド音響、音声
に合致した画像等が選択できるため多種多様の音声合成
を楽しむことが可能となる。
【図面の簡単な説明】
【図1】実施例1のフロチャート
【図2】音声認識部の構成
【図3】認識音声分析部の構成
【図4】音声合成部の構成
【図5】音声素片辞書の作成のフローチャート
【図6】音声辞書の供給のフローチャート
【図7】公衆回線による音声辞書供給の図
【図8】実施例2の全体を示すフローチャート
【図9】音声辞書の構成
【図10】(a)標準の音声波のアウトライン (b)音声提供者Aの音声波のアウトライン
【図11】(a)標準の音声波の基本周波数変化 (b)音声提供者Aの音声波の基本周波数の変化
【図12】方言辞書の構成
【図13】方言を盛り込む場合のフローチャート
【図14】実施例3の全体のフローチャート
【図15】実施例3に方言を盛り込む場合
【図16】時間と出力したい音声の種類
【図17】実施例3に複数の音声を盛り込む場合
【図18】実施例4のフロチャート
【図19】環境情報テーブルの作成
【図20】環境音響情報の付加
【図21】画像情報テーブルの作成
【図22】画像情報の付加
フロントページの続き (51)Int.Cl.6 識別記号 FI G06F 3/16 330 G06F 3/16 330K

Claims (35)

    【特許請求の範囲】
  1. 【請求項1】人の音声を入力し前記音声を認識し前記認
    識した結果を解析し音韻系列作成のための音韻記号列情
    報を抽出し、特定の人の音声から作成した音声辞書(音
    声素片辞書)を使用し前記音韻記号列にもとづいて音声
    素片を接続し音韻系列を作成し前記音韻系列を音声に変
    換することにより音声合成をすることを特徴とする音声
    発生システム。
  2. 【請求項2】人の音声を入力し前記音声を認識し前記認
    識した結果を解析し前記解析した結果に基づいて入力さ
    れた音声と声質が異なる音声を発生させるシステムにお
    いて A:人間の声を基に音声辞書(音声素片辞書)を作成す
    るステップ B:前記音声辞書をハード媒体に格納してユーザーに供
    給すること及びユーザーの装置が接続可能な回線を通じ
    てユーザーに供給することから選ばれた少なくとも1つ
    のユーザーへの音声辞書供給ステップ C:前記ユーザーに供給された前記人間の声を基にした
    音声辞書をユーザーのシステムに必要に応じて追加イン
    ストールおよび削除するステップ D:前記入力された音声を認識するステップ E:前記認識した音声を解析しテキスト情報を抽出する
    ステップ。 F:前記ユーザーのシステムにおいてはユーザーが任意
    の音声を選択するため前記音声辞書の中から任意の音声
    辞書を選択するステップ G:前記テキスト情報に基づいて前記音声辞書(音声素
    片辞書)の音声素片の必要部分を接合し補間し音韻系列
    を作成するステップ H:前記音韻系列を音声の出力に変換するステップ の各ステップを有することを特徴とする音声発生システ
    ム。
  3. 【請求項3】人の音声を入力し前記音声を認識し前記認
    識した結果を解析し前記解析した結果に基づいて入力さ
    れた音声と声質が異なる音声を発生させるシステムにお
    いて A:人間の声を基に音声辞書(音声素片辞書)を作成す
    るステップ B:前記音声辞書をハード媒体に格納してユーザーに供
    給すること及びユーザーの装置が接続可能な回線を通じ
    てユーザーに供給することから選ばれた少なくとも1つ
    のユーザーへの音声辞書供給ステップ C:前記ユーザーに供給された前記人間の声を基にした
    音声辞書をユーザーのシステムに必要に応じて追加イン
    ストールおよび削除するステップ D:前記入力された音声を認識するステップ E:前記認識した音声を解析し音韻系列作成のための音
    韻記号列情報を抽出するステップ F:前記ユーザーのシステムにおいてはユーザーが任意
    の音声を選択するため前記音声辞書の中から任意の音声
    辞書を選択するステップ G:前記音韻系列作成情報に基づいて前記音声辞書(音
    声素片辞書)の音声素片の必要部分を接合し補間し音韻
    系列を作成するステップ H:前記音韻系列を音声の出力に変換するステップ の各ステップを有することを特徴とする音声発生システ
    ム。
  4. 【請求項4】ユーザーに音声合成の元となる音韻系列作
    成作成のための音韻記号列情報を供給し前記音韻記号列
    に基づいて音声を発生させるシステムにおいて A:人間の声を基に音声辞書(音声素片辞書)を作成す
    るステップ B:前記音声辞書をハード媒体に格納してユーザーに供
    給すること及びユーザーの装置が接続可能な回線を通じ
    てユーザーに供給することから選ばれた少なくとも1つ
    のユーザーへの音声辞書供給ステップ C:前記ユーザーに供給された前記人間の声を基にした
    音声辞書をユーザーのシステムに必要に応じて追加イン
    ストールおよび削除するステップ D:前記ユーザーのシステムにおいてはユーザーが任意
    の音声を選択するため前記音声辞書の中から任意の音声
    辞書を選択するステップ E:前記音韻系列作成するための音韻記号列情報に基づ
    いて前記音声辞書(音声素片辞書)の必要部分を接合し
    補間し音韻系列を作成するステップ F:前記音韻系列を音声の出力に変換するステップ の各ステップを有することを特徴とする音声発生システ
    ム。
  5. 【請求項5】人の音声を入力し前記音声を認識し前記認
    識さた結果を解析し前記解析した結果に基づいて入力さ
    れた音声と声質が異なる音声を発生させるシステムにお
    いて A:特定の人間の声を基に音声辞書(音声素片辞書)を
    作成するステップ B:前記音声辞書をユーザーの装置が接続可能な回線に
    結合されたサーバー上に設置するステップ C:ユーザーが任意の音声を選択するために前記サーバ
    ー上の前記音声辞書の中から任意の音声辞書を選択する
    ステップ D:前記入力された音声を認識するステップ E:前記認識した音声を解析しテキスト情報を抽出する
    ステップ F:前記テキスト情報に基づいて前記音声辞書(音声素
    片辞書)の音声素片の必要部分を接合し補間し音韻系列
    を作成するステップ G:前記音韻系列を音声の出力に変換するステップ の各ステップを有することを特徴とする音声発生システ
    ム。
  6. 【請求項6】人の音声を入力し前記音声を認識し前記認
    識さた結果を解析し前記解析した結果に基づいて入力さ
    れた音声と声質が異なる音声を発生させるシステムにお
    いて A:特定の人間の声を基に音声辞書を作成するステップ B:前記音声辞書をユーザーの装置が接続可能な回線に
    結合されたサーバー上に設置するステップ C:ユーザーが任意の音声を選択するために前記サーバ
    ー上の前記音声辞書の中から任意の音声辞書を選択する
    ステップ D:前記入力された音声を認識するステップ E:前記認識した音声を解析し音韻系列作成のための音
    韻記号列情報を抽出するステップ F:前記音韻系列作成情報に基づいて前記音声辞書の音
    声素片辞書の音声素片の必要部分を接合し補間し音韻系
    列を作成するステップ :前記音韻系列を音声の出力に変換するステップ の各ステップを有することを特徴とする音声発生システ
    ム。
  7. 【請求項7】ユーザーに音声合成の元となる音韻系列作
    成のための音韻記号列情報を供給し前記音韻記号列情報
    に基づいて音声を発生させるシステムにおいて A:特定の人間の声を基に音声辞書(音声素片辞書)を
    作成するステップ B:前記音声辞書をユーザーの装置が接続可能な回線に
    結合されたサーバー上に設置するステップ C:ユーザーが任意の音声を選択するために前記サーバ
    ー上の前記音声辞書の中から任意の音声辞書を選択する
    ステップ D:前記音韻記号列情報に基づいて前記音声辞書(音声
    素片辞書)の音声素片の必要部分を接合し補完し音韻系
    列を作成するステップ E:前記音韻系列を音声の出力に変換するステップ の各ステップを有することを特徴とする音声発生システ
    ム。
  8. 【請求項8】人の音声を入力し前記音声を認識し前記認
    識した結果を解析し音韻系列作成のための音韻記号列情
    報をおよび韻律情報を抽出し、特定の人の音声から作成
    した音声辞書(音声素片辞書)を使用し前記音韻記号列
    にもとづいて音声素片を接続し音韻系列を作成し前記音
    韻系列に前記韻律を付与することによって音声合成をす
    ることを特徴とする音声発生システム。
  9. 【請求項9】人の音声を入力し前記音声を認識し前記認
    識した結果を解析し前記解析した結果に基づいて入力さ
    れた音声と声質が異なる音声を発生させるシステムにお
    いて A:人間の声を基に音声辞書を作成するステップ B:前記音声辞書をハード媒体に格納してユーザーに供
    給すること及びユーザーの装置が接続可能な回線を通じ
    てユーザーに供給することから選ばれた少なくとも1つ
    のユーザーへの音声辞書供給ステップ C:前記ユーザーに供給された前記人間の声を基にした
    音声辞書をユーザーのシステムに必要に応じて追加イン
    ストールおよび削除するステップ D:前記入力された音声を認識するステップ E:前記認識した音声を解析しテキスト情報と、韻律情
    報を抽出するステップ。 F:前記ユーザーのシステムにおいてはユーザーが任意
    の音声を選択するため前記音声辞書の中から任意の音声
    辞書を選択するステップ G:前記テキスト情報に基づいて前記音声辞書の音声素
    片辞書の音声素片の必要部分を接合し補間し音韻系列を
    作成するステップ H:前記音声素片辞書の音声素片必要部分を接合した音
    韻系列に前記韻律情報を付加し音声合成のための音声信
    号を作成するステップ I:前記音声信号を音声の出力に変換するステップ の各ステップを有することを特徴とする音声発生システ
    ム。
  10. 【請求項10】人の音声を入力し前記音声を認識し前記
    認識した結果を解析し前記解析した結果に基づいて入力
    された音声と声質が異なる音声を発生させるシステムに
    おいて A:人間の声を基に音声辞書を作成するステップ B:前記音声辞書をハード媒体に格納してユーザーに供
    給すること及びユーザーの装置が接続可能な回線を通じ
    てユーザーに供給することから選ばれた少なくとも1つ
    のユーザーへの音声辞書供給ステップ C:前記ユーザーに供給された前記人間の声を基にした
    音声辞書をユーザーのシステムに必要に応じて追加イン
    ストールおよび削除するステップ D:前記入力された音声を認識するステップ E:前記認識した音声を解析し音韻系列作成のための音
    韻記号列情報と、韻律情報を抽出するステップ F:前記ユーザーのシステムにおいてはユーザーが任意
    の音声を選択するため前記音声辞書の中から任意の音声
    辞書を選択するステップ G:前記音韻系列作成情報に基づいて前記音声辞書の音
    声素片辞書の音声素片必要部分を接合し補間し音韻系列
    を作成するステップ H:前記音声素片辞書の音声素片必要部分を接合した音
    韻系列に前記韻律情報を付加し音声合成のための音声信
    号を作成するステップ I:前記音声信号を音声の出力に変換するステップ の各ステップを有することを特徴とする音声発生システ
    ム。
  11. 【請求項11】ユーザーに音声合成の元となる音韻系列
    作成のための音韻記号列情報及び韻律情報を供給し前記
    音韻記号列情報及び韻律情報に基づいて音声を発生させ
    るシステムにおいて A:人間の声を基に音声辞書を作成するステップ B:前記音声辞書をハード媒体に格納してユーザーに供
    給すること及びユーザーの装置が接続可能な回線を通じ
    てユーザーに供給することから選ばれた少なくとも1つ
    のユーザーへの音声辞書供給ステップ C:前記ユーザーに供給された前記人間の声を基にした
    音声辞書をユーザーのシステムに必要に応じて追加イン
    ストールおよび削除するステップ D:前記ユーザーのシステムにおいてはユーザーが任意
    の音声を選択するため前記音声辞書の中から任意の音声
    辞書を選択するステップ E:前記音韻記号列情報に基づいて前記音声辞書の音声
    素片辞書の音声素片の必要部分を接合し補間し音韻系列
    を作成するステップ F:前記音声素片辞書の音声素片の必要部分を接合した
    音韻系列に前記韻律情報を付加し音声合成のための音声
    信号を作成するステップ G:前記音声信号データを音声の出力に変換するステッ
    プ の各ステップを有することを特徴とする音声発生システ
    ム。
  12. 【請求項12】ユーザーに音声合成の元となる音韻系列
    作成のための音韻記号列情報を供給し前記音韻記号列情
    報に基づいて音声を発生させるシステムにおいて A:特定の人間の声を基に音声素片および韻律情報から
    なる音声辞書を作成するステップ B:前記音声辞書をハード媒体に格納してユーザーに供
    給すること及びユーザーの装置が接続可能な回線を通じ
    てユーザーに供給することから選ばれた少なくとも1つ
    のユーザーへの音声辞書供給ステップ C:前記ユーザーに供給された前記人間の声を基にした
    音声辞書をユーザーのシステムに必要に応じて追加イン
    ストールおよび削除するステップ D:前記ユーザーのシステムにおいてはユーザーが任意
    の音声を選択するため前記音声辞書の中から任意の音声
    辞書を選択するステップ E:前記音韻記号列情報に基づいて前記音声辞書の音声
    素片辞書の音声素片の必要部分を接合し補間し音韻系列
    を作成するステップ F:前記音声素片辞書の音声素片の必要部分を接合した
    音韻系列に前記音声辞書の前記韻律情報を付加し音声合
    成のための音声信号を作成するステップ G:前記音声信号データを音声の出力に変換するステッ
    プ の各ステップを有することを特徴とする音声発生システ
    ム。
  13. 【請求項13】ユーザーに音声合成の元となる音韻系列
    作成のための音韻記号列情報及び韻律情報を供給し前記
    音韻記号情報及び韻律情報に基づいて音声を発生させる
    システムにおいて A:特定の人間の声を基に音声素片および韻律情報から
    なる音声辞書を作成するステップ B:前記音声辞書をハード媒体に格納してユーザーに供
    給すること及びユーザーの装置が接続可能な回線を通じ
    てユーザーに供給することから選ばれた少なくとも1つ
    のユーザーへの音声辞書供給ステップ C:前記ユーザーに供給された前記人間の声を基にした
    音声辞書をユーザーのシステムに必要に応じて追加イン
    ストールおよび削除するステップ D:前記ユーザーのシステムにおいてはユーザーが任意
    の音声を選択するため前記音声辞書の中から任意の音声
    辞書を選択するステップ E:前記音韻記号列成情報に基づいて前記音声辞書の音
    声素片辞書の音声素片の必要部分を接合し補間し音韻系
    列を作成するステップ F:前記音声辞書の韻律情報部をもちいて前記音韻系列
    の任意の部分の韻律を任意の韻律にするために前記音韻
    系列のそれぞれの部分に対応する韻律を作成するステッ
    プ G:前記音声素片辞書の音声素片の必要部分を接合した
    音韻系列に前記韻律情報を付加し音声合成のための音声
    信号を作成するステップ H:前記音声信号データを音声の出力に変換するステッ
    プ の各ステップを有することを特徴とする音声発生システ
    ム。
  14. 【請求項14】人の音声を入力し前記音声を認識し前記
    認識さた結果を解析し前記解析した結果に基づいて入力
    された音声と声質が異なる音声を発生させるシステムに
    おいて A:特定の人間の声を基に音声辞書を作成するステップ B:前記音声辞書をユーザーの装置が接続可能な回線に
    結合されたサーバー上に設置するステップ C:ユーザーが任意の音声を選択するために前記サーバ
    ー上の前記音声辞書の中から任意の音声辞書を選択する
    ステップ D:前記入力された音声を認識するステップ E:前記認識した音声を解析しテキスト情報と、韻律情
    報を抽出するステップ F:前記テキスト情報に基づいて前記音声辞書の音声素
    片辞書の音声素片の必要部分を接合し補間し音韻系列を
    作成するステップ G:前記音声素片辞書の音声素片の必要部分を接合した
    音韻系列に前記韻律情報を付加し音声合成のための音声
    信号を作成するステップ H:前記音声信号データを音声の出力に変換するステッ
    プ の各ステップを有することを特徴とする音声発生システ
    ム。
  15. 【請求項15】人の音声を入力し前記音声を認識し前記
    認識さた結果を解析し前記解析した結果に基づいて入力
    された音声と声質が異なる音声を発生させるシステムに
    おいて A:特定の人間の声を基に音声辞書を作成するステップ B:前記音声辞書をユーザーの装置が接続可能な回線に
    結合されたサーバー上に設置するステップ C:ユーザーが任意の音声を選択するために前記サーバ
    ー上の前記音声辞書の中から任意の音声辞書を選択する
    ステップ D:前記入力された音声を認識するステップ E:前記認識した音声を解析し音韻系列作成のための音
    韻記号列情報と、韻律情報を抽出するステップ F:前記音韻記号列情報に基づいて前記音声辞書の音声
    素片辞書の音声素片の必要部分を接合し補間し音韻系列
    を作成するステップ G:前記音声素片辞書の音声素片の必要部分を接合した
    音韻系列に前記韻律情報を付加し音声合成のための音声
    信号を作成するステップ H:前記音声信号データを音声の出力に変換するステッ
    プ の各ステップを有することを特徴とする音声発生システ
    ム。
  16. 【請求項16】ユーザーに音声合成の元となる音韻系列
    作成のための音韻記号列情報及び韻律情報を供給し前記
    音韻記号列情報及び韻律情報に基づいて音声を発生させ
    るシステムにおいて A:特定の人間の声を基に音声辞書を作成するステップ B:前記音声辞書をユーザーの装置が接続可能な回線に
    結合されたサーバー上に設置するステップ C:ユーザーが任意の音声を選択するために前記サーバ
    ー上の前記音声辞書の中から任意の音声辞書を選択する
    ステップ E:前記音韻記号列系列情報に基づいて前記音声辞書の
    音声素片辞書の音声素片の必要部分を接合し補間し音韻
    系列を作成するステップ F:前記音声素片辞書の音声素片の必要部分を接合した
    音韻系列に前記韻律情報を付加し音声合成のための音声
    信号を作成するステップ G:前記音声信号データを音声の出力に変換するステッ
    プ の各ステップを有することを特徴とする音声発生システ
    ム。
  17. 【請求項17】ユーザーに音声合成の元となる音韻系列
    作成のための音韻記号列情報を供給し前記音韻記号列情
    報に基づいて音声を発生させるシステムにおいて A:特定の人間の声を基に音声素片及び韻律情報からな
    る音声辞書を作成するステップ B:前記音声辞書をユーザーの装置が接続可能な回線に
    結合されたサーバー上に設置するステップ。 C:ユーザーが任意の音声を選択するために前記サーバ
    ー上の前記音声辞書の中から任意の音声辞書を選択する
    ステップ E:前記音韻記号列情報に基づいて前記音声辞書の音声
    素片辞書の音声素片の必要部分を接合し補間し音韻系列
    を作成するステップ F:前記音声素片辞書の音声素片の必要部分を接合した
    音韻系列に前記音声辞書の前記韻律情報を付加し音声合
    成のための音声信号を作成するステップ。 G:前記音声信号データを音声の出力に変換するステッ
    プ の各ステップを有することを特徴とする音声発生システ
    ム。
  18. 【請求項18】ユーザーに音声合成の元となる音韻系列
    作成のための音韻記号列情報及び韻律情報を供給し前記
    音韻記号列情報及び韻律情報に基づいて音声を発生させ
    るシステムにおいて A:特定の人間の声を基に音声辞書を作成するステップ B:前記音声辞書をユーザーの装置が接続可能な回線に
    結合されたサーバー上に設置するステップ C:ユーザーが任意の音声を選択するために前記サーバ
    ー上の前記音声辞書の中から任意の音声辞書を選択する
    ステップ D:前記音韻記号列情報に基づいて前記音声辞書の音声
    素片辞書の音声素片の必要部分を接合し補間し音韻系列
    を作成するステップ E:前記音声辞書の韻律情報部をもちいて前記音韻系列
    の任意の部分の韻律を任意の韻律にするために前記音韻
    系列のそれぞれの部分に対応する韻律を作成するステッ
    プ。 F:前記音声素片辞書の音声素片の必要部分を接合した
    音韻系列に前記韻律情報を付加し音声合成のための音声
    信号を作成するステップ G:前記音声信号データを音声の出力に変換するステッ
    プ の各ステップを有することを特徴とする音声発生システ
    ム。
  19. 【請求項19】前記人間の声を基に音声辞書を作成する
    プロバイダーと、前記音声辞書を用いて音声信号を作成
    するユーザーとは分離されていることを特徴とする特許
    請求範囲第2項、第3項、第4項、第5項、第6項、第7項、
    第9項、第10項、第11項、第12項、第13項、第14項、第1
    5項、第16項、第17項および第18項記載の音声発声シス
    テム。
  20. 【請求項20】前記人間の声を基に音声辞書を作成する
    システムと、前記音声辞書を用いて音声信号を作成する
    システムとは分離されて、それぞれ単独に機能すること
    をを特徴とする特許請求範囲第2項、第3項、第4項、第5
    項、第6項、第7項、第9項、第10項、第11項、第12項、
    第13項、第14項、第15項、第16項、第17項および第18項
    記載の音声発声システム。
  21. 【請求項21】前記人間の声を基にした音声辞書は音声
    素片部分及び韻律部分からなることを特徴とする特許請
    求範囲第9項記載、第10項記載、第11項記載、第1
    2項記載、第13項記載、第14項記載、第15項記
    載、第16項記載、第17項記載および第18項記載の
    音声発生システム。
  22. 【請求項22】前記人間の声を基にした音声辞書の前記
    韻律部分は基本周波数、アクセント、イントネーショ
    ン、時間的特徴、音量の特徴、方言的特徴、ポーズの取
    り方の特徴、感情による発声の特徴から選ばれる少なく
    とも1つ以上の独立部分を含んでいることを特徴とする
    特許請求範囲第21項記載の音声発生システム。
  23. 【請求項23】前記人間の声を基にした音声辞書の各部
    分は音声素片、基本周波数、アクセント、イントネーシ
    ョン、時間的特徴、音量の特徴、方言的特徴、ポーズの
    取り方の特徴、感情による発声の特徴から選ばれる少な
    くとも1つ以上の独立部分を含んでいることを特徴とす
    る特許請求範囲第9項、第10項記載、第11項記載、
    第12項記載、第13項記載、第14項記載、第15項
    記載、第16項記載、第17項記載及び第18項記載の
    音声発生システム。
  24. 【請求項24】ユーザーは必用に応じてそれぞれの前記
    人間の声を基にした音声辞書をユーザーの任意の組み合
    わせで選べること、前記人間の声を基にした音声辞書か
    ら選択した音声辞書の韻律部分の各要素から必用に応じ
    て前記音声の可変可能部分の少なくとも1つをユーザー
    の任意の選択で可変させることを可能とすることを特徴
    とする特許請求範囲第9項、第10項記載、第11項記
    載、第12項記載、第13項記載、第14項記載、第1
    5項記載、第16項記載、第17項記載及び第18項記
    載の音声発生システム。
  25. 【請求項25】前記可変部分は、声の高さ、発声速度、
    音量、から選ばれた少なくとも1つ以上であることを特
    徴とする特許請求範囲第24項記載の音声発生システ
    ム。
  26. 【請求項26】前記システムにおいて環境音響をデジタ
    ル情報に変換し前記環境音響デジタル情報をハード媒体
    に格納してユーザーに供給される方法及びユーザーの装
    置が接続可能な回線を通じてユーザーに供給することか
    ら選ばれた少なくとも1つの供給法によりユーザーは必
    用に応じてバックグラウンド音響としての環境音響を前
    記合成音声に付加することが可能であることを特徴とす
    る特許請求範囲第2項記載、第3項記載、第4項記載、
    第9項記載、第10項記載、第11項記載、第12項記
    載及び第13項記載の音声発生システム。
  27. 【請求項27】前記システムにおいて環境音響をデジタ
    ル情報に変換しユーザーの装置が接続可能な回線に結合
    されたサーバー上に前記環境音響をデジタル情報に変換
    した環境音響情報テーブルとして置いておき前記環境音
    響のデジタル情報をユーザーは必用に応じて前記サーバ
    ーに接続し前記バックグラウンド音響としての環境音響
    を前記合成音声に付加することが可能であることを特徴
    とする特許請求範囲第5項記載、第6項記載、第7項記
    載、第14項記載、第15項記載、第16項記載、第1
    7項記載及び第18項記載の音声発生システム。
  28. 【請求項28】前記人の声の基にした音声辞書の基の人
    に関連した画像および前記入力に関連した画像から選ば
    れた少なくとも1つの画像を音声発生時にディスプレイ
    上に表示することを特徴とする特許請求範囲第2項記
    載、第3項記載、第4項記載、第5項記載、第6項記
    載、第7項記載、第9項記載、第10項記載、第11項
    記載、第12項記載、第13項記載、第14項記載、第
    15項記載、第16項記載、第17項記載及び第18項
    記載の音声発生システム。
  29. 【請求項29】前記人の声を基にした音声辞書の基の人
    に関連した画像および前記入力に関連した画像から選ば
    れた少なくとも1つの画像をデジタル情報に変換しハー
    ド媒体に格納してユーザーに供給される方法及びユーザ
    ーの装置が接続可能な回線を通じてユーザーに供給する
    ことから選ばれた少なくとも1つの供給法によりユーザ
    ーは必用に応じて前記画像情報を付加することが可能で
    あることを特徴とする特許請求範囲第28項記載の音声
    発生システム。
  30. 【請求項30】前記人の声を基にした音声辞書の基の人
    に関連した画像および前記入力に関連した画像から選ば
    れた少なくとも1つの画像をデジタル情報に変換し画像
    情報テーブルとしユーザーの装置が接続可能な回線に結
    合されたサーバー上に置いておきユーザーは必用に応じ
    て前記サーバーに接続し前記画像情報を付加することが
    可能であることを特徴とする特許請求範囲第28項記載
    の音声発生システム。
  31. 【請求項31】前記システムにおいて各地方毎に標準化
    された方言辞書部分を有することを特徴とする特許請求
    範囲第2項記載、第3項記載、第4項記載、第5項記
    載、第6項記載、第7項記載、第9項記載、第10項記
    載、第11項記載、第12項記載、第13項記載、第1
    4項記載、第15項記載、第16項記載、第17項記載
    及び第18項記載の音声発生システム。
  32. 【請求項32】前記システムにおいて前記方言辞書は解
    析部、音声合成部に関する音声辞書から選ばれる少なく
    とも1つに関連づけられることを特徴とする特許請求範
    囲第23項記載の音声発生システム。
  33. 【請求項33】前記方言辞書をハード媒体に格納してユ
    ーザーに供給される方法及びユーザーの装置が接続可能
    な回線を通じてユーザーに供給することから選ばれた少
    なくとも1つの供給法によりユーザーは必用に応じて前
    記方言辞書を使用することが可能であることを特徴とす
    る特許請求範囲第31項記載の音声発生システム。
  34. 【請求項34】前記方言辞書をユーザーの装置が接続可
    能な回線に結合されたサーバー上に置いておきユーザー
    は必用に応じて前記サーバーに接続し前記方言辞書使用
    することが可能であることを特徴とする特許請求範囲第
    31項記載の音声発生システム。
  35. 【請求項35】前記システムにおいてユーザーが内容に
    応じてそれぞれの部分、部分で任意の音声を選べること
    を特徴とする特許請求範囲第2項記載、第3項記載、第
    4項記載、第5項記載、第6項記載、第7項記載、第9
    項記載、第10項記載、第11項記載、第12項記載、
    第13項記載、第14項記載、第15項記載、第16項
    記載、第17項記載及び第18項記載の音声発生システ
    ム。
JP10236622A 1997-08-15 1998-08-10 音声発生システム Pending JPH11143483A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10236622A JPH11143483A (ja) 1997-08-15 1998-08-10 音声発生システム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP23325797 1997-08-15
JP9-233257 1997-08-15
JP10236622A JPH11143483A (ja) 1997-08-15 1998-08-10 音声発生システム

Publications (1)

Publication Number Publication Date
JPH11143483A true JPH11143483A (ja) 1999-05-28

Family

ID=26530945

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10236622A Pending JPH11143483A (ja) 1997-08-15 1998-08-10 音声発生システム

Country Status (1)

Country Link
JP (1) JPH11143483A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001083984A (ja) * 1999-09-09 2001-03-30 Alpine Electronics Inc インタフェース装置
WO2001073752A1 (fr) * 2000-03-28 2001-10-04 Kabushiki Kaisha Toshiba Moyen de stockage, procede de distribution et dispositif de sortie vocale
JP2002318593A (ja) * 2001-04-20 2002-10-31 Sony Corp 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体
US6789066B2 (en) * 2001-09-25 2004-09-07 Intel Corporation Phoneme-delta based speech compression
US6810378B2 (en) * 2001-08-22 2004-10-26 Lucent Technologies Inc. Method and apparatus for controlling a speech synthesis system to provide multiple styles of speech
WO2005093713A1 (ja) * 2004-03-29 2005-10-06 Ai, Inc. 音声合成装置
JP2006517037A (ja) * 2003-01-24 2006-07-13 ボイス シグナル テクノロジーズ インコーポレイテッド 韻律的模擬語合成方法および装置
JP2008015361A (ja) * 2006-07-07 2008-01-24 Sharp Corp 音声合成装置、音声合成方法および音声合成方法を実現するためのプログラム
KR100832932B1 (ko) * 2006-03-20 2008-05-27 후지쯔 가부시끼가이샤 낭독 정보 등록 장치
JP2011082659A (ja) * 2009-10-05 2011-04-21 Nakayo Telecommun Inc 録音再生装置
US8433573B2 (en) 2007-03-20 2013-04-30 Fujitsu Limited Prosody modification device, prosody modification method, and recording medium storing prosody modification program
JP2017107198A (ja) * 2015-12-02 2017-06-15 悠之介 北 音声採取方法および音声移植方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001083984A (ja) * 1999-09-09 2001-03-30 Alpine Electronics Inc インタフェース装置
WO2001073752A1 (fr) * 2000-03-28 2001-10-04 Kabushiki Kaisha Toshiba Moyen de stockage, procede de distribution et dispositif de sortie vocale
JP2002318593A (ja) * 2001-04-20 2002-10-31 Sony Corp 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体
US6810378B2 (en) * 2001-08-22 2004-10-26 Lucent Technologies Inc. Method and apparatus for controlling a speech synthesis system to provide multiple styles of speech
US6789066B2 (en) * 2001-09-25 2004-09-07 Intel Corporation Phoneme-delta based speech compression
JP2006517037A (ja) * 2003-01-24 2006-07-13 ボイス シグナル テクノロジーズ インコーポレイテッド 韻律的模擬語合成方法および装置
WO2005093713A1 (ja) * 2004-03-29 2005-10-06 Ai, Inc. 音声合成装置
JPWO2005093713A1 (ja) * 2004-03-29 2008-07-31 株式会社エーアイ 音声合成装置
JP4884212B2 (ja) * 2004-03-29 2012-02-29 株式会社エーアイ 音声合成装置
KR100832932B1 (ko) * 2006-03-20 2008-05-27 후지쯔 가부시끼가이샤 낭독 정보 등록 장치
US7664498B2 (en) 2006-03-20 2010-02-16 Fujitsu Limited Apparatus, method, and program for read out information registration, and portable terminal device
JP2008015361A (ja) * 2006-07-07 2008-01-24 Sharp Corp 音声合成装置、音声合成方法および音声合成方法を実現するためのプログラム
US8433573B2 (en) 2007-03-20 2013-04-30 Fujitsu Limited Prosody modification device, prosody modification method, and recording medium storing prosody modification program
JP2011082659A (ja) * 2009-10-05 2011-04-21 Nakayo Telecommun Inc 録音再生装置
JP2017107198A (ja) * 2015-12-02 2017-06-15 悠之介 北 音声採取方法および音声移植方法

Similar Documents

Publication Publication Date Title
US10789290B2 (en) Audio data processing method and apparatus, and computer storage medium
US7979274B2 (en) Method and system for preventing speech comprehension by interactive voice response systems
US8898055B2 (en) Voice quality conversion device and voice quality conversion method for converting voice quality of an input speech using target vocal tract information and received vocal tract information corresponding to the input speech
US20140046667A1 (en) System for creating musical content using a client terminal
JP2006501509A (ja) 個人適応音声セグメントを備える音声合成装置
CN111370024B (zh) 一种音频调整方法、设备及计算机可读存储介质
JP2003140672A (ja) 音素ビジネスシステム
JPH11143483A (ja) 音声発生システム
JPH09171396A (ja) 音声発生システム
JPH1138989A (ja) 音声合成装置及び方法
JP2010014913A (ja) 声質変換音声生成装置および声質変換音声生成システム
JP5598516B2 (ja) カラオケ用音声合成システム,及びパラメータ抽出装置
JP3706112B2 (ja) 音声合成装置及びコンピュータプログラム
JP2009157220A (ja) 音声編集合成システム、音声編集合成プログラム及び音声編集合成方法
Aso et al. Speakbysinging: Converting singing voices to speaking voices while retaining voice timbre
JPH0950286A (ja) 音声合成装置及びこれに使用する記録媒体
EP1589524A1 (en) Method and device for speech synthesis
Suchato et al. Digital storytelling book generator with customizable synthetic voice styles
Сатыбалдиыева et al. Analysis of methods and models for automatic processing systems of speech synthesis
Lanchantin et al. Vivos Voco: A survey of recent research on voice transformation at IRCAM
JPH11161297A (ja) 音声合成方法及び装置
Juergen Text-to-Speech (TTS) Synthesis
JPH08328575A (ja) 音声合成装置
Espic Calderón In search of the optimal acoustic features for statistical parametric speech synthesis
KR101567566B1 (ko) 개인 음색을 반영한 통계적 음성합성 시스템 및 방법