JP2002221980A - テキスト音声変換装置 - Google Patents
テキスト音声変換装置Info
- Publication number
- JP2002221980A JP2002221980A JP2001017058A JP2001017058A JP2002221980A JP 2002221980 A JP2002221980 A JP 2002221980A JP 2001017058 A JP2001017058 A JP 2001017058A JP 2001017058 A JP2001017058 A JP 2001017058A JP 2002221980 A JP2002221980 A JP 2002221980A
- Authority
- JP
- Japan
- Prior art keywords
- text
- waveform
- speech
- dictionary
- registered
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000006243 chemical reaction Methods 0.000 claims abstract description 112
- 238000012545 processing Methods 0.000 claims abstract description 90
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 39
- 230000015654 memory Effects 0.000 claims description 92
- 230000015572 biosynthetic process Effects 0.000 claims description 29
- 238000003786 synthesis reaction Methods 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 17
- 230000008859 change Effects 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 2
- 230000001755 vocal effect Effects 0.000 claims 1
- 238000000034 method Methods 0.000 description 50
- 238000010586 diagram Methods 0.000 description 28
- 230000008569 process Effects 0.000 description 22
- 241000282326 Felis catus Species 0.000 description 16
- 230000000694 effects Effects 0.000 description 12
- 241000272525 Anas platyrhynchos Species 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 6
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 241000282320 Panthera leo Species 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 241000849798 Nita Species 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 241000255925 Diptera Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Document Processing Apparatus (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
する。 【解決手段】 テキスト中の音関連用語に対応する実録
音の音声波形を読み出してテキストの合成音声波形に結
合するか重畳させて出力する日本語テキスト変換装置を
提供する。この装置は、外部から入力されたテキストを
音声波形に変換する変換処理部を具える。この装置は、
さらに、テキスト解析部と結合されたフレ−ズ辞書と、
音声規則合成部と結合されている波形辞書を具える。フ
レ−ズ辞書には、 実録音の再生音として表現されるべ
き音関連用語が予め登録されている。波形辞書には、実
録音で得た、該音関連用語に対応する波形デ−タが予め
登録されている。変換処理部は、テキスト中の用語とフ
レ−ズ辞書に登録されている音関連用語との照合が一致
した用語に対しては、波形辞書に登録されている、当該
一致した音関連用語に対応する波形デ−タを音声波形と
して、テキストの合成音声音声波形中に結合して、或い
は、テキストの全文の音声波形と時間的に並列に、出力
する機能を有する。
Description
を合成音声に変換する日本語テキスト音声変換装置に関
するものである。
日常読み書きしている漢字かな混じり文を入力テキスト
として、このテキストを音声に変換し、変換された音声
を出力する装置である。従来装置の構成の概略を図1に
示す。この従来装置は、入力部10から外部入力された
日本文テキストを音声変換する変換処理部12を具えて
いる。この入力テキストは、変換処理部12のテキスト
解析部14に入力される。
かな混じり文から音韻・韻律記号列を生成する。音韻・
韻律記号列とは、入力文の読み・アクセント・イントネ
ーション等を文字列として記述したもの(中間言語)で
ある。各単語の読みとアクセントは発音辞書16に登録
されており、この辞書16を参照しながら音額・韻律記
号列が生成される。例えば「猫がニャーと鳴いた」とい
うテキストが入力されると、テキスト解析部14は、発
音辞書16を参照し、従来周知の最長一致法により、す
なわち、表記が入力テキストと一致する最長の単語を用
いて、入力テキストを単語に分割する。こうして、入力
テキストは「猫(ネ’コ)」「が(ガ)」「ニャー(ニ
ャ’ー)」「と(ト)」「鳴い(ナイ)」「た(夕)」
という単語列に分割される。括弧()内に示したのは、
その単語の辞書登録情報、すなわち、読みおよびアクセ
ントである。
語の辞書登録情報、すなわち、括弧()内の情報を用い
て「ネ’コガ,ニャ’ート,ナイタ」という音韻・韻律
記号列を生成し、それを音声規則合成部18に引き渡
す。音韻・韻律記号列中の「’」はアクセントの位置
を、および「,」はアクセント句の区切りをそれぞれ示
す。
格納されているメモリ20を参照しながら、音韻・韻律
記号列に基づき合成波形を生成する。この合成波形がス
ピーカ22を通して出力される。音声素片データは、そ
れを接続して合成波形をつくるための音声の基本単位で
あり、音の種類等に応じて様々な音声素片データがRO
M等のメモリに蓄積されている。
音声変換装置は、入力された日本語テキストを合成音声
に変換してこの合成音声を出力するので、どのような日
本語テキストでも合成音声として読み上げられるという
利点を有している。しかし、出力される合成音声はまる
でアナウンサーが朗読しているかのように聞こえる。こ
のため、従来の合成音声は、聞いている人に単調な感じ
を与えてしまい、その結果、聞き手は、しばらくすると
聞き飽きたり疲れたりしてくるといった問題があつた。
めになされたものである。
疲れたりしない合成音声を出力する日本語テキスト音声
変換装置を提供することにある。
から選ばれた音関連用語の合成音声波形を、実録音声波
形で置き換えて、全体の合成音声を出力する日本語テキ
スト音声変換装置を提供することにある。
語の全体の合成音声波形と、テキストの用語中から選ば
れた音関連用語に関連する実録音声波形とを、双方同時
に出力させて、合成音声を出力する日本語テキスト音声
変換装置を提供することにある。
め、この発明の日本語テキスト音声変換装置は、下記の
ような構成を有する。
換処理部と、この変換処理部に個別に接続されたフレ−
ズ辞書および波形辞書とを具えている。この変換処理
は、外部から入力された任意の日本語テキストを音声波
形に変換する。このフレ−ズ辞書は、実録音の再生音と
して表現されるべき音関連用語、例えば擬声語、背景
音、歌詞、曲名等々の用語の表記が予め登録されてい
る。さらに、波形辞書は、実録音で得た、該音関連用語
に対応する波形デ−タが予め登録されている。
とフレ−ズ辞書に登録されている音関連用語との照合が
一致した用語に対しては、波形辞書に登録されている、
当該一致した音関連用語に対応する実録音波形デ−タを
音声波形として出力させるように、構成してある。或い
はまた、好ましくは、テキストの全体の合成音声の音声
波形と実録音声波形デ−タとを、個別にかつ同時に、出
力させる構成としても良い。
用語が、擬声語や歌詞等の場合には、テキストの合成音
声中に実録音声が挿入されて出力されるので、臨場感の
ある合成音声出力となる。
関連用語が、背景音や曲名等の場合には、テキストの全
体の合成音声の出力と合わせて、実録音声がBGMのよ
うに同時に出力されるので、聞き応えのある合成音声出
力となる。
テキスト音声変換装置の構成の実施の形態につき、説明
する。尚、各図は、この発明が理解出来る程度に概略的
に示してあるにすぎない。
構成例を示すブロック図である。この装置100は、テ
キスト−音声波形変換処理部110と、この変換処理部
110にディジタル電気情報として入力テキストを入力
させるための外部入力デ−タ取り込み用の入力部120
と、この変換処理部110から出力される音声波形(合
成音声波形とも言う。)を出力する音声出力装置例えば
スピ−カ130とを具えている。
キストをその音韻・韻律記号列に変えて出力するテキス
ト解析部102と、この音韻・韻律記号列を合成音声波
形に変換してスピ−カ130へと出力する音声規則合成
部104とを具えている。さらに、この変換処理部11
0は、テキスト解析部102に結合されていてかつ単語
の読みとアクセントが登録されている発音辞書106
と、音声規則合成部104に結合されていてかつ音声素
片デ−タが格納されている、例えばROM(リ−ド・オ
ンリ−・メモリ)といった音声波形メモリ(記憶装置)
108とを具えている。この音声規則合成部104は、
テキスト解析部102からの音韻・韻律記号列を、音声
素片デ−タに基づいて、合成音声波形に変換する。
施の形態の各構成に設けられている発音辞書の登録内容
例を表1に示してある。表1では、表記と、その表記の
品詞と、その表記に対応する読み及びアクセントとが示
されている。
び後述する他の実施の形態の各構成に設けられている
が、周知の通り、光学式読み取り装置であっても、キ−
ボ−ドのような入力装置であって良く、又、これらの適
当な組み合わせ装置、その他の任意好適な入力手段とし
て構成し得る。
ト解析部102に結合されたフレ−ズ辞書140と、音
声規則合成部104に結合された波形辞書150とを具
えている。フレ−ズ辞書140は、実録音の再生音とし
て表現されるべき音関連用語が予め格納すなわち登録さ
れている。この構成例では、音関連用語を擬声語とし、
従って、フレ−ズ辞書140を擬声語辞書とする。この
擬声語辞書140には、擬声語の表記とこの擬声語に対
応する波形ファイル名とが記述されている。
す表である。表2には、「ニャー」(猫の鳴き声の擬声
語)、「ワンワン」(犬の鳴き声の擬声語)、「ピンポ
ン」(チャイムの音の擬声語)、「カキーン」(バット
に硬球が当たった音の擬声語)等の表記とその表記に対
応する波形ファイル名が例示されている。
記述された音関連用語に対応する、実録音で得た波形デ
−タが波形ファイルとして格納されている。波形ファイ
ルは実際に音や声を録音した原音データである。例え
ば、表記「ニャー」の波形ファイル“CAT.WAV”
には猫の鳴き声を録音した音声波形が格納されている。
尚、録音して得られた音声波形を実録音声波形又は自然
音声波形とも言う。
の用語中に、フレ−ズ辞書140に登録されている音関
連用語と一致する用語があると、当該用語の波形デ−タ
として、音声素片デ−タを合成して得られる合成音声波
形の代わりに、当該用語の実録音声波形デ−タで置き換
えて出力する機能を有している。
0を具えている。この第1メモリ160は、テキスト解
析部102や音声規則合成部104での処理において必
要な、或いは、この処理で生成された情報やデ−タを一
時的に保存するためのメモリである。この構成例では、
この第1メモリ160は、テキスト解析部102及び音
声規則合成部104に共用のメモリとして設けてある
が、この第1メモリ160を、テキスト解析部102及
び音声規則合成部104に対して、その内部或いは外部
に、個別に設けても良く、いずれの箇所に設けるかは設
計上の問題である。
作につき、具体例を挙げて説明する。図3は、合成音声
波形と、擬声語の実録音声波形とを結合する例を説明す
るための説明図である。図4および図5は、この動作の
説明に供するテキスト解析部の動作フロ−図、および図
6および図7は、この動作の説明に供する音声規則合成
部の動作フロ−図である。これら動作フロ−図におい
て、各処理ステップを記号Sに数字を添えて示す。
ーと鳴いた」である場合を考える。入力テキストが入力
部120で読み込まれてテキスト解析部102に入力さ
れる。
入力されたかどうか判断する(図4のS1)。入力が確
認されると、入力テキストを第1メモリ160に一旦格
納する(図4のS2)。
わち、表記が入力テキストと一致する最長の単語を用い
て、入力テキストを単語に分割する。この最長一致法の
処理は、次の通りである。
テキストポンインタpをセットして、テキストポインタ
の初期化を行う(図4のS3)。
ンタpを先頭にして入力テキストと表記(見出し)がマ
ッチし(表記マッチング法)かつ接続条件を満たす単語
の有無を調べるために、発音辞書106および擬声語辞
書140を検索する(図4のS4)。接続条件とは、文
頭なら文頭として存在出来るか、文中なら直前の単語と
文法的に接続可能であるか、などという条件のことであ
る。
は擬声語辞書に見つかるかどうか、すなわち、単語候補
が得られるかどうかを検索する(図4のS5)。この検
索で単語候補が見つからなければ、バックトラック(図
4のS6)して、後述するステップ(S12)へ進む。
尚、バックトラックとは、ポインタpを直前の単語の先
頭まで戻し、その単語の次候補を用いて解析を試みるこ
とである。
候補の中から最長の単語すなわち用語(用語には、単語
や言い回し等の種々の表現を含む。)を選択する(図4
のS7)。この場合、長さの同じ単語候補からは、好ま
しくは、自立語よりも付属語を優先して選択する。又、
単語候補が1つしか無い場合には、好ましくは、その単
語をそのまま選択する。
0に登録されている音関連用語であるかどうかを調べる
ため、擬声語辞書140の参照すなわち検索を行う(図
5のS8)。この検索も、この辞書140に対して、表
記マッチング法により行う。
の両方に表記が同じ単語すなわち用語が登録されている
場合には、擬声語辞書140に登録された単語すなわち
音関連用語の方を用いることにする。
されている場合には、この辞書140から波形ファイル
名を読出して、この単語表記と一緒に第1メモリ160
に一旦格納する(図5のS9およびS11)。
0に登録されていない非登録単語である場合には、発音
辞書106からこの非登録単語に対応する読みとアクセ
ントとを読出して、第1メモリ160に一旦格納する
(図5のS10およびS11)。
pを進めて、テキストポインタpが入力テキストの文末
に来るまで、上述した解析を繰り返し行って、入力テキ
ストの文頭から文末までを単語すなわち用語に分割する
(図5のS12)。
い場合には、ステップS4に戻り、終了している場合に
は、第1メモリ160から各単語の読みとアクセントを
読出して入力テキストを単語毎に区切られた単語列にす
ると共に、波形ファイル名を読出す。この場合、「猫が
ニャーと鳴いた」は、「猫|が|ニャー|と|鳴い|
た」という単語に区切られる。尚、記号「|」は、単語
の区切りを表記する記号であり、文章表現上で使用した
にすぎず、実際にこの表記が区切り情報として付されて
いるわけではない。
の単語列は、その単語列中の擬声語が、波形ファイル名
で置換されて、他の単語は読みとアクセントに基づい
て、音韻・韻律記号列が生成される(図5のS13)。
アクセントとを単語毎に関係付けて表すと、入力テキス
トは、「猫(ネ’コ)」「が(ガ)」「ニャー(“CA
T.WAV”)」「と(ト)」「鳴い(ナイ)」「た
(夕)」という単語列に分割される。括弧()内に示し
たのは、その単語の両辞書102および140の辞書登
録情報であり、すなわち、既に説明した通り、発音辞書
106の登録単語の場合は読みとアクセント、および凝
声語辞書140の登録単語の場合は波形ファイル名であ
る。
単語の辞書登録情報、すなわち、括弧()内の情報を用
いて「ネ’コガ,“CAT.WAV”ト,ナイタ」とい
う音韻・韻律記号列を生成し、これを図示されていない
メモリに一旦登録する(図5のS14)。
て生成されるが、単語列の先頭から生成される。基本的
には、各単語の辞書登録情報を先頭からつなぎ合わせて
生成するが、アクセント区切りの位置には、「,」の記
号が挿入される。
順次読出して、それを音声規則合成部104に送る。
・韻律記号列「ネ’コガ,“CAT.WAV”ト,ナイ
タ」に基づき、音声素片データが格納されている音声波
形メモリ108から当該音声素片デ−タを読出してき
て、合成音声波形を生成する。この場合の処理手順につ
き説明する。
列から読出しを行う(図6のS15)。この読出された
音韻・韻律記号列の各記号が波形ファイル名であるかど
うかを順次判定する(図6のS16)。
合には、音声波形メモリ108にアクセスして、その記
号に対応する音声素片デ−タの検索を行う(図6のS1
7およびS18)。
場合には、それに対応する合成音声波形を読み出して、
第1メモリ160に一旦格納する(図6のS19)。
る場合には、波形辞書150にアクセスして、その波形
ファイル名に対応する波形デ−タを検索する(図6のS
20およびS21)。
録音音声波形又は実録音声波形)を読み出して、第1メ
モリ160に一旦格納する(図6のS22)。
AV”が挿入されているので、「ネ’コガ,」の合成音
声波形を生成した後、波形辞書150から波形ファイル
“CAT.WAV”の実録音声波形が読み出される。従
って、これら生成済みの合成音声波形と実録音声波形と
を第1メモリ160から読出してきて、両波形を配列順
序通りに連結(又は結合とも言う。)して、合成音声波
形を生成し、これを第1メモリ160に一旦格納する
(図7のS23およびS24)。
了していない場合には(図7のS25)、次音節の記号
列の読出しを行って(図7のS26)、ステップS16
へ戻り、同様にして、波形の読出しを行う。
音声波形がメモリ108の音声素片データから生成され
るので、この波形を生成済の「ネ’コガ,“CAT.W
AV”」の合成音声波形に結合する(S16からS2
5)。最終的に、この入力テキストに対応した全ての合
成音声波形が出力される(図7のS27)。
を説明するための、合成音声波形図である。この合成音
声波形では、音関連用語「ニャー」の擬声語の部分の合
成音声が、自然音声波形に置き換えらる状況を示してい
る。すなわち、「ニャー」に対応する用語の位置に自然
音声波形が埋め込み結合されて、入力テキスト全体の合
成音声波形が形成されている。
数個埋め込まれている場合は、その全ての個所に対して
同様の処理、すなわち、波形ファイルからの波形読み出
しと生成済波形への結合を行なう。音韻・韻律記号列中
に波形ファイル名が1つも埋め込まれていない場合は、
音声規則合成部104の動作は、従来技術と同じ動作と
なる。
全体の合成音声波形がスピーカ130から合成音声とし
て出力される。
した音で入力テキスト中の擬声語の部分を出力すること
ができるので、入力テキスト全てを合成音で出力した場
合と比べて、臨場感あふれる合成音となり、聞いていて
飽きたり疲れたりすることがない。
スト音声変換装置の第2の実施形態につき説明する。図
8は、図2と同様に構成された、この装置の構成例を示
すブロック図である。この装置200も、図2に示され
た構成と同様に接続された、変換処理部210と、入力
部220と、フレ−ズ辞書240と、波形辞書250
と、スピ−カ230とを具えている。又、変換処理部2
10は、図2に示された構成と同様に接続された、テキ
スト解析部202と、音声規則合成部204と、発音辞
書206と、音声素片デ−タを格納するための音声波形
メモリ208と、上述した第1メモリ160と同様な役
割を果たす第1メモリ260を具えている。
波形辞書250は、それぞれ、第1の実施の形態の場合
とは、登録内容が多少異なっており、又、変換処理部2
10を構成するテキスト解析部202および音声規則合
成部204は、それぞれ、第1の実施の形態の場合と
は、機能が多少異なっている。すなわち、この変換処理
部210は、テキスト中の用語とフレ−ズ辞書に登録さ
れている音関連用語との照合が一致した場合には、波形
辞書に登録されている当該音関連用語に対応する波形デ
−タを、テキストの音声波形と重畳させて出力させる機
能を有している。
は、テキスト解析部202に結合されているフレ−ズ辞
書240には、背景音の状況を表現する音関連用語が、
登録情報として、登録されている。この辞書240に
は、この登録情報として、音関連用語の表記すなわち背
景音の表記と、この表記に対応する波形ファイル名とが
記述されている。従って、このフレ−ズ辞書240を背
景音辞書として構成してある。
例を示す表である。表3には、「しとしと」(雨の降る
様子の表記)、「ざあざあ」(雨の降る様子の表記)、
「わいわい」(人が騒いでいる様子の表記)、「がやが
や」(人が騒いでいる様子の表記)等の表記とその表記
に対応する波形ファイル名が例示されている。
記述された音関連用語に対応する、実録音で得た波形デ
−タが波形ファイルとして格納されている。波形ファイ
ルは実際に音や声を録音した原音データである。例え
ば、表記「しとしと」の波形ファイル“RAIN1.W
AV”には「しとしと」と雨が降る音を録音した実録音
声波形が格納されている。
作につき、具体例を挙げて説明する。図9は、テキスト
全体の合成音声波形と、背景音の実録音声波形(すなわ
ち自然音声波形)との重畳例を説明する図、すなわち、
テキスト全体の合成音声波形と、背景音の実録音声波形
とを、互いに個別に、しかも、時間的に並列に、出力す
る例を説明するための説明図である。図10および図1
1は、この動作の説明に供するテキスト解析部のフロ−
図、および図12〜図14は、この動作の説明に供する
音声規則合成部のフロ−図である。
しと降っていた」である場合を考える。入力テキストが
入力部220で読み込まれてテキスト解析部202に入
力されると、第1の実施の形態で説明したと同様に、従
来周知の最長一致法により、入力テキストを単語に分割
する。この単語分割して音韻・韻律記号列を生成するま
での処理は、図4および図6を参照して説明したのとほ
ぼ同様なステップを得て行われるが、以下、説明する。
入力されたかどうか判断する(図10のS30)。入力
が確認されると、入力テキストを第1メモリ260に一
旦格納する(図10のS31)。
わち、表記が入力テキストと一致する最長の単語を用い
て、入力テキストを単語に分割する。この最長一致法の
処理は、次の通りである。
テキストポンインタpをセットして、テキストポインタ
の初期化を行う(図10のS32)。
ンタpを先頭にして入力テキストと表記(見出し)がマ
ッチし(表記マッチング法)かつ接続条件を満たす単語
の有無を調べるために、発音辞書206を検索する(図
10のS33)。
つかるかどうか、すなわち、単語候補が得られるかどう
かを検索する(図10のS34)。この検索で単語候補
が見つからなければ、バックトラック(図10のS3
5)して、後述するステップ(S41)へ進む。
候補の中から最長の単語すなわち用語(用語には、単語
や言い回し等の種々の表現を含む。)を選択する(図1
0のS36)。この場合、長さの同じ単語候補からは、
好ましくは、自立語よりも付属語を優先して選択する。
又、単語候補が1つしか無い場合には、好ましくは、そ
の単語をそのまま選択する。
0に登録されている音関連用語であるかどうかを調べる
ため、背景音辞書240の参照すなわち検索を行う(図
11のS37)。この検索も、この辞書240に対し
て、表記マッチング法により行う。
されている場合には、この辞書240から波形ファイル
名を読出して、この単語表記と一緒に第1メモリ260
に一旦格納する(図11のS38およびS40)。
0に登録されていない非登録単語である場合には、発音
辞書206からこの非登録単語に対応する読みとアクセ
ントとを読出して来て、第1メモリ260に一旦格納す
る(図11のS39およびS40)。
pを進めて、テキストポインタpが入力テキストの文末
に来るまで、上述した解析を繰り返し行って、入力テキ
ストの文頭から文末までを単語すなわち用語に分割する
(図11のS41)。
い場合には、ステップS33に戻り、終了している場合
には、メモリから各単語の読みとアクセントを読出して
入力テキストを単語毎に区切られた単語列にすると共
に、波形ファイル名を読出す。この場合、「雨がしとし
と降つていた」は、「雨|が|しとしと|降っ|て|い
|た」という単語に区切られる。
の単語列は、その単語列中の背景音が、波形ファイル名
で置換されて、他の単語は読みとアクセントに基づい
て、音韻・韻律記号列が生成される(図11のS4
2)。
アクセントとを単語毎に関係付けて表すと、入力テキス
トは、「雨(ア’メ)」「が(ガ)」「しとしと(シ
ト’シト)」「降っ(フ’ッ)」「て(テ)」「い
(イ)」「た(夕)」という単語列に分割される。括弧
()内に示したのは、その単語の辞書登録情報、すなわ
ち、読みとアクセントである。
の単語列の各単語の辞書登録情報、すなわち、括弧()
内の情報を用いて「ア’メガ,シト’シト,フ’ッテイ
タ」という音韻・韻律記号列を生成する。一方、テキス
ト解析部202は、背景音辞書240(図8)を参照し
てこの単語列中の単語が背景音辞書240に登録されて
いないかどうかを調べる。すると、「しとしと(RAI
N1.WAV)」が登録されているので、対応する波形
ファイル名RAIN1.WAV:を音韻・韻律記号列の
先頭に加えて「RAIN1.WAV:ア’メガ,シト’
シト,フ’ッテイタ」という音韻・韻律記号列に変更
し、これを第1メモリ260に一旦登録する(図11の
S43)。その後、この波形ファイル名付き音韻・韻律
記号列を音声規則合成部204に送る。
の単語が単語列中に複数個含まれている場合は、生成し
た音韻記号列の先頭に、対応する波形ファイル名を全て
付加する。背景音辞書240に登録された背景音の単語
が単語列中に1つも含まれていない場合は、生成した音
韻・韻律記号列をそのまま音声規則合成部204に送
る。
・韻律記号列「RAINl.WAV:ア’メガ,シト’
シト,フ’ッテイタ」に基づき、音声素片データが格納
されている音声波形メモリ208から当該音声素片デ−
タを読出してきて、合成音声波形を生成する。この場合
の処理手順につき説明する。
列から読出しを行う。音声規則合成部204は、読みと
アクセントの音韻・韻律記号列の先頭に波形ファイル名
が付いているかどうかを判断する。音韻・韻律記号列の
先頭に波形ファイル“RAIN1.WAV”が付加され
ているので、「ア’メガ,シト’シト,フ’ッテイタ」
の波形を音声素片データ208から生成した後、波形辞
書250から波形ファイル“RAINl.WAV”の波
形を読み出し、この波形と生成済の「ア’メガ,シト’
シト,フ’ッテイタ」の波形とを、波形の開始点から、
同時に出力、すなわち重畳させて出力する。
が「ア’メガ,シト’シト,フ’ッテイタ」の波形より
長い場合は、前者を後者の時間的長さで打ち切って同時
に出力する。この場合には、打ち切りという簡単な処理
で合成音声波形と背景音の波形デ−タとを重畳させるこ
とが出来る。
「ア’メガ,シト’シト,フ’ッテイタ」の波形より短
い場合は、後者の長さになるまで前者を繰り返し連続さ
せて足し合わせる。この場合には、背景音の波形デ−タ
が合成音声波形よりも早く終わってしまうのを防ぐこと
が出来る。
が複数個付加されている場合は、その全てに対して同様
の処理、すなわち、波形ファイルからの波形読み出しと
生成済波形への足し合わせを行なう。例えば、音韻・韻
律記号列の先頭にRAIN1.WAV:LOUD.WA
V:が付加されていれば、雨の音と雑踏の音の両方の波
形が合成音波形に足し合わされる。音韻・韻律記号列の
先頭に波形ファイル名が1つも付加されていない場合
は、音声規則合成部204の動作は従来技術と同じとな
る。
る。まず、テキストの先頭音節に対応する記号列から読
出しを行う(図12のS44)。
列の先頭に付されていると判断する。その結果、この音
声規則合成部204は、メモリ208にアクセスを行っ
て、波形ファイル名に続く読み及びアクセントの音韻・
韻律記号列の各記号に対応する音声素片デ−タの検索を
行う(図12のS45及びS46)。
場合には、それに対応する合成音声波形を読み出して、
第1メモリ260に一旦格納する(図12のS47及び
S48)。
された順に次々と連結されて、連結された結果が第1メ
モリ260に一旦格納される(図12のS49及びS5
0)。
ガ,シト’シト,フ’ッテイタ」という音韻・韻律記号
列の一文全体の合成音声波形が生成されたか否かを判断
する(図12のS51)。この判断の結果、まだ、一文
全体の合成音声波形が生成されていないと判断された場
合には、次音節対応記号列の読出しを指令し(図12の
S52)、ステップS45に戻る。
と判断された場合には、音声規則合成部204は、波形
ファイル名を読出す(図13のS53)。ここで説明す
る例の場合には、波形ファイル名がある場合であるの
で、波形辞書250にアクセスを行って、波形デ−タの
検索を行う(図13のS54及びS55)。
応する背景音波形を波形辞書250から読出してきて、
第1メモリ260に一旦格納する(図13のS56及び
S57)。
読出しが終了すると、波形ファイル名が1つか或いは複
数あるかどうかを判定する(図13のS58)。1つし
か波形ファイル名がない場合には、その背景音波形を第
1メモリ260から読出し(図13のS59)、又、も
し、複数の波形ファイル名が存在する場合には、これら
に対応する背景音の全てをメモリから同時に読出す(図
13のS60)。
いはこの読出しと同時に、既に生成済みの合成音声波形
を第1メモリ260から読出す(図14のS61)。
しが完了すると、背景音波形及び合成音声波形の双方の
長さの比較を行う(図14のS62)。
的長さが等しい場合には、背景音波形及び合成音声波形
の双方を時間的に並列に、すなわち同時に、音声規則合
成部204から出力させる。
的長さが等しくない場合には、合成音声が背景音よりも
長いかどうかを判定する(図14のS64)。背景音波
形が合成音声波形よりも短い場合には、合成音声波形の
出力と同時に、背景音波形を合成音声の長さと一致する
まで繰り返して出力させる(図14のS65及びS6
3)。
い場合には、合成音声波形の出力と同時に、背景音波形
を合成音声波形の長さと一致する長さで打ち切って出力
させる(図14のS66及びS63)。
声波形の双方を重畳させて、音声規則合成部204から
スピ−カ230へと、出力させることが出来る。
関連用語が含まれていないため、音韻・韻律記号列の先
頭に波形ファイル名が付されていない場合には、ステッ
プS37からステップS39に進む。そして、ステップ
S53において、波形ファイル名がないので、音声規則
合成部204は、合成音声波形のみを読み出してきて合
成音声のみを出力する(図13のS68及びS69)。
「雨がしとしと降っていた」の合成音声波形の出力と同
時に、背景音の自然音声波形が出力されている状態を示
している。すなわち、合成音声波形の開始点から終点ま
での同一期間に、背景音の自然音声波形が出力されてい
る。
全体の波形がスピーカ230から出力される。
した音を合成音の背景音として出力することができるの
で、入力テキストを合成音のみで出力した場合と比べ
て、臨場感あふれる合成音となり、このため、合成音を
聞いていて飽きたり疲れたりすることがない。又、この
装置200によれば、簡単な処理により、テキストの合
成音声波形に背景音などの実録音の波形デ−タを重畳さ
せることが出来る。
語テキスト音声変換装置の第3の実施の形態につき説明
する。図15は、図2と同様に構成された、この装置の
構成例を示すブロック図である。この装置300も、図
2に示された構成と同様に接続された、変換処理部31
0と、入力部320と、フレ−ズ辞書340と、スピ−
カ330とを具えている。又、変換処理部310は、図
2に示された構成と同様に接続された、テキスト解析部
302と、音声規則合成部304と、発音辞書306
と、音声素片デ−タを格納するための音声波形メモリ3
08と、上述した第1メモリ160と同様な役割を果た
す第1メモリ360を具えている。
第1及び第2の実施の形態の場合とは、登録内容が異な
っている。又、変換処理部310を構成するテキスト解
析部302及び音声規則合成部304は、それぞれ、第
1及び第2の実施の形態とは、機能が多少異なってい
る。
340として、歌唱フレーズ辞書が設けられている。テ
キスト解析部302と結合されているこの歌唱フレ−ズ
辞書340には、歌唱フレーズの表記とそれに対応する
歌唱用音韻・韻律記号列が記述されている。歌唱用音韻
・韻律記号列とは歌詞と楽譜を記述した文字列であり、
例えば「アc2」はc(ド)の高さ、2分音符の長さで
「ア」を発声することを表わす。
合成部304に結合されて歌唱用音韻・韻律記号列処理
部350が設けられている。この歌唱用音韻・韻律記号
列処理部350は、音声波形メモリ308とも結合され
ている。この歌唱用音韻・韻律記号列処理部350は、
歌唱用音韻・韻律記号列を解析して音声波形メモリ30
8の音声素片データから歌声の合成音声波形を生成する
ために用いられる。
例を示す表である。表4には、「あんたがたどこさ」、
「さくらさくら」及び「ずいずいずっころばし」等とい
った歌唱の表記と、その表記に対する歌唱用音韻・韻律
記号列が例示されている。
いては、これに入力される歌唱用音韻・韻律記号列の解
析を行う。この解析処理により、例えば上述した「アc
2」は、音節「ア」の波形を直前の波形に連結する際
に、音の高さがc(ド)となるような、又、音の長さが
2分音符の長さになるような音節「ア」の波形を連結す
ることができる。つまり、同じ音声素片デ−タ「ア」を
用いて、普通の発声の「ア」と歌声の「ア」の双方の波
形を生成することが出来る。換言すれば、歌唱用音韻・
韻律記号列において、「c2」のような記号が付加され
ている音節は、歌声として音声波形を生成し、一方、こ
のような記号が付加されていない音節は、普通の発声と
して音声波形を生成することになる。
は、テキスト中の歌詞と歌唱フレ−ズ辞書に登録されて
いる登録歌詞との照合が一致した場合には、歌唱フレ−
ズ辞書に登録されている当該登録歌詞と対となっている
歌唱用音韻・韻律記号列に基づいて変換された音声波形
を、音声素片デ−タを合成して得られた歌詞の合成音声
波形の代わりに、歌詞の音声波形として出力させる機能
を有している。
体例を挙げて説明する。図16は、テキストのうち歌詞
を除いた部分の合成音声波形と、歌声の合成音声波形と
の結合例を説明する図、すなわち、テキストの歌詞に対
応する合成音声波形の代わりに、歌声の合成音声波形を
埋め込み結合させて一つのまとまった合成音声波形とし
て出力する例を説明するための説明図である。図17お
よび図18は、この動作の説明に供するテキスト解析部
のフロ−図、および図19は、この動作の説明に供する
音声規則合成部のフロ−図である。
らさくらと歌いました」である場合を考える。入力テキ
ストが入力部320で読み込まれてテキスト解析部30
2に入力されると、第1の実施の形態で説明したと同様
に、従来周知の最長一致法により、入力テキストを単語
に分割する。この単語分割して音韻・韻律記号列を生成
するまでの処理は、図4および図5を参照して説明した
のとほぼ同様なステップを経て行われるが、以下、説明
する。
入力されたかどうか判断する(図17のS70)。入力
が確認されると、入力テキストを第1メモリ360に一
旦格納する(図17のS71)。
わち、表記が入力テキストと一致する最長の単語を用い
て、入力テキストを単語に分割する。この場合の最長一
致法の処理は、次の通りである。
テキストポンインタpをセットして、テキストポインタ
の初期化を行う(図17のS72)。
ンタpを先頭にして入力テキストと表記(見出し)がマ
ッチし(表記マッチング法)かつ接続条件を満たす単語
の有無を調べるために、発音辞書306および歌唱フレ
−ズ辞書340を検索する(図17のS73)。
は歌唱フレーズ辞書に見つかるかどうか、すなわち、単
語候補が得られるかどうかを検索する(図17のS7
4)。この検索で単語候補が見つからなければ、バック
トラック(図17のS75)して、後述するステップ
(S81)へ進む。
候補の中から最長の単語すなわち用語(用語には、単語
や言い回し等の種々の表現を含む。)を選択する(図1
7のS76)。この場合、長さの同じ単語候補からは、
好ましくは、自立語よりも付属語を優先して選択する。
又、単語候補が1つしか無い場合には、好ましくは、そ
の単語をそのまま選択する。
書340に登録されている歌詞の用語であるかどうかを
調べるため、歌唱フレ−ズ辞書340の参照すなわち検
索を行う(図18のS77)。この検索も、この辞書3
40に対して、表記マッチング法により行う。
340の両方に表記が同じ単語すなわち歌詞が登録され
ている場合には、歌詞フレ−ズ辞書340に登録された
単語すなわち歌詞の用語の方を用いることにする。
に登録されている場合には、この辞書340からこの単
語に対応する歌唱用音韻・韻律記号列を読出して、この
単語表記と一緒に第1メモリ360に一旦格納する(図
18のS78およびS80)。
書340に登録されていない非登録単語である場合に
は、発音辞書306からこの非登録単語に対応する読み
とアクセントとを読出し来て、第1メモリ360に一旦
格納する(図18のS79およびS80)。
pを進めて、テキストポインタpが入力テキストの文末
に来るまで、上述した解析を繰り返し行って、入力テキ
ストの文頭から文末までを単語すなわち用語に分割する
(図18のS81)。
い場合には、ステップS73に戻り、終了している場合
には、第1メモリ360から各単語の読みとアクセント
を読出して入力テキストを単語毎に区切られた単語列に
すると共に、歌唱用音韻・韻律記号列を読出す。この場
合、「彼はさくらさくらと歌いました」は、「彼|は|
さくらさくら|と|歌い|まし|た」という単語に区切
られる。
の単語列は、その単語列中の歌詞が、歌唱用音韻・韻律
記号列で置換されて、他の単語は読みとアクセントに基
づいて、音韻・韻律記号列が生成され、第1メモリ36
0に一旦格納される(図18のS82及びS83)。
アクセントとを単語毎に関係付けて表すと、入力テキス
トは、「彼(カ’レ)」「は(ワ)」「さくらさくら
(サa4クa4ラb2サa4クa4ラb2)「と
(ト)」「歌い(ウタイ)」「まし(マ’シ)」「た
(夕)」という単語列に分割される。括弧()内に示し
たのは、その単語の辞書登録情報であり、発音辞書30
6の単語の場合は読みとアクセントに、歌唱フレーズ辞
書340の単語の場合は歌唱用音韻・韻律記号列になっ
ている。テキスト解析部302は、この単語列の各単語
の辞書登録情報、すなわち、括弧()内の情報を用いて
「カ’レワ,サa4クa4ラb2サa4クa4ラb2
ト,ウタイマ’シタ」という音韻・韻律記号列を生成
し、それを音声規則合成部304に送る。
0から音韻・韻律記号列「カ’レワ,サa4クa4ラb
2サa4クa4ラb2ト,ウタイマ’シタ」を、その先
頭音節対応記号列から順に、読み出す(図19のS8
4)。
どうか、すなわち歌詞に対応する音韻・韻律記号列であ
るかどうかを判定する(図19のS85)。この判定に
より、歌唱用の記号列でないと判定されると、音声波形
メモリ308にアクセスが行われて当該記号列に対応す
る音声素片デ−タの検索が行われ、該当する音声素片デ
−タが見つかるまで行われる(図19のS86及びS8
7)。
索されると、この音声素片デ−タに該当する合成音声波
形が音声波形メモリ308から読み出されて第1メモリ
360に一旦格納される(図19のS88及びS8
9)。
360に格納されている場合には、順次の合成音声波形
を結合すなわち連結させる(図19のS90)。
出しが完了していない場合にには(図19のS91)、
次音節対応記号列の読出し(図19のS92)を行って
ステップS85に戻る。
するそれぞれの記号列に対しこのような順次の処理を行
うことによって、「カ’レワ」に関して、従来通りの朗
読調の合成音声波形が生成される。この生成済みの合成
音声波形は、音声規則合成部304に引き渡されて、第
1メモリ360に格納される。
ラb2」の記号列に対し読出しが行われる(図19のS
92)。
どうかの判定において、この音韻・韻律記号列「サa4
クa4ラb2サa4クa4ラb2」が歌唱用記号列であ
ると判定されると、この歌唱用記号列が歌唱用音韻・韻
列記号列処理部350に送られて、その解析が行われる
(図19のS93)。
では歌唱用音韻・韻律記号列「サa4クa4ラb2サa
4クa4ラb2」が解析される。この処理部350にお
いて、記号列の各記号に対し解析が行われる。例えば、
「サa4」は、音節「サ」に「a4」の記号が付いてい
るので、音節は歌声として、合成音声波形を生成し、し
かも、その音の高さ及び長さは、「a4」で決められた
高さ及び長さに指定される。
いて、音声波形メモリ308にアクセスを行って、その
解析結果に対応する音声素片デ−タの検索が行われる
(図19のS94及びS95)。その結果、各記号に対
する音声素片デ−タから歌声の合成音声波形が生成され
る(図19のS96)。
304に引き渡されて、第1メモリ360に一旦格納さ
れる(図19のS89)。音声規則合成部304では、
受け取った歌声の合成音声波形を、生成済の「カ’レ
ワ」の合成音声波形に結合する(図19のS90)。
につき順次上述したステップS84からS96までの処
理が行われる。その処理の結果、合成音声波形を従来通
り朗読調の合成音声波形として音声波形メモリ308の
音声素片データから生成する。この合成音声波形を生成
済の「カ’レワ,サa4クa4ラb2サa4クa4ラb
2」の合成音声波形に結合する。
律記号列が複数個埋め込まれている場合は、その全ての
個所に対して同様の処理、すなわち、歌声合成音声波形
の生成と生成済波形への結合を行なう。
号列が1つも埋め込まれていない場合は、音声規則合成
部304の動作は従来技術と同じとなる。
形の一例は、図16に示す通りとなる。図16によれ
ば、「彼はさくらさくらと歌いました」のテキストのう
ち、「彼は」と「と歌いました」は、朗読調の合成音声
波形として出力され、「さくらさくら」の部分は、歌詞
であるので、その歌詞に対応する部分には、歌声の合成
音声波形として出力される。すなわち、「さくらさく
ら」の歌声の合成音声波形部分は、「彼は」と「と歌い
ました」の朗読調の合成音声波形部分の間に埋め込まれ
て、スピ−カ330に出力される(図19のS97)。
全体の合成音声波形がスピーカ330から出力される。
ト中の歌唱フレーズの部分を実際に歌って聞かせること
ができるので、入力テキストを全て朗読調で読み上げた
場合と比べて、聞く人にアピールする合成音声となり、
当該合成音声を聞いていて飽きたり疲れたりすることが
ない。
キスト音声変換装置の第4の実施の形態につき説明す
る。図20は、この装置の構成例を示すブロック図であ
る。この装置400も、図2に示された構成と同様に接
続された、変換処理部410と、入力部420と、スピ
−カ430とを具えている。
構成と同様に接続された、テキスト解析部402と、音
声規則合成部404と、発音辞書406と、音声素片デ
−タを格納するための音声波形メモリ408と、上述し
た第1メモリ160と同様な役割を果たす第1メモリ4
60を具えている。
スト解析部402に結合された曲名辞書440と、音声
規則合成部404に結合された楽音波形生成部450と
を具えている。
ている。すなわち、この曲名辞書440には、曲名の表
記とそれに対応する楽曲ファイル名が記述されている。
表5は、曲名辞書440の登録内容の一例を示す表であ
る。表5には、「仰げば尊し」、「君が代」、「七つの
子」等の曲タイトルの表記とその表記に対応する楽曲フ
ァイル名が例示されている。
に対応した楽音波形を生成する機能を有していて、楽音
波形変換部452と、この楽音波形変換部452に結合
されている楽曲辞書454を具えている。
録されている曲名に対応する演奏用の楽曲デ−タが予め
登録されている。すなわち、楽曲辞書454には、曲名
辞書440に記述された曲名の実際の楽曲ファイルが格
納されている。楽曲ファイルはMIDI(Musical Inst
rument Digital Interface)形式のような規格化された
音楽データである。すなわち、MIDIは、電子楽器間
のコミュニケ−ションを目的とした世界共通の周知の通
信プロトコルである。例えば”KIMIGAYO.MI
D”には「君が代」を演奏するMIDIデータが格納さ
れている。楽音波形変換部452は楽曲データ(MID
Iデータ)を楽音波形に変換して音声規則合成部404
に引き渡す機能を有している。
部402および音声規則合成部404は、それぞれ、第
1〜第3の実施の形態の場合とは、機能が多少異なって
いる。すなわち、この変換処理部410は、テキスト中
の曲名を音声波形に変換する機能を有している。そし
て、この変換処理部410は、テキスト中の曲名と曲名
辞書440に登録されている登録曲名との照合が一致し
た場合には、楽音波形生成部450に登録されている当
該曲名に対応する楽曲データを楽音波形に変換して得ら
れる音声波形を、テキストの音声波形と重畳させて、す
なわち時間的に並列に、出力させる機能を有している。
動作につき、具体例を挙げて説明する。図21は、テキ
スト全体の合成音声波形と、楽音波形との重畳例を説明
する図、すなわち、テキスト全体の合成音声波形と、楽
音波形とを、互いに個別に、しかも、時間的に並列に、
出力する例を説明するための説明図である。図22およ
び図23は、この動作の説明に供するテキスト解析部の
フロ−図、および図24〜図26は、この動作の説明に
供する音声規則合成部のフロ−図である。
が代を唄い始めた」である場合を考える。入力テキスト
が入力部420で読み込まれてテキスト解析部402に
入力されると、第1の実施の形態で説明したと同様に、
従来周知の最長一致法により、入力テキストを単語に分
割する。この単語分割して音韻・韻律記号列を生成する
までの処理は、図4および図5を参照して説明したのと
ほぼ同様なステップを得て行われるが、以下、説明す
る。
入力されたかどうか判断する(図22のS100)。入
力が確認されると、入力テキストを第1メモリ460に
一旦格納する(図22のS101)。
わち、表記が入力テキストと一致する最長の単語を用い
て、入力テキストを単語に分割する。この最長一致法の
処理は、次の通りである。
テキストポンインタpをセットして、テキストポインタ
の初期化を行う(図22のS102)。
ンタpを先頭にして入力テキストと表記(見出し)がマ
ッチし(表記マッチング法)かつ接続条件を満たす単語
の有無を調べるために、発音辞書406を検索する(図
22のS103)。
つかるかどうか、すなわち、単語候補が得られるかどう
かを検索する(図22のS104)。この検索で単語候
補が見つからなければ、バックトラック(図22のS1
05)して、後述するステップ(図23のS111)へ
進む。
候補の中から最長の単語すなわち用語(用語には、単語
や言い回し等の種々の表現を含む。)を選択する(図2
2のS106)。この場合、長さの同じ単語候補から
は、好ましくは、自立語よりも付属語を優先して選択す
る。又、単語候補が1つしか無い場合には、好ましく
は、その単語をそのまま選択する。
に登録されている音関連用語すなわち曲名であるかどう
かを調べるため、曲名辞書440の参照すなわち検索を
行う(図23のS107)。この検索も、この辞書44
0に対して、表記マッチング法により行う。
れている場合には、この辞書440から楽曲ファイル名
を読出して、この単語表記と一緒に第1メモリ460に
一旦格納する(図23のS108およびS110)。
に登録されていない非登録単語である場合には、発音辞
書406からこの非登録単語に対応する読みとアクセン
トとを読出し来て、第1メモリ460に一旦格納する
(図23のS109およびS110)。
pを進めて、テキストポインタpが入力テキストの文末
に来るまで、上述した解析を繰り返し行って、入力テキ
ストの文頭から文末までを単語すなわち用語に分割する
(図23のS111)。
い場合には、ステップS103に戻り、終了している場
合には、メモリから各単語の読みとアクセントを読出し
て入力テキストを単語毎に区切られた単語列にすると共
に、楽曲ファイル名を読出す。この場合、「彼女は君が
代を唄い始めた」は、「彼女|は|君が代|を|唄い|
始め|た」という単語に区切られる。
の単語列の各単語の読みとアクセントに基づいて、音韻
・韻律記号列が生成され、これが、第1メモリ460に
一旦格納される(図23のS112及びS113)。
アクセントとを単語毎に関係付けて表すと、入力テキス
トは、「彼女(カ’ノジョ)」「は(ワ)」「君が代
(キミガヨ)」「を(ヲ)」「唄い(ウタイ)」「始め
(ハジ’メ)」「た(夕)」という単語列に分割され
る。括弧()内に示したのは、その単語の辞書登録情
報、すなわち、読みとアクセントである。
の単語列の各単語の辞書登録情報、すなわち、括弧()
内の情報を用いて「カ’ノジョワ,キミガヨヲ,ウタイ
ハジ’メタ」という音韻・韻律記号列を生成する。
したとおり、ステップS107において、曲名辞書44
0を参照してこの単語列中の単語が曲名辞書440に登
録されていないかどうかを調べている。この例において
は、曲名「君が代(KIMIGAYO.MID)」(表
5参照)が登録されているので、対応する楽曲ファイル
名KIMIGAYO.MID:を音韻・韻律記号列の先
頭に加えて「KIMIGAYO.MID:カ’ノジョ
ワ,キミガヨヲ,ウタイハジ’メタ」という音韻・韻律
記号列に変更して、これを第1メモリ460に一旦格納
する(図23のS112及びS113)。その後、楽曲
ファイル名付きの音韻・韻律記号列を音声規則合成部4
04に送る。
語列に複数個含まれている場合には、生成した音韻・韻
律記号列の先頭に、対応する楽曲ファイル名を全て付加
する。曲名辞書440に登録された曲名が単語列に1つ
も含まれていない場合には、生成した音韻・韻律記号列
をそのまま音声規則合成部404に送る。
・韻律記号列「KIMIGAYO.MID:カ’ノジョ
ワ,キミガヨヲ,ウタイハジ’メタ」に基づき、音声素
片データが格納されている音声波形メモリ408から当
該音声素片デ−タを読出してきて、合成音声波形を生成
する。この場合の処理手順につき説明する。
列から読出しを行う。音声規則合成部404は、読みと
アクセントの音韻・韻律記号列の先頭に楽曲ファイル名
が付いているかどうかを判断する。この例では、音韻・
韻律記号列の先頭に楽曲ファイル名“KIMIGAY
O.MID”が付加されているので、「カ’ノジョワ,
キミガヨヲ,ウタイハジ’メタ」の波形を音声波形メモ
リ408の音声素片データから生成する。これと同時
に、楽音波形生成部450から楽曲ファイル名“KIM
IGAYO.MID”に対応する楽音波形を読出す。こ
の楽音波形と生成済の「カ’ノジョワ,キミガヨヲ,ウ
タイハジ’メタ」の合成音声波形とを、波形の開始点か
ら、同時に出力、すなわち重畳させて出力する。
の波形と「カ’ノジョワ,キミガヨヲ,ウタイハジ’メ
タ」の波形の時間的長さが異なっていても、前者を後者
の時間的長さで打ち切ることはしない。従って、前者と
後者を重畳出来る波形の長さは前者と後者のうち長い方
の長さとなる。ただし、前者の波形が後者の波形より短
い場合は、後者の長さになるまで前者を繰り返し連続さ
せて重畳させればよい。
が複数個付加されている場合は、楽音波形生成部450
は全ての楽音波形を生成してこれらを順次に結合してか
ら、その楽音波形を音声規則合成部404に引き渡す。
音韻・韻律記号列の先頭に楽音ファイル名が1つも付加
されていない場合は、音声規則合成部404の動作は従
来技術と同じとなる。
は、次のようにして行われる。まず、テキストの先頭音
節に対応する記号列から読出しを行う(図24のS11
4)。
列の先頭に付されていると判断する。その結果、この音
声規則合成部404は、音声波形メモリ408にアクセ
スを行って、楽曲ファイル名に続く読み及びアクセント
の音韻・韻律記号列の各記号に対応する音声素片デ−タ
の検索を行う(図24のS115及びS116)。
場合には、それに対応する合成音声波形を読み出して、
第1メモリ460に一旦格納する(図24のS117及
びS118)。
された順に次々と連結されて、連結された結果が第1メ
モリ460に一旦格納される(図24のS119及びS
120)。
ジョワ,キミガヨヲ,ウタイハジ’メタ」という音韻・
韻律記号列の一文全体の合成音声波形が生成されたか否
かを判断する(図24のS121)。この判断の結果、
まだ、一文全体の合成音声波形が生成されていないと判
断された場合には、次音節対応記号列の読出しを指令し
(図24のS122)、ステップS115に戻る。
と判断された場合には、音声規則合成部404は、楽曲
ファイル名を読出す(図25のS123)。ここで説明
する例の場合には、楽曲ファイル名がある場合であるの
で、楽音波形生成部450の楽曲辞書454にアクセス
を行って、楽曲デ−タの検索を行う(図25のS124
及びS125)。
は、楽音波形変換部452に対して、楽曲ファイル名
“KIMIGAYO.MID”を伝える。これに応動し
て、楽音波形変換部452は、楽曲辞書454から楽曲
ファイル“KIMIGAYO.MID”のMIDIデ−
タの検索を行い、MIDIデ−タを読出す(図25のS
125及びS126)。
−タを楽音波形に変換して、この楽音波形を音声規則合
成部404に引き渡し、そして第1メモリ460に一旦
格納する(図25のS127及びS128)。
の読出しが終了すると、楽曲ファイル名が1つか或いは
複数あるかどうかを判定する(図25のS129)。1
つしか楽曲ファイル名がない場合には、その楽音波形を
第1メモリ460から読出し(図25のS130)、
又、もし、複数の楽曲ファイル名が存在する場合には、
これらに対応する楽音波形の全てを第1メモリ460か
ら順次に読出す(図25のS131)。
或いはこの読出しと同時に、既に生成済みの合成音声波
形を第1メモリ460から読出す(図26のS13
2)。
が完了すると、楽音波形及び合成音声波形の双方を同時
に、スピ−カ430へと出力させる(図26のS13
3)。
連用語が含まれていないため、音韻・韻律記号列の先頭
に楽曲ファイル名が付されていない場合には、ステップ
S107からステップS109に進む。そして、ステッ
プS123において、楽曲ファイル名がないので、音声
規則合成部404は、合成音声波形のみを読み出してき
て合成音声のみを出力する(図25のS135及びS1
36)。
「彼女は君が代を唄い始めた」の合成音声波形の出力と
同時に、「君が代」の曲の楽音波形すなわち演奏音波形
が出力されている状態を示している。すなわち、合成音
声波形の開始点から終点までの同一期間に、曲の演奏音
波形が出力されている。
全体の、重畳された合成音声波形がスピーカ430から
出力される。
ト中で参照される楽曲を合成音のBGMとして出力する
ことができるので、入力テキストを合成音声のみで出力
した場合と比べて、聞く人にアピールする合成音声とな
り、この合成音声を聞いていて飽きたり疲れたりするこ
とがない。
キスト音声変換装置の第5の実施の形態の構成例につ
き、説明する。
まれた用語が含まれている場合がある。特に、擬声語と
か、歌詞とか、曲名などといった用語の場合には、それ
らの用語を強調するためなどの理由で、引用符、例え
ば、「」、‘’、及び“”で囲まれたり、或いは、♪等
の特定記号が用語の前或いは後などに付けられている場
合がある。そこで、第5の実施の形態の装置は、この構
成例によれば、このようなテキスト文中のこれら引用符
に囲まれていたり、特定記号が前後のいずれかに付いて
いる用語のみを、合成音声波形の代わりに実録音の音声
波形で置き換えて出力させる構成を有している。
音声変換装置の第5の実施の形態の構成例を示すブロッ
ク図である。この装置500は、図2を参照して既に説
明した第1の実施の形態の構成例に適用判定部570を
追加した構成となっている。すなわち、この装置500
においては、この適用判定部570を、図2で示したテ
キスト解析部102と擬声語辞書140との間に設けて
いる構成が図2の構成と異なるにすぎない。従って、こ
の第5の実施の形態の構成例は、介挿されている適用判
定部の構成及びその動作部分を除き、第1の実施の形態
で説明した構成例の場合と同様な構成及び動作を行う。
従って、第1の実施の形態の構成例と同様な構成要素に
ついては、同一の参照番号を付してその詳細な説明を省
略し、相違点につき説明する。
語が、フレ−ズ辞書、すなわちこの構成例では擬声語辞
書140に登録されている登録用語との照合のための適
用条件を満たしているか否かを判定する。そして、この
適用判定部570は、適用条件を満たしている用語と一
致する音関連用語のみを当該フレ−ズ辞書140から変
換処理部110に読出す機能を有している。
102及びフレ−ズ辞書140間に結合されている条件
判定部572と、この条件判定部572に結合されてい
てかつ適用条件として適用判定条件が予め登録されてい
るル−ル辞書574とを具えている。
擬声語辞書140に登録された擬声語が入力テキストに
現われた時に擬声語辞書140を用いるかどうかの条件
を記述したものである。
場合にのみ擬声語辞書140を用いるといった判定ル−
ルすなわち判定条件が記述されている。例えば、引用符
として、「」や“”や‘’や、特定記号として♪等が挙
げられている。
動作につき、具体例を挙げて説明する。図28および図
29は、この動作の説明に供するテキスト解析部のフロ
−図である。
ャー’と鳴いた」である場合を考える。入力テキストが
入力部120で読み込まれてテキスト解析部102に入
力される。
入力されたかどうか判断する(図28のS140)。入
力が確認されると、入力テキストを第1メモリ160に
一旦格納する(図28のS141)。
わち、表記が入力テキストと一致する最長の単語を用い
て、入力テキストを単語に分割する。この最長一致法の
処理は、次の通りである。
テキストポンインタpをセットして、テキストポインタ
の初期化を行う(図28のS142)。
ンタpを先頭にして入力テキストと表記(見出し)がマ
ッチし(表記マッチング法)かつ接続条件を満たす単語
の有無を調べるために、発音辞書106および擬声語辞
書140を検索する(図28のS143)。
書106または擬声語辞書140に見つかるかどうか、
すなわち、単語候補が得られるかどうかを検索する(図
28のS144)。この検索で単語候補が見つからなけ
れば、バックトラック(図28のS145)して、後述
するステップ(図29のS151)へ進む。
候補の中から最長の単語すなわち用語(用語には、単語
や言い回し等の種々の表現を含む。)を選択する(図2
8のS146)。この場合、第1の実施の形態の構成例
の場合と同様に、長さの同じ単語候補からは、好ましく
は、自立語よりも付属語を優先して選択する。又、単語
候補が1つしか無い場合には、好ましくは、その単語を
そのまま選択する。
された単語毎に、この選択された単語が、擬声語辞書1
40に登録されている音関連用語であるかどうかを調べ
るため、擬声語辞書140の参照すなわち検索を行う
(図29のS147)。この検索も、この辞書140に
対して、表記マッチング法により行う。この場合、この
構成例では、この検索を、適用判定部570の条件判定
部572を介して行う。この場合の「波形ファイル名」
の読出しには、この条件判定部572は何ら影響を与え
ない。
されている場合には、この辞書140から波形ファイル
名を読出して、この単語表記と一緒に第1メモリ160
に一旦格納する(図29のS148およびS150)。
0に登録されていない非登録単語である場合には、発音
辞書106からこの非登録単語に対応する読みとアクセ
ントとを読出し来て、第1メモリ160に一旦格納する
(図29のS149およびS150)。
インタpを進めて、テキストポインタpが入力テキスト
の文末に来るまで、上述した解析を繰り返し行って、入
力テキストの文頭から文末までを単語すなわち用語に分
割する(図29のS151)。
い場合には、ステップS143に戻り、終了している場
合には、第1メモリ160から各単語の読みとアクセン
トを読出して入力テキストを単語毎に区切られた単語列
にする。この場合、「猫がニャーと鳴いた」は、「猫|
が|ニャー|と|鳴い|た」という単語に区切られる。
‘ニャー’と鳴いた」は、文末まで処理した結果、「猫
(ネ’コ)」、「が(ガ)」、「‘」、「ニャー(ニ
ャ’ー)」、「’」、「と(ト)」、「鳴い(ナイ)」
及び「た(夕)」という各単語に分割される。括弧()
内に示したのは、その単語の辞書登録情報、すなわち、
読みとアクセントである。
列を擬声語辞書の適用判定部570の条件判定部572
に伝える。この条件判定部572は、擬声語辞書140
を参照しながらこの単語列中の単語が擬声語辞書140
に登録されていないかどうかを調べる。すると、「ニャ
ー(“CAT.WAV”)」が登録されているので、条
件判定部572は、ル−ル辞書574を参照しながらこ
の擬声語の適用判定処理を行なう(図29のS15
2)。ル−ル辞書574には表6において例示したよう
な適用判定条件が定められている。この構成例の場合に
は、擬声語「ニャー」は単語列中において引用符「‘」
「’」に囲まれており、従って、この擬声語は、「引用
符‘’に囲まれている」という適用判定ルールを満たす
ので、条件判定部572は擬声語「ニャー(“CAT.
WAV”)」の適用許可をテキスト解析部102に知ら
せる。
列中の単語「ニャー(ニャ’ー)」を擬声語辞書140
の単語「ニャー(“CAT.WAV”)」に置き換え、
「猫(ネ’コ)」「が(ガ)」「ニャー(“CAT.W
AV”)」「と(ト)」「鳴い(ナイ)」「た(夕)」
という単語列に変更する(図29のS153)。なお、
引用符「‘」「’」は読みの情報を持たないので、この
時点で単語列から削除される。
単語の辞書登録情報、すなわち、括弧()内の情報を用
いて「ネ’コガ,”CAT.WAV”ト,ナイタ」とい
う音韻・韻律記号列を生成し、それを一旦第1メモリ1
60に格納する(図29のS154及びS155)。
た」である場合を考える。テキスト解析部102は、発
音辞書106を参照し、最長一致法により、すなわち、
表記が入力テキストと一致する最長の単語を用いて、入
力テキストを単語に分割する。こうして、入力テキスト
は「犬(イヌ’)」「が(ガ)」「ワンワン(ワ’ンワ
ン)」「吠え(ホ’エ)」「た(タ)」という単語列に
分割される(S140〜S151)。
用判定部570の条件判定部572に伝える。この条件
判定部572では、擬声語辞書140を参照してこの単
語列中の単語が擬声語辞書140に登録されていないか
どうかを調べる。すると、「ワンワン(“DOG.WA
V”)」が登録されているので、この擬声語の適用判定
処理を行なう(図29のS152)。擬声語「ワンワ
ン」は単語列中において引用符「‘」「’」で囲まれて
いないし、又、「♪」などの特定記号が付けられていな
いので、ル−ル辞書574の適用判定条件をどれも満た
さない。従って、条件判定部572は、擬声語「ワンワ
ン(“DOG.WAV”)」の適用不許可をテキスト解
析部102に知らせる。
語列「犬(イヌ’)」「が(ガ)」「ワンワン(ワ’ン
ワン)」「吠え(ホ’エ)」「た(夕)」を変更するこ
となく、この単語列の各単語の辞書登録情報、すなわ
ち、括弧()内の情報を用いて「イヌ’ガ,ワ’ンワ
ン,ホ’エタ」という音韻・韻律記号列を生成し、それ
を第1メモリ160に一旦格納する(図29のS154
及びS155)。
号列を第1メモリ160から読出して音声規則合成部1
04に送る。
及び図7を参照して説明した第1の実施の形態の構成例
の場合と同様に処理されて入力テキスト全体の波形がス
ピーカ130に出力されるので、その詳細な説明は省略
する。
が単語列中に複数個含まれている場合は、適用判定部5
72はその全ての擬声語に対してルール辞書574の適
用判定条件に従って判定を行ない、どの擬声語が判定条
件を満たすかをテキスト解析部102に伝える。したが
って、条件を満たした擬声語に対してのみ、対応する波
形ファイル名が音韻・韻律記号列に埋め込まれることに
なる。
語が単語列中に1つも含まれていない場合は、適用判定
はせず、単語列から生成された音韻・韻律記号列がその
まま音声規則合成部104に送られる。
は、基本的に第1の実施の形態の構成例の場合の効果と
同じである。しかし、この装置500は、実際に録音さ
れた音声波形で入力テキスト中の擬声語部分を出力する
という処理を常に行なう構成とはなっていない。この装
置500は、ある条件を満たしたときにだけ擬声語の部
分を実録音声波形で出力するという場合に使用して好適
である。一方、この処理を常に行なうという場合に第1
の実施の形態の構成例が適している。
の第6の実施の形態の構成例を示すブロック図である。
この装置600の構成上の特徴は、図2を参照して説明
した第1の実施の形態の構成例に制御部610を具えて
いる点である。この装置600は、この制御部610に
よって通常モードと編集モードという2つの動作モード
で動作が可能である。
る時、制御部610は、テキスト解析部102のみと結
合され、その結果、制御部610は、擬声語辞書140
と波形辞書150とはデータのやりとりを行なわない。
している時、制御部610は擬声語辞書140と波形辞
書150に結合され、その結果、制御部610は、テキ
スト解析部102とはデータのやりとりを行なわない。
00は第1の実施の形態の構成例と同じ動作を行ない、
一方、編集モードにおいて擬声語辞書140と波形辞書
150の編集を行なうことができる。このような動作モ
ードの指定は、外部から入力部120を経て制御部61
0に入力データとして動作モード指定コマンドを送るこ
とで行なわれる。
第1の実施の形態の構成例の構成要素と同一の構成要素
については、特に説明の必要がある場合を除き、その詳
細な説明を省略する。
音声変換装置600の動作を以下に説明する。尚、図3
1及び図32は、第6の実施の形態の構成例に含まれて
いる制御部の動作フロ−を示す図である。
置600が編集モードで動作している場合について説明
する。
ルの鳴き声を録音した波形ファイル“DUCK.WA
V”を「ガアガア」という擬声語として擬声語辞書14
0に登録する場合につき説明する。入力情報として、登
録コマンドに続いてテキスト「ガアガア」と波形ファイ
ル”DUCK.WAV”を、外部から入力部120を経
て制御部610に入力する。制御部610では、外部入
力があるかどうかの判断を行い、入力情報があると、制
御部は、この入力情報を受け取って、内部のメモリに一
旦格納する(図31のS160及びS161)。
のS162)、外部入力情報にテキスト、当該テキスト
に対応する波形ファイル名及び当該波形ファイル名に対
応する波形デ−タが含まれているかどうかの判断を行う
(図31のS163)。
表記が「ガアガア」で波形ファイル名が“DUCK.W
AV”である擬声語の情報が、既に擬声語辞書140に
登録済みであるかどうか問い合わせをする(図32のS
164)。続いて、制御部610は、入力情報のうち、
波形デ−タが既に波形辞書150に格納済みであるかど
うかを問い合わせする(図32のS164)。
声語辞書140に既に登録済みである場合には、表記が
「ガアガア」で波形ファイル名が“DUCK.WAV”
である擬声語の情報を更新する(図32のS165)。
同様に、入力情報の波形デ−タが波形辞書150に既に
格納済みである場合には、当該波形ファイル名”DUC
K.WAV”に対応する波形デ−タを更新する(図32
のS165)。
れに登録或いは格納されるべきこれらの入力情報が登録
或いは格納されていない場合には、表記「ガアガア」お
よび波形ファイル名”DUCK.WAV”を擬声語辞書
140に新規登録する(図32のS166)。さらに、
当該ファイル名に対応する実録音で得られた波形デ−タ
を波形辞書150に新規格納する(図32のS16
6)。
が、「ニャー」という擬声語を擬声語辞書140から削
除する場合は、上述の処理ステップS160〜S161
を経て、削除コマンドに続いてテキスト「ニャー」の入
力情報をそれぞれ制御部610に入力する場合がある。
は、登録コマンドでない場合、或いは、入力情報にテキ
スト、波形ファイル名及び波形デ−タの情報が含まれて
いなかった場合には、さらに、入力情報に削除コマンド
が含まれているかどうか判断する(図31のS162〜
S163及び図32のS167)。
辞書140及び150に、削除の対象となっている情報
が既に登録・格納されているかどうか各辞書に問い合わ
せする(図32のS168)。これらの処理において、
削除コマンドも含まれておらず、又、削除対象情報が登
録・格納されていない場合には、ステップS160に戻
る。これらの処理において、削除コマンドも含まれてお
り、かつ、削除対象情報が登録・格納されている場合に
は、それらの情報すなわちテキストの表記、波形ファイ
ル名及び波形デ−タの情報を削除する(図32のS16
9)。
ル名が”CAT.WAV”である擬声語が擬声語辞書1
40に登録されているのを確認した後、この擬声語を擬
声語辞書140から削除する。そして、波形フアイル”
CAT.WAV”も波形辞書150から削除する。削除
コマンドに続いて入力された擬声語がもともと擬声語辞
書140に登録されていない場合は何もせずに処理を終
える。
40と波形辞書150の編集を行なうことができる。
テキストを受け取り、それをテキスト解析部102に送
る。それ以降の処理は第1の実施の形態の構成例と同様
に行われるので、その説明は省略する。
が変換処理部110からスピーカ130に出力されて当
該スピ−カから合成音声として出力される。
は、基本的に第1の実施の形態の構成例の効果と同じで
あるが、実際に録音した音で出力する凝声語を擬声語辞
書に追加したり削除したりする場合に、この第6の実施
の形態の構成例が適している。すなわち、この実施の形
態では、フレ−ズ辞書とそれに対応する波形デ−タを変
更することが出来る。一方、追加したり削除したりしな
い場合は第1の実施の形態の構成例が適している。
るものではなく、多くの変形又は変更が可能である。以
下、この発明の利用形態として説明する。
て、背景音の波形が入力テキストの波形より長い場合
は、前者を後者の長さで打ち切ってから重畳させる代わ
りに、前者の音量が後者の長さの位置で0になるように
前者の音量を徐々に減衰させてから重畳させることもで
きる。あるいは、前者と後者を重畳させて前者が後者よ
りはみでる部分の波形、すなわち、後者の長さの位置以
降の前者の波形を、次の入力テキストの波形に重畳させ
る、すなわち、複数の入力テキストにまたがって背景音
を出力させることもできる。
て、楽音の波形が入力テキストの波形より長い場合は、
前者の音量が後者の長さの位置で0になるように前者の
音量を徐々に減衰させてから重畳させることもできる。
あるいは、前者と後者を足し合わせて前者が後者よりは
みでる部分の波形、すなわち、後者の長さの位置以降の
前者の波形を、次の入力テキストの波形に重畳させる、
すなわち、複数の入力テキストにまたがって楽音を出力
させることもできる。
て、凝声語辞書140に各単語の登録情報として「主
語」という属性情報を追加し、ルール辞書574の適用
判定条件として「主語が一致する」という条件を設け
て、擬声語辞書140を適用させることもできる。例え
ば、擬声語辞書140に「表記:ガオー、波形ファイ
ル:“LION.WAV”、主語:ライオン」という擬
声語と「表記:ガオー、波形ファイル:“BEAR.W
AV”、主語:熊」という擬声語が登録されているとす
ると、入力テキストが「熊がガオーと吠えた」である場
合、入力テキストの主語が「熊」であるので「主語が一
致する」という条件を満たす後者すなわち熊の擬声語
「ガオー」の方を適用し、同条件を満たさない前者すな
わちライオンの擬声語「ガオー」の方は適用しないとい
う適用判定条件を条件判定部572に行なわせることも
できる。すなわち、テキスト文の主語に応じて、波形デ
−タを使い分けすることが出来る。
の実施の形態の構成例を基にしているが、同じように第
2の実施の形態の構成例を基にすることもできる。すな
わち、第2の実施の形態の構成例の構成に背景音辞書適
用の条件判定部と適用判定条件を格納したル−ル辞書を
追加し、適用判定条件を満たした時にだけ背景音辞書2
40を適用させることもできる。従って、フレ−ズ辞書
に対応した波形デ−タを常に用いるのではなく、ある適
用判定条件を満たしている場合に限り、波形デ−タを用
いることが出来る。
の実施の形態の構成例を基にしているが、同じように第
3の実施の形態の構成例を基にすることもできる。すな
わち、第3の実施の形態の構成例の構成に歌唱フレーズ
辞書適用の条件判定部と適用判定条件を格納したルール
辞書を追加し、適用判定条件を満たした時にだけ歌唱フ
レーズ辞書340を適用させることもできる。従って、
歌唱フレ−ズ辞書に対応した歌声の合成音声波形を常に
用いるのではなく、ある判定条件を満たしている場合に
限り、歌声の合成音声波形を用いることが出来る。
の実施の形態の構成例を基にしているが、同じように第
4の実施の形態の構成例を基にすることもできる。すな
わち、第4の実施の形態の構成に曲名辞書適用の条件判
定部と適用判定条件を格納したルール辞書を追加し、適
用判定条件を満たした時にだけ曲名辞書440を適用さ
せることもできる。従って、曲名辞書に対応した楽曲演
奏波形を常に用いるのではなく、ある判定条件を満たし
ている場合に限り、楽曲演奏波形を用いることが出来
る。
の実施の形態の構成例を基にしているが、同じように第
2の実施の形態の構成例を基にすることもできる。すな
わち、第2の実施の形態の構成に制御部を追加し、通常
モードでは第2の実施の形態の構成例と同じ動作をさ
せ、一方、編集モードでは背景音辞書240と波形辞書
250の編集を行なわせることもできる。
の実施の形態の構成例を基にしているが、同じように第
3の実施の形態の構成例を基にすることもできる。すな
わち、第3の実施の形態の構成に制御部を追加し、通常
モードでは第3の実施の形態の構成例と同じ動作をさ
せ、一方、編集モードでは歌唱フレーズ辞書340の編
集を行なわせることもできる。従って、この場合には、
歌唱フレ−ズ辞書の登録内容を変更することが出来る。
の実施の形態の構成例を基にしているが、同じように第
4の実施の形態の構成例を基にすることもできる。すな
わち、第4の実施の形態の構成に制御部を追加し、通常
モードでは第4の実施の形態の構成例と同じ動作をさ
せ、一方、編集モードでは曲名辞書440と楽曲データ
を格納した楽曲辞書454の編集を行なわせることもで
きる。この場合には、曲名辞書と楽曲辞書の登録内容を
変更することが出来る。
の実施の形態の構成例を基にしているが、同じように第
5の実施の形態の構成例を基にすることもできる。すな
わち、第5の実施の形態の構成に制御部を追加し、通常
モードでは第5の実施の形態の構成例と同じ動作をさ
せ、一方、編集モードでは擬声語辞書140と波形辞書
150と適用判定条件が格納されたルール辞書574の
編集を行なわせることもできる。このようにすれば、波
形デ−タを用いる判定条件を変更することが出来る。
成例は、幾つか互いに組み合わせて使用することもでき
る。
の発明によれば、下記のような効果を奏し得る。
変換装置によれば、聞く人が聞き飽きたり疲れたりしな
い合成音声を出力することが出来る。
置によれば、テキストの用語中から選ばれた音関連用語
の合成音声波形を、実録音声波形で置き換えて、全体の
合成音声を出力することが出来る。
変換装置によれば、テキスト用語の全体の合成音声波形
と、テキストの用語中から選ばれた音関連用語に関連す
る実録音声波形とを、双方同時に出力させて、合成音声
を出力することが出来る。
ック図である。
第1の実施の形態の構成例を示すブロック図である。
波形と、擬声語の実録音声波形とを結合する例を説明す
るための説明図である。
るテキスト解析部の動作フロ−図である。
る。
明に供する音声規則合成部の動作フロ−図である。
る。
第2の実施の形態の構成例を示すブロック図である。
波形と、背景音の実録音声波形とを重畳する例を説明す
るための説明図である。
するテキスト解析部の動作フロ−図である。
である。
する音声規則合成部の動作フロ−図である。
である。
である。
の第3の実施の形態の構成例を示すブロック図である。
声波形と、歌声の合成音声波形とを結合する例を説明す
るための説明図である。
するテキスト解析部の動作フロ−図である。
である。
する音声規則合成部の動作フロ−図である。
の第4の実施の形態の構成例を示すブロック図である。
声波形と、楽音波形とを重畳する例を説明するための説
明図である。
するテキスト解析部の動作フロ−図である。
である。
する音声規則合成部の動作フロ−図である。
である。
である。
の第5の実施の形態の構成例を示すブロック図である。
するテキスト解析部の動作フロ−図である。
である。
の第6の実施の形態の構成例を示すブロック図である。
する制御部の動作フロ−図である。
本語テキスト音声変換装置 102,202,302,402:テキスト解析部 104,204,304,404:音声規則合成部 106,206,306,406:発音辞書 108,208,308,408:音声波形メモリ 110,210,310,410:変換処理部 120,220,320,420:入力部 130,230,330,430:スピ−カ 140,240,340:フレ−ズ辞書 150,250:波形辞書 160,260,360,460:第1メモリ 350:歌唱用音韻・韻律記号列処理部 440:曲名辞書 450:楽音波形生成部 452:楽音波形変換部列処理部 454:楽曲辞書 570:適用判定部 572:条件判定部 574:ル−ル辞書 610:制御部
Claims (45)
- 【請求項1】 テキストを音声波形に変換して出力する
テキスト音声変換装置において、 外部から入力されたテキストを音声波形に変換する変換
処理部と、 実録音の再生音として表現されるべき音関連用語が予め
登録されているフレ−ズ辞書と、 実録音で得た、該音関連用語に対応する波形デ−タが予
め登録されている波形辞書とを具え、 前記変換処理部は、前記テキスト中の用語と前記フレ−
ズ辞書に登録されている前記音関連用語との照合が一致
した用語に対しては、前記波形辞書に登録されている、
当該一致した音関連用語に対応する波形デ−タを音声波
形として出力する機能を有していることを特徴とするテ
キスト音声変換装置。 - 【請求項2】 請求項1に記載のテキスト音声変換装置
において、 前記テキスト中の用語が、前記フレ−ズ辞書に対する前
記照合のための適用条件を満たすか否かを判定し、該適
用条件を満たしている当該用語と一致する音関連用語の
みを前記フレ−ズ辞書から前記変換処理部に読出す適用
判定部を具えることを特徴とするテキスト音声変換装
置。 - 【請求項3】 請求項1に記載のテキスト音声変換装置
において、 前記フレ−ズ辞書に登録されている音関連用語及び前記
波形辞書に登録されている波形デ−タのそれぞれの登録
内容を編集する制御部を具えていることを特徴とするテ
キスト音声変換装置。 - 【請求項4】 請求項1に記載のテキスト音声変換装置
において、 前記フレ−ズ辞書を、擬声語が登録された擬声語辞書と
することを特徴とするテキスト音声変換装置。 - 【請求項5】 請求項2に記載のテキスト音声変換装置
において、 前記適用条件は、前記テキスト中の用語が引用符で囲ま
れていること、 としたことを特徴とするテキスト音声変換装置。 - 【請求項6】 請求項2に記載のテキスト音声変換装置
において、 前記適用条件は、前記テキスト中の用語の前および後の
双方またはいずれか一方に特定記号が存在すること、と
したことを特徴とするテキスト音声変換装置。 - 【請求項7】 請求項2に記載のテキスト音声変換装置
において、 前記フレ−ズ辞書に前記音関連用語がその主語情報と共
に登録されている場合には、前記適用条件は、当該主語
情報が前記テキストの文法的な主語と一致すること、と
したことを特徴とするテキスト音声変換装置。 - 【請求項8】 請求項2に記載のテキスト音声変換装置
において、 前記適用条件を変更出来る適用条件変更手段を具えるこ
とを特徴とするテキスト音声変換装置。 - 【請求項9】 テキストを音声波形に変換して出力する
テキスト音声変換装置において、 外部から入力されたテキストを音声波形に変換する変換
処理部と、 実録音の再生音として表現されるべき音関連用語が予め
登録されているフレ−ズ辞書と、 実録音で得た、該音関連用語に対応する波形デ−タが予
め登録されている波形辞書とを具え、 前記変換処理部は、前記テキスト中の用語と前記フレ−
ズ辞書に登録されている前記音関連用語との照合が一致
した場合には、前記波形辞書に登録されている、当該一
致した音関連用語に対応する波形デ−タを、前記テキス
トの音声波形と重畳させて出力する機能を具えることを
特徴とするテキスト音声変換装置。 - 【請求項10】 請求項9に記載のテキスト音声変換装
置において、 前記テキスト中の用語が、前記フレ−ズ辞書に対する前
記照合のための適用条件を満たすか否かを判定し、該適
用条件を満たしている当該用語と一致する音関連用語の
みを前記フレ−ズ辞書から前記変換処理部に読出す適用
判定部を具えることを特徴とするテキスト音声変換装
置。 - 【請求項11】 請求項9に記載のテキスト音声変換装
置において、 前記変換処理部は、前記波形辞書から読出された前記波
形デ−タの時間的長さを調節する時間長の調節機能を具
えていることを特徴とするテキスト音声変換装置。 - 【請求項12】 請求項11に記載のテキスト音声変換
装置において、 前記時間長の調節は、前記波形デ−タが前記テキストの
音声波形より長い場合に、当該波形デ−タの長さを当該
音声波形の長さの終了位置で打ち切ることによって行う
ことを特徴とするテキスト音声変換装置。 - 【請求項13】 請求項11に記載のテキスト音声変換
装置において、 前記時間長の調節は、前記波形デ−タが前記テキストの
音声波形より長い場合に、当該波形デ−タの音量が当該
音声波形の長さの終了位置で零となるように、当該音量
を徐々に減衰させるという、音量調節によって行うこと
を特徴とするテキスト音声変換装置。 - 【請求項14】 請求項11に記載のテキスト音声変換
装置において、 前記時間長の調節は、前記波形デ−タが前記テキストの
音声波形より長い場合に、当該波形デ−タを、当該音声
波形とこれに続く次の音声波形にまたがって出力させる
ことによって行うことを特徴とするテキスト音声変換装
置。 - 【請求項15】 請求項11に記載のテキスト音声変換
装置において、 前記時間長の調節は、前記波形デ−タが前記テキストの
音声波形より短い場合に、当該波形デ−タを繰り返し連
続的につなぎ合わせることによって行うことを特徴とす
るテキスト音声変換装置。 - 【請求項16】 請求項9に記載のテキスト音声変換装
置において、 前記フレ−ズ辞書に登録されている音関連用語及び前記
波形辞書に登録されている波形デ−タのそれぞれの登録
内容を編集する制御部を具えていることを特徴とするテ
キスト音声変換装置。 - 【請求項17】 請求項9に記載のテキスト音声変換装
置において、 前記フレ−ズ辞書を、背景音が登録された背景音辞書と
することを特徴とするテキスト音声変換装置。 - 【請求項18】 請求項10に記載のテキスト音声変換
装置において、 前記適用条件は、前記テキスト中の用語が引用符で囲ま
れていること、としたことを特徴とするテキスト音声変
換装置。 - 【請求項19】 請求項10に記載のテキスト音声変換
装置において、 前記適用条件は、前記テキスト中の用語の前および後の
双方またはいずれか一方に特定記号が存在すること、と
したことを特徴とするテキスト音声変換装置。 - 【請求項20】 請求項10に記載のテキスト音声変換
装置において、 前記フレ−ズ辞書に前記音関連用語がその主語情報と共
に登録されている場合には、前記適用条件は、当該主語
情報が前記テキストの文法的な主語と一致すること、と
したことを特徴とするテキスト音声変換装置。 - 【請求項21】 請求項10に記載のテキスト音声変換
装置において、 前記適用条件を変更出来る適用条件変更手段を具えるこ
とを特徴とするテキスト音声変換装置。 - 【請求項22】 テキストを音声波形に変換して出力す
るテキスト音声変換装置において、 外部から入力され、かつ歌詞を含むテキストを音声波形
に変換する変換処理部と、 歌詞と該歌詞に対応する歌唱用音韻・韻律記号列とが対
となって予め登録されている歌唱フレ−ズ辞書と、 前記音韻・韻律列記号列を歌声の音声波形に変換するた
めに、当該音韻・韻律記号列を解析する音韻・韻律記号
列処理部とを具え、 前記変換処理部は、前記テキスト中の歌詞と前記歌唱フ
レ−ズ辞書に登録されている登録歌詞との照合が一致し
た歌詞に対しては、前記歌唱フレ−ズ辞書に登録されて
いる、当該一致した登録歌詞と対となっている前記音韻
・韻律記号列に基づいて変換された歌声の音声波形を、
前記歌詞の音声波形として出力させる機能を具えること
を特徴とするテキスト音声変換装置。 - 【請求項23】 請求項22に記載のテキスト音声変換
装置において、 前記テキスト中の歌詞が、前記歌唱フレ−ズ辞書に対す
る前記照合のための適用条件を満たすか否かを判定し、
該適用条件を満たしている当該歌詞と一致する前記登録
歌詞と該登録歌詞と対となっている前記音韻・韻律記号
列とを前記歌唱フレ−ズ辞書から前記変換処理部に読出
す適用判定部を具えることを特徴とするテキスト音声変
換装置。 - 【請求項24】 請求項22に記載のテキスト音声変換
装置において、 前記登録歌詞及び該登録歌詞と対となっている音韻・韻
律記号列のそれぞれの登録内容を編集する制御部を具え
ていることを特徴とするテキスト音声変換装置。 - 【請求項25】 請求項23に記載のテキスト音声変換
装置において、 前記適用条件は、前記テキスト中の歌詞が引用符で囲ま
れていること、としたことを特徴とするテキスト音声変
換装置。 - 【請求項26】 請求項23に記載のテキスト音声変換
装置において、 前記適用条件は、前記テキスト中の歌詞の前および後の
双方またはいずれか一方に特定記号が存在すること、と
したことを特徴とするテキスト音声変換装置。 - 【請求項27】 請求項23に記載のテキスト音声変換
装置において、 前記適用条件を変更出来る適用条件変更手段を具えるこ
とを特徴とするテキスト音声変換装置。 - 【請求項28】 テキストを音声波形に変換して出力す
るテキスト音声変換装置において、 外部から入力され、かつ曲名を含むテキストを音声波形
に変換する変換処理部と、 曲名が予め登録されている曲名辞書と、 当該曲名に対応した楽音波形を生成する楽音波形生成部
とを具え、 該楽音波形生成部は、前記曲名辞書に登録された曲名に
対応する演奏用デ−タが予め登録されている楽曲辞書
と、該演奏用デ−タを楽曲の楽音波形に変換する楽音波
形変換部とを含み、 前記変換処理部は、前記テキスト中の曲名と前記曲名辞
書に登録されている登録曲名との照合が一致した曲名に
対しては、前記登録曲名に対応する前記楽曲のの楽音波
形を、前記テキストの音声波形に重畳させて、出力する
機能を具えることを特徴とするテキスト音声変換装置。 - 【請求項29】 請求項28に記載のテキスト音声変換
装置において、 前記テキスト中の曲名が、前記曲名辞書に対する前記照
合のための適用条件を満たすか否かを判定し、該適用条
件を満たしている当該曲名と一致する登録曲名のみを前
記曲名辞書から前記変換処理部に読出す適用判定部を具
えることを特徴とするテキスト音声変換装置。 - 【請求項30】 請求項28に記載のテキスト音声変換
装置において、 前記変換処理部は、前記楽音波形生成部から読出された
前記楽音波形の時間的長さを調節する時間長の調節機能
を具えていることを特徴とするテキスト音声変換装置。 - 【請求項31】 請求項30に記載のテキスト音声変換
装置において、 前記時間長の調節は、前記楽音波形が前記テキストの音
声波形より長い場合に、当該楽音波形の音量が当該テキ
ストの音声波形の長さの終了位置で零となるように、当
該音量を徐々に減衰させるという、音量調整によって行
うことを特徴とするテキスト音声変換装置。 - 【請求項32】 請求項30に記載のテキスト音声変換
装置において、 前記時間長の調節は、前記楽音波形が前記テキストの音
声波形より長い場合に、当該楽音波形を、当該テキスト
の音声波形とこれに続く次の音声波形とにまたがって、
出力させることによって行うことを特徴とするテキスト
音声変換装置。 - 【請求項33】 請求項28に記載のテキスト音声変換
装置において、 前記曲名辞書に登録されている登録曲名及び前記楽曲辞
書に登録されている演奏用デ−タのそれぞれの登録内容
を編集する制御部を具えていることを特徴とするテキス
ト音声変換装置。 - 【請求項34】 請求項29に記載のテキスト音声変換
装置において、 前記適用条件は、前記テキスト中の曲名が引用符で囲ま
れていること、としたことを特徴とするテキスト音声変
換装置。 - 【請求項35】 請求項29に記載のテキスト音声変換
装置において、 前記適用条件は、前記テキスト中の曲名の前および後の
双方またはいずれか一方に特定記号が存在すること、と
したことを特徴とするテキスト音声変換装置。 - 【請求項36】 請求項29に記載のテキスト音声変換
装置において、 前記適用条件を変更出来る適用条件変更手段を具えるこ
とを特徴とするテキスト音声変換装置。 - 【請求項37】 請求項1に記載のテキスト音声変換装
置において、 前記フレ−ズ辞書に登録されている前記音関連用語は、
当該音関連用語の表記と、該表記に対応する波形ファイ
ル名とを含み、および前記波形辞書に登録されている波
形デ−タは、実録音による原音デ−タであって、これら
波形デ−タは、波形ファイルとして格納されていること
を特徴とするテキスト音声変換装置。 - 【請求項38】 請求項1に記載のテキスト音声変換装
置において、 前記フレ−ズ辞書に登録されている前記音関連用語は、
当該音関連用語の表記と、該表記に対応する波形ファイ
ル名とを含み、および前記波形辞書に登録されている波
形デ−タは、実録音による原音デ−タであって、これら
波形デ−タは、波形ファイルとして格納されており、 前記変換処理部は、 前記テキストが入力される入力部と、 単語の読みとアクセントが登録されている発音辞書と、 前記入力部、前記発音辞書及び前記フレ−ズ辞書に結合
されていて、前記入力部から入力されたテキストの用語
のうち、前記発音辞書およびフレ−ズ辞書の双方に登録
されている用語に対しては、前記フレ−ズ辞書に登録さ
れている音関連用語の波形ファイル名を用い、およびそ
の他の用語については前記発音辞書に登録されている読
みとアクセントとを用いて、前記テキストの音韻・韻律
記号列を生成するテキスト解析部と、 音声素片デ−タが格納されている音声波形メモリと、 該音声波形メモリ、前記波形辞書および前記テキスト解
析部に結合されていて、前記音韻・韻律記号列の中の前
記波形ファイル名を除いた各記号を前記音声素片デ−タ
を用いて音声波形に変換すると共に、前記波形ファイル
名に対応する波形デ−タを前記波形辞書から読出して来
て、前記音声波形と前記波形デ−タとの合成波形を出力
する音声規則合成部とを含むことを特徴とするテキスト
音声変換装置。 - 【請求項39】 請求項9又は10に記載のテキスト音
声変換装置において、 前記フレ−ズ辞書に登録されている前記音関連用語は、
当該音関連用語の表記と、該表記に対応する波形ファイ
ル名とを含み、および前記波形辞書に登録されている波
形デ−タは、実録音による原音デ−タであって、これら
波形デ−タは、波形ファイルとして格納されていること
を特徴とするテキスト音声変換装置。 - 【請求項40】 請求項9又は10に記載のテキスト音
声変換装置において、 前記フレ−ズ辞書に登録されている前記音関連用語は、
当該音関連用語の表記と、該表記に対応する波形ファイ
ル名とを含み、および前記波形辞書に登録されている波
形デ−タは、実録音による原音デ−タであって、これら
波形デ−タは、波形ファイルとして格納されており、 前記変換処理部は、 前記テキストが入力される入力部と、 単語の読みとアクセントが登録されている発音辞書と、 前記入力部、前記発音辞書及び前記フレ−ズ辞書に結合
されていて、前記入力部から入力されたテキストの用語
のうち、前記フレ−ズ辞書に登録されている用語に対し
ては、前記音関連用語の波形ファイル名を用い、および
前記テキストの全ての用語について前記発音辞書に登録
されている読みとアクセントとを用いて、前記テキスト
の音韻・韻律記号列を生成するテキスト解析部と、 音声素片デ−タが格納されている音声波形メモリと、 該音声波形メモリ、前記波形辞書および前記テキスト解
析部に結合されていて、前記音韻・韻律記号列の中の各
記号を前記音声素片デ−タを用いて音声波形に変換する
と共に、前記波形ファイル名に対応する波形デ−タを前
記波形辞書から読出して来て、前記音声波形と前記波形
デ−タとを、時間的に並列の関係で、出力する音声規則
合成部とを含むことを特徴とするテキスト音声変換装
置。 - 【請求項41】 請求項9又は10に記載のテキスト音
声変換装置において、 前記フレ−ズ辞書は、背景音の表記とこれに対応する波
形ファイル名が登録された背景音辞書とすることを特徴
とするテキスト音声変換装置。 - 【請求項42】 請求項22に記載のテキスト音声変換
装置において、 前記変換処理部は、 前記テキストが入力される入力部と、 単語の読みとアクセントが登録されている発音辞書と、 前記入力部、前記発音辞書及び前記フレ−ズ辞書に結合
されていて、前記入力部から入力されたテキストの用語
のうち前記歌詞に対しては、前記歌唱フレ−ズ辞書に登
録されている前記歌唱用音韻・韻律記号列を用い、およ
びその他の用語については前記発音辞書に登録されてい
る読みとアクセントとを用いて、前記テキストの音韻・
韻律記号列を生成するテキスト解析部と、 音声素片デ−タが格納されている音声波形メモリと、 該音声波形メモリ、前記歌唱用音韻・韻律記号列処理部
および前記テキスト解析部に結合されていて、前記音韻
・韻律記号列の中の前記歌唱用音韻・韻律記号列を除い
た各記号を前記音声素片デ−タを用いて音声波形に変換
すると共に、前記歌唱用音韻・韻律記号列処理部及び前
記音声波形メモリと協同して前記歌唱用音韻・韻律記号
列に対応する波形デ−タを前記歌唱用音韻・韻律記号列
処理部で生成して、前記音声波形と前記波形デ−タとの
合成波形を出力する音声規則合成部とを含むことを特徴
とするテキスト音声変換装置。 - 【請求項43】 請求項28に記載のテキスト音声変換
装置において、 前記曲名辞書に登録されている前記曲名は、当該曲名の
表記と、該表記に対応する楽曲ファイル名とを含み、お
よび前記楽曲辞書に登録されている前記演奏用デ−タ
は、実録音による原音デ−タであって、これら演奏用デ
−タは、楽曲ファイルとして格納されており、 前記変換処理部は、 前記テキストが入力される入力部と、 単語の読みとアクセントが登録されている発音辞書と、 前記入力部、前記発音辞書及び前記曲名辞書に結合され
ていて、前記入力部から入力されたテキストの用語のう
ち前記曲名に対しては、前記楽曲ファイル名を用い、お
よび前記テキストの全ての用語について前記発音辞書に
登録されている読みとアクセントとを用いて、前記テキ
ストの音韻・韻律記号列を生成するテキスト解析部と、 音声素片デ−タが格納されている音声波形メモリと、 該音声波形メモリ、前記楽音波形生成部および前記テキ
スト解析部に結合されていて、前記音韻・韻律記号列の
中の各記号を前記音声素片デ−タを用いて音声波形に変
換すると共に、前記楽曲ファイル名に対応する演奏用デ
−タを前記楽音波形生成部から読出して来て、前記音声
波形と前記演奏用デ−タとを、時間的に並列の関係で、
出力する音声規則合成部とを含むことを特徴とするテキ
スト音声変換装置。 - 【請求項44】 請求項2,10および23のいずれか
一項に記載のテキスト音声変換装置において、 前記適用判定部は、前記変換処理部と前記フレ−ズ辞書
との間に結合されていて、前記適用条件が格納されたル
−ル辞書と、前記フレ−ズ辞書の適用の可否を判定する
条件判定部とを具えていることを特徴とするテキスト音
声変換装置。 - 【請求項45】 請求項29に記載のテキスト音声変換
装置において、 前記適用判定部は、前記変換処理部と前記曲名辞書との
間に結合されていて、 前記適用条件が格納されたル−ル辞書と、前記曲名辞書
の適用の可否を判定する条件判定部とを具えていること
を特徴とするテキスト音声変換装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001017058A JP2002221980A (ja) | 2001-01-25 | 2001-01-25 | テキスト音声変換装置 |
US09/907,660 US7260533B2 (en) | 2001-01-25 | 2001-07-19 | Text-to-speech conversion system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001017058A JP2002221980A (ja) | 2001-01-25 | 2001-01-25 | テキスト音声変換装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002221980A true JP2002221980A (ja) | 2002-08-09 |
Family
ID=18883320
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001017058A Pending JP2002221980A (ja) | 2001-01-25 | 2001-01-25 | テキスト音声変換装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7260533B2 (ja) |
JP (1) | JP2002221980A (ja) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004287097A (ja) * | 2003-03-20 | 2004-10-14 | Sony Corp | 歌声合成方法、歌声合成装置、プログラム及び記録媒体並びにロボット装置 |
WO2004109658A1 (ja) * | 2003-06-02 | 2004-12-16 | International Business Machines Corporation | 音声応答システム、音声応答方法、音声サーバ、音声ファイル処理方法、プログラム及び記録媒体 |
JP2006349787A (ja) * | 2005-06-14 | 2006-12-28 | Hitachi Information & Control Solutions Ltd | 音声合成方法および装置 |
CN1310209C (zh) * | 2003-05-29 | 2007-04-11 | 雅马哈株式会社 | 语音和乐曲再生装置 |
JP2007212884A (ja) * | 2006-02-10 | 2007-08-23 | Fujitsu Ltd | 音声合成装置、音声合成方法、及びコンピュータプログラム |
JP2010531070A (ja) * | 2007-03-09 | 2010-09-16 | ソニー エリクソン モバイル コミュニケーションズ, エービー | メディアで強化されたメッセージングのための可搬通信デバイス及び方法 |
JP2010224236A (ja) * | 2009-03-24 | 2010-10-07 | Alpine Electronics Inc | 音声出力装置 |
JP2011133803A (ja) * | 2009-12-25 | 2011-07-07 | Oki Electric Industry Co Ltd | 入力補助装置、入力補助プログラム、音声合成装置及び音声合成プログラム |
US8041569B2 (en) | 2007-03-14 | 2011-10-18 | Canon Kabushiki Kaisha | Speech synthesis method and apparatus using pre-recorded speech and rule-based synthesized speech |
JP2013101637A (ja) * | 2007-04-28 | 2013-05-23 | Nokia Corp | テキスト専用アプリケーションのための娯楽オーディオ |
JP2013178510A (ja) * | 2012-02-07 | 2013-09-09 | Yamaha Corp | 電子装置及びプログラム |
JP2013231872A (ja) * | 2012-04-27 | 2013-11-14 | Yamaha Corp | 歌唱合成を行うための装置およびプログラム |
KR101512500B1 (ko) * | 2013-05-16 | 2015-04-17 | 주식회사 뮤즈넷 | 음악 채팅 서비스 제공방법 |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7203647B2 (en) * | 2001-08-21 | 2007-04-10 | Canon Kabushiki Kaisha | Speech output apparatus, speech output method, and program |
US7558732B2 (en) * | 2002-09-23 | 2009-07-07 | Infineon Technologies Ag | Method and system for computer-aided speech synthesis |
US7277883B2 (en) * | 2003-01-06 | 2007-10-02 | Masterwriter, Inc. | Information management system |
DE10338512A1 (de) * | 2003-08-22 | 2005-03-17 | Daimlerchrysler Ag | Unterstützungsverfahren für Sprachdialoge zur Bedienung von Kraftfahrzeugfunktionen |
US7487092B2 (en) * | 2003-10-17 | 2009-02-03 | International Business Machines Corporation | Interactive debugging and tuning method for CTTS voice building |
US7629989B2 (en) * | 2004-04-02 | 2009-12-08 | K-Nfb Reading Technology, Inc. | Reducing processing latency in optical character recognition for portable reading machine |
JP2006047866A (ja) * | 2004-08-06 | 2006-02-16 | Canon Inc | 電子辞書装置およびその制御方法 |
TWI250509B (en) * | 2004-10-05 | 2006-03-01 | Inventec Corp | Speech-synthesizing system and method thereof |
US20070061143A1 (en) * | 2005-09-14 | 2007-03-15 | Wilson Mark J | Method for collating words based on the words' syllables, and phonetic symbols |
US20070078655A1 (en) * | 2005-09-30 | 2007-04-05 | Rockwell Automation Technologies, Inc. | Report generation system with speech output |
FI20055717A0 (fi) * | 2005-12-30 | 2005-12-30 | Nokia Corp | Koodinmuunnosmenetelmä matkaviestinjärjestelmässä |
US8280734B2 (en) | 2006-08-16 | 2012-10-02 | Nuance Communications, Inc. | Systems and arrangements for titling audio recordings comprising a lingual translation of the title |
US20090006089A1 (en) * | 2007-06-27 | 2009-01-01 | Motorola, Inc. | Method and apparatus for storing real time information on a mobile communication device |
US8027835B2 (en) * | 2007-07-11 | 2011-09-27 | Canon Kabushiki Kaisha | Speech processing apparatus having a speech synthesis unit that performs speech synthesis while selectively changing recorded-speech-playback and text-to-speech and method |
JP2009294640A (ja) * | 2008-05-07 | 2009-12-17 | Seiko Epson Corp | 音声データ作成システム、プログラム、半導体集積回路装置及び半導体集積回路装置の製造方法 |
US8990087B1 (en) * | 2008-09-30 | 2015-03-24 | Amazon Technologies, Inc. | Providing text to speech from digital content on an electronic device |
US8718610B2 (en) * | 2008-12-03 | 2014-05-06 | Sony Corporation | Controlling sound characteristics of alert tunes that signal receipt of messages responsive to content of the messages |
JP5465926B2 (ja) * | 2009-05-22 | 2014-04-09 | アルパイン株式会社 | 音声認識辞書作成装置及び音声認識辞書作成方法 |
JP2012163692A (ja) * | 2011-02-04 | 2012-08-30 | Nec Corp | 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム |
KR101274961B1 (ko) * | 2011-04-28 | 2013-06-13 | (주)티젠스 | 클라이언트단말기를 이용한 음악 컨텐츠 제작시스템 |
US9691381B2 (en) * | 2012-02-21 | 2017-06-27 | Mediatek Inc. | Voice command recognition method and related electronic device and computer-readable medium |
US9015034B2 (en) | 2012-05-15 | 2015-04-21 | Blackberry Limited | Methods and devices for generating an action item summary |
WO2014102992A1 (ja) * | 2012-12-28 | 2014-07-03 | 株式会社日立製作所 | データ加工システムおよびデータ加工方法 |
JP6013951B2 (ja) * | 2013-03-14 | 2016-10-25 | 本田技研工業株式会社 | 環境音検索装置、環境音検索方法 |
US9641481B2 (en) * | 2014-02-21 | 2017-05-02 | Htc Corporation | Smart conversation method and electronic device using the same |
US9959342B2 (en) * | 2016-06-28 | 2018-05-01 | Microsoft Technology Licensing, Llc | Audio augmented reality system |
CN107943405A (zh) | 2016-10-13 | 2018-04-20 | 广州市动景计算机科技有限公司 | 语音播报装置、方法、浏览器及用户终端 |
JP7119939B2 (ja) * | 2018-11-19 | 2022-08-17 | トヨタ自動車株式会社 | 情報処理装置、情報処理方法およびプログラム |
US11114085B2 (en) | 2018-12-28 | 2021-09-07 | Spotify Ab | Text-to-speech from media content item snippets |
US11335326B2 (en) * | 2020-05-14 | 2022-05-17 | Spotify Ab | Systems and methods for generating audible versions of text sentences from audio snippets |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63262696A (ja) * | 1987-04-20 | 1988-10-28 | シャープ株式会社 | 日本語文・音声変換装置 |
JPH01112297A (ja) * | 1987-10-26 | 1989-04-28 | Matsushita Electric Ind Co Ltd | 音声合成装置 |
JPH0772888A (ja) * | 1993-09-01 | 1995-03-17 | Matsushita Electric Ind Co Ltd | 情報処理装置 |
JPH09146580A (ja) * | 1995-11-20 | 1997-06-06 | Nec Corp | 効果音検索装置 |
JPH09171396A (ja) * | 1995-10-18 | 1997-06-30 | Baisera:Kk | 音声発生システム |
JPH1195798A (ja) * | 1997-09-19 | 1999-04-09 | Dainippon Printing Co Ltd | 音声合成方法および音声合成装置 |
JPH11184490A (ja) * | 1997-12-25 | 1999-07-09 | Nippon Telegr & Teleph Corp <Ntt> | 規則音声合成による歌声合成方法 |
JP2000081892A (ja) * | 1998-09-04 | 2000-03-21 | Nec Corp | 効果音付加装置および効果音付加方法 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5826037B2 (ja) * | 1976-09-02 | 1983-05-31 | カシオ計算機株式会社 | 電子歌唱装置 |
US4731847A (en) * | 1982-04-26 | 1988-03-15 | Texas Instruments Incorporated | Electronic apparatus for simulating singing of song |
US4570250A (en) * | 1983-05-18 | 1986-02-11 | Cbs Inc. | Optical sound-reproducing apparatus |
US4692941A (en) * | 1984-04-10 | 1987-09-08 | First Byte | Real-time text-to-speech conversion system |
JPS61250771A (ja) * | 1985-04-30 | 1986-11-07 | Toshiba Corp | ワ−ドプロセツサ |
JPH03145698A (ja) * | 1989-11-01 | 1991-06-20 | Toshiba Corp | 音声合成装置 |
US5278943A (en) * | 1990-03-23 | 1994-01-11 | Bright Star Technology, Inc. | Speech animation and inflection system |
US5903454A (en) * | 1991-12-23 | 1999-05-11 | Hoffberg; Linda Irene | Human-factored interface corporating adaptive pattern recognition based controller apparatus |
JP3083640B2 (ja) * | 1992-05-28 | 2000-09-04 | 株式会社東芝 | 音声合成方法および装置 |
US5384893A (en) * | 1992-09-23 | 1995-01-24 | Emerson & Stern Associates, Inc. | Method and apparatus for speech synthesis based on prosodic analysis |
US5636325A (en) * | 1992-11-13 | 1997-06-03 | International Business Machines Corporation | Speech synthesis and analysis of dialects |
JPH0851379A (ja) * | 1994-07-05 | 1996-02-20 | Ford Motor Co | 無線放送受信器の音声効果制御器 |
DE19610019C2 (de) * | 1996-03-14 | 1999-10-28 | Data Software Gmbh G | Digitales Sprachsyntheseverfahren |
US5850629A (en) * | 1996-09-09 | 1998-12-15 | Matsushita Electric Industrial Co., Ltd. | User interface controller for text-to-speech synthesizer |
US5933804A (en) * | 1997-04-10 | 1999-08-03 | Microsoft Corporation | Extensible speech recognition system that provides a user with audio feedback |
US6446040B1 (en) * | 1998-06-17 | 2002-09-03 | Yahoo! Inc. | Intelligent text-to-speech synthesis |
JP2000148175A (ja) * | 1998-09-10 | 2000-05-26 | Ricoh Co Ltd | テキスト音声変換装置 |
US6266637B1 (en) * | 1998-09-11 | 2001-07-24 | International Business Machines Corporation | Phrase splicing and variable substitution using a trainable speech synthesizer |
JP2000105595A (ja) * | 1998-09-30 | 2000-04-11 | Victor Co Of Japan Ltd | 歌唱装置及び記録媒体 |
US6208968B1 (en) * | 1998-12-16 | 2001-03-27 | Compaq Computer Corporation | Computer method and apparatus for text-to-speech synthesizer dictionary reduction |
JP2000305585A (ja) * | 1999-04-23 | 2000-11-02 | Oki Electric Ind Co Ltd | 音声合成装置 |
US6385581B1 (en) * | 1999-05-05 | 2002-05-07 | Stanley W. Stephenson | System and method of providing emotive background sound to text |
US6462264B1 (en) * | 1999-07-26 | 2002-10-08 | Carl Elam | Method and apparatus for audio broadcast of enhanced musical instrument digital interface (MIDI) data formats for control of a sound generator to create music, lyrics, and speech |
JP3430985B2 (ja) * | 1999-08-05 | 2003-07-28 | ヤマハ株式会社 | 合成音生成装置 |
US20030028380A1 (en) * | 2000-02-02 | 2003-02-06 | Freeland Warwick Peter | Speech system |
-
2001
- 2001-01-25 JP JP2001017058A patent/JP2002221980A/ja active Pending
- 2001-07-19 US US09/907,660 patent/US7260533B2/en not_active Expired - Lifetime
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63262696A (ja) * | 1987-04-20 | 1988-10-28 | シャープ株式会社 | 日本語文・音声変換装置 |
JPH01112297A (ja) * | 1987-10-26 | 1989-04-28 | Matsushita Electric Ind Co Ltd | 音声合成装置 |
JPH0772888A (ja) * | 1993-09-01 | 1995-03-17 | Matsushita Electric Ind Co Ltd | 情報処理装置 |
JPH09171396A (ja) * | 1995-10-18 | 1997-06-30 | Baisera:Kk | 音声発生システム |
JPH09146580A (ja) * | 1995-11-20 | 1997-06-06 | Nec Corp | 効果音検索装置 |
JPH1195798A (ja) * | 1997-09-19 | 1999-04-09 | Dainippon Printing Co Ltd | 音声合成方法および音声合成装置 |
JPH11184490A (ja) * | 1997-12-25 | 1999-07-09 | Nippon Telegr & Teleph Corp <Ntt> | 規則音声合成による歌声合成方法 |
JP2000081892A (ja) * | 1998-09-04 | 2000-03-21 | Nec Corp | 効果音付加装置および効果音付加方法 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004287097A (ja) * | 2003-03-20 | 2004-10-14 | Sony Corp | 歌声合成方法、歌声合成装置、プログラム及び記録媒体並びにロボット装置 |
CN1310209C (zh) * | 2003-05-29 | 2007-04-11 | 雅马哈株式会社 | 语音和乐曲再生装置 |
WO2004109658A1 (ja) * | 2003-06-02 | 2004-12-16 | International Business Machines Corporation | 音声応答システム、音声応答方法、音声サーバ、音声ファイル処理方法、プログラム及び記録媒体 |
KR100834363B1 (ko) * | 2003-06-02 | 2008-06-02 | 인터내셔널 비지네스 머신즈 코포레이션 | 음성 응답 시스템, 음성 응답 방법, 음성 서버, 음성 파일 처리 방법 및 기록 매체 |
JP2006349787A (ja) * | 2005-06-14 | 2006-12-28 | Hitachi Information & Control Solutions Ltd | 音声合成方法および装置 |
JP2007212884A (ja) * | 2006-02-10 | 2007-08-23 | Fujitsu Ltd | 音声合成装置、音声合成方法、及びコンピュータプログラム |
JP2010531070A (ja) * | 2007-03-09 | 2010-09-16 | ソニー エリクソン モバイル コミュニケーションズ, エービー | メディアで強化されたメッセージングのための可搬通信デバイス及び方法 |
US8041569B2 (en) | 2007-03-14 | 2011-10-18 | Canon Kabushiki Kaisha | Speech synthesis method and apparatus using pre-recorded speech and rule-based synthesized speech |
JP2013101637A (ja) * | 2007-04-28 | 2013-05-23 | Nokia Corp | テキスト専用アプリケーションのための娯楽オーディオ |
US8694320B2 (en) | 2007-04-28 | 2014-04-08 | Nokia Corporation | Audio with sound effect generation for text-only applications |
JP2010224236A (ja) * | 2009-03-24 | 2010-10-07 | Alpine Electronics Inc | 音声出力装置 |
JP2011133803A (ja) * | 2009-12-25 | 2011-07-07 | Oki Electric Industry Co Ltd | 入力補助装置、入力補助プログラム、音声合成装置及び音声合成プログラム |
JP2013178510A (ja) * | 2012-02-07 | 2013-09-09 | Yamaha Corp | 電子装置及びプログラム |
JP2013231872A (ja) * | 2012-04-27 | 2013-11-14 | Yamaha Corp | 歌唱合成を行うための装置およびプログラム |
KR101512500B1 (ko) * | 2013-05-16 | 2015-04-17 | 주식회사 뮤즈넷 | 음악 채팅 서비스 제공방법 |
Also Published As
Publication number | Publication date |
---|---|
US7260533B2 (en) | 2007-08-21 |
US20030074196A1 (en) | 2003-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2002221980A (ja) | テキスト音声変換装置 | |
US8219398B2 (en) | Computerized speech synthesizer for synthesizing speech from text | |
JP4539537B2 (ja) | 音声合成装置,音声合成方法,およびコンピュータプログラム | |
JP2003295882A (ja) | 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム | |
JP3587048B2 (ja) | 韻律制御方法及び音声合成装置 | |
JP2003114693A (ja) | 音声制御情報ストリームに基づいて音声信号を合成する方法 | |
WO2004097792A1 (ja) | 音声合成システム | |
JPH10153998A (ja) | 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置 | |
JPH1138989A (ja) | 音声合成装置及び方法 | |
JP3270356B2 (ja) | 発話文書作成装置,発話文書作成方法および発話文書作成手順をコンピュータに実行させるプログラムを格納したコンピュータ読み取り可能な記録媒体 | |
WO2008056590A1 (fr) | Dispositif de synthèse texte-parole, programme et procédé de synthèse texte-parole | |
JP5062178B2 (ja) | 音声収録システム、音声収録方法、および収録処理プログラム | |
KR20010018064A (ko) | 음운환경과 묵음구간 길이를 이용한 텍스트/음성변환 장치 및그 방법 | |
JP6167503B2 (ja) | 音声合成装置 | |
JP2011090218A (ja) | 音素符号変換装置、音素符号データベース、および音声合成装置 | |
JP4409279B2 (ja) | 音声合成装置及び音声合成プログラム | |
JPH08335096A (ja) | テキスト音声合成装置 | |
JP2806364B2 (ja) | 発声訓練装置 | |
JP2022065554A (ja) | 音声合成方法およびプログラム | |
TWI269191B (en) | Method of synchronizing speech waveform playback and text display | |
JP2894447B2 (ja) | 複合音声単位を用いた音声合成装置 | |
WO2023171522A1 (ja) | 音響生成方法、音響生成システムおよびプログラム | |
KR20100003574A (ko) | 음성음원정보 생성 장치 및 시스템, 그리고 이를 이용한음성음원정보 생성 방법 | |
JP2001350490A (ja) | テキスト音声変換装置及び方法 | |
JPH07160290A (ja) | 音声合成方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070615 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20081119 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081125 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20090130 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100310 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100323 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100727 |