JP2005018037A - 音声合成装置、音声合成方法及びプログラム - Google Patents
音声合成装置、音声合成方法及びプログラム Download PDFInfo
- Publication number
- JP2005018037A JP2005018037A JP2004142907A JP2004142907A JP2005018037A JP 2005018037 A JP2005018037 A JP 2005018037A JP 2004142907 A JP2004142907 A JP 2004142907A JP 2004142907 A JP2004142907 A JP 2004142907A JP 2005018037 A JP2005018037 A JP 2005018037A
- Authority
- JP
- Japan
- Prior art keywords
- data
- speech
- piece
- unit
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 67
- 238000003786 synthesis reaction Methods 0.000 title claims description 67
- 238000000034 method Methods 0.000 title description 75
- 238000006243 chemical reaction Methods 0.000 claims description 56
- 230000002194 synthesizing effect Effects 0.000 claims description 41
- 238000001308 synthesis method Methods 0.000 claims description 13
- 230000008859 change Effects 0.000 claims description 10
- 230000033764 rhythmic process Effects 0.000 abstract 2
- 230000006870 function Effects 0.000 description 45
- 230000006837 decompression Effects 0.000 description 33
- 230000008569 process Effects 0.000 description 33
- 230000015654 memory Effects 0.000 description 15
- 230000006835 compression Effects 0.000 description 11
- 238000007906 compression Methods 0.000 description 11
- 230000004044 response Effects 0.000 description 8
- 230000003247 decreasing effect Effects 0.000 description 6
- 235000016496 Panda oleosa Nutrition 0.000 description 5
- 240000000220 Panda oleosa Species 0.000 description 5
- 230000007423 decrease Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 235000019800 disodium phosphate Nutrition 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 239000012634 fragment Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Abstract
【解決手段】 定型メッセージを表すデータが供給されると、音片編集部5は、定型メッセージ内の音片と読みが合致する音片の音片データを音片データベース7から索出させ、発声スピードデータが示すスピードに合致するよう、この音片データを変換させる。一方で音片編集部5は定型メッセージの韻律予測を行い、索出された音片データのうちから定型メッセージ内の各音片に最もよく合致するものを1個ずつ、韻律予測結果に基づいて選択する。選択できなかった音片については音響処理部41に単位音声毎の波形を表す波形データを供給させる。そして、選択した音片データや、音響処理部41に供給させた波形データを互いに結合して、合成音声を表すデータを生成する。
【選択図】 図1
Description
録音編集方式は、単語と、この単語を読み上げる音声を表す音声データとを対応付けておき、音声合成する対象の文章を単語に区切ってから、これらの単語に対応付けられた音声データを取得してつなぎ合わせる、という手法である(例えば、特許文献1参照)。
この問題を解決する手法としては、同一の音素を互いに異なった韻律で読み上げる音声を表す複数の音声データを用意し、一方で音声合成する対象の文章に韻律予測を施して、予測結果に合致する音声データを選び出してつなぎ合わせる、という手法が考えられる。
しかし、音声データを音素毎に用意して録音編集方式により自然な合成音声を得ようとすると、音声データを記憶する記憶装置には膨大な記憶容量が必要となる。また、検索する対象のデータの量も膨大なものとなる。
音片を表す音片データを複数記憶する音片記憶手段と、
文章を表す文章情報を入力し、
各前記音片データのうちから、前記文章を構成する音声と読みが共通している音片データを選択する選択手段と、
前記文章を構成する音声のうち、前記選択手段が音片データを選択できなかった音声について、当該音声の波形を表す音声データを合成する欠落部分合成手段と、
前記選択手段が選択した音片データ及び前記欠落部分合成手段が合成した音声データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、
より構成されることを特徴とする。
音片を表す音片データを複数記憶する音片記憶手段と、
文章を表す文章情報を入力し、当該文章を構成する音声の韻律を予測する韻律予測手段と、
各前記音片データのうちから、前記文章を構成する音声と読みが共通していて、且つ、韻律が韻律予測結果に所定の条件下で合致する音片データを選択する選択手段と、
前記文章を構成する音声のうち、前記選択手段が音片データを選択できなかった音声について、当該音片の波形を表す音声データを合成する欠落部分合成手段と、
前記選択手段が選択した音片データ及び前記欠落部分合成手段が合成した音声データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、
より構成されることを特徴とする。
音素を表し、又は、音素を構成する素片を表すデータを複数記憶する記憶手段と、
前記選択手段が音片データを選択できなかった前記音声に含まれる音素を特定し、特定した音素又は当該音素を構成する素片を表すデータを前記記憶手段より取得して互いに結合することにより、当該音声の波形を表す音声データを合成する合成手段と、を備えるものであってもよい。
前記合成手段は、前記選択手段が音片データを選択できなかった前記音声に含まれる音素を特定し、特定した音素又は当該音素を構成する素片を表すデータを前記記憶手段より取得し、取得したデータを、当該データが表す音素又は素片が、前記欠落部分韻律予測手段による韻律の予測結果に合致するように変換して、変換されたデータを互いに結合することにより、当該音声の波形を表す音声データを合成するものであってもよい。
前記選択手段は、各前記音片データのうちから、前記文章を構成する音声と読みが共通しており、且つ、対応付けられている韻律データが表すピッチの時間変化が韻律の予測結果に最も近い音片データを選択するものであってもよい。
前記選択手段は、前記文章を構成する音声の読みに合致する読みを表す表音データが対応付けられている音片データを、当該音声と読みが共通する音片データとして扱うものであってもよい。
音片を表す音片データを複数記憶し、
文章を表す文章情報を入力し、
各前記音片データのうちから、前記文章を構成する音声と読みが共通している音片データを選択し、
前記文章を構成する音声のうち、音片データを選択できなかった音声について、当該音声の波形を表す音声データを合成し、
選択した音片データ及び合成した音声データを互いに結合することにより、合成音声を表すデータを生成する、
ことを特徴とする。
音片を表す音片データを複数記憶し、
文章を表す文章情報を入力して、当該文章を構成する音声の韻律を予測し、
各前記音片データのうちから、前記文章を構成する音声と読みが共通していて、且つ、韻律が韻律予測結果に所定の条件下で合致する音片データを選択し、
前記文章を構成する音声のうち、音片データを選択できなかった音声について、当該音声の波形を表す音声データを合成し、
選択した音片データ及び合成した音声データを互いに結合することにより、合成音声を表すデータを生成する、
ことを特徴とする。
コンピュータを、
音片を表す音片データを複数記憶する音片記憶手段と、
文章を表す文章情報を入力し、
各前記音片データのうちから、前記文章を構成する音声と読みが共通している音片データを選択する選択手段と、
前記文章を構成する音声のうち、前記選択手段が音片データを選択できなかった音声について、当該音声の波形を表す音声データを合成する欠落部分合成手段と、
前記選択手段が選択した音片データ及び前記欠落部分合成手段が合成した音声データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、
して機能させるためのものであることを特徴とする。
コンピュータを、
音片を表す音片データを複数記憶する音片記憶手段と、
文章を表す文章情報を入力し、当該文章を構成する音声の韻律を予測する韻律予測手段と、
各前記音片データのうちから、前記文章を構成する音声と読みが共通していて、且つ、韻律が韻律予測結果に所定の条件下で合致する音片データを選択する選択手段と、
前記文章を構成する音声のうち、前記選択手段が音片データを選択できなかった音声について、当該音声の波形を表す音声データを合成する欠落部分合成手段と、
前記選択手段が選択した音片データ及び前記欠落部分合成手段が合成した音声データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、
して機能させるためのものであることを特徴とする。
(第1の実施の形態)
図1は、この発明の第1の実施の形態に係る音声合成システムの構成を示す図である。図示するように、この音声合成システムは、本体ユニットM1と、音片登録ユニットRとにより構成されている。
ユーザ単語辞書3は、表意文字を含む単語等と、この単語等の読みを表す表音文字とを、ユーザの操作に従って外部より取得し、互いに対応付けて記憶する。ユーザ単語辞書3には、一般単語辞書2に記憶されていない単語等とその読みを表す表音文字とが格納されていれば十分である。
音片データベース7には、例えば、図2に示すデータ構造を有するデータが記憶されている。すなわち、図示するように、音片データベース7に格納されているデータは、ヘッダ部HDR、インデックス部IDX、ディレクトリ部DIR及びデータ部DATの4種に分かれている。
なお、音片とは、音声のうち音素1個以上を含む連続した1区間をいい、通常は単語1個分又は複数個分の区間からなる。音片は接続詞を含む場合もある。
また、エントロピー符号化される前の音片データは、上述の圧縮波形データの生成のためエントロピー符号化される前の波形データと同じ形式のデータ(例えば、PCMされたデジタル形式のデータ)からなっていればよい。
(A) この圧縮音片データが表す音片の読みを示す表音文字を表すデータ(音片読みデータ)、
(B) この圧縮音片データが格納されている記憶位置の先頭のアドレスを表すデータ、
(C) この圧縮音片データのデータ長を表すデータ、
(D) この圧縮音片データが表す音片の発声スピード(再生した場合の時間長)を表すデータ(スピード初期値データ)、
(E) この音片のピッチ成分の周波数の時間変化を表すデータ(ピッチ成分データ)、
が、互いに対応付けられた形で格納されている。(なお、音片データベース7の記憶領域にはアドレスが付されているものとする。)
また、上述のピッチ成分データは、例えば、図示するように、音片のピッチ成分の周波数を音片の先頭からの経過時間の1次関数で近似した場合における、この1次関数の切片β及び勾配αの値を示すデータからなっていればよい。(勾配αの単位は例えば[ヘルツ/秒]であればよく、切片βの単位は例えば[ヘルツ]であればよい。)
また、ピッチ成分データには更に、圧縮音片データが表す音片が鼻濁音化されているか否か、及び、無声化されているか否かを表す図示しないデータも含まれているものとする。
収録音片データセット記憶部10には、音片の読みを表す表音文字と、この音片を人が実際に発声したものを集音して得た波形を表す音片データとが、この音声合成システムの製造者等によって、あらかじめ互いに対応付けて記憶されている。なお、この音片データは、例えば、PCMされたデジタル形式のデータからなっていればよい。
発声スピードの特定は、例えば、この音片データのサンプル数を数えることにより特定すればよい。
圧縮部12は、音片データベース作成部11より供給された音片データをエントロピー符号化して圧縮音片データを作成し、音片データベース作成部11に返送する。
また、書き込んだ圧縮音片データの、音片データベース7の記憶領域内での先頭のアドレスを特定し、このアドレスを上述の(B)のデータとして音片データベース7の記憶領域に書き込む。
また、この圧縮音片データのデータ長を特定し、特定したデータ長を、(C)のデータとして音片データベース7の記憶領域に書き込む。
また、この圧縮音片データが表す音片の発声スピード及びピッチ成分の周波数の時間変化を特定した結果を示すデータを生成し、スピード初期値データ及びピッチ成分データとして音片データベース7の記憶領域に書き込む。
まず、言語処理部1が、この音声合成システムに音声を合成させる対象としてユーザが用意した、表意文字を含む文章(フリーテキスト)を記述したフリーテキストデータを外部から取得したとして説明する。
プロセッサが実行する当該他の処理としては、例えば、音声を表す音声データを取得し、この音声データに音声認識を施すことにより、この音声が表す語句を特定し、特定した語句に基づいて、この音声の発話者の要求の内容を特定して、特定した要求を満足させるために実行すべき処理を特定して実行するようなエージェント装置の機能をプロセッサに行わせるための処理などが考えられる。
音響処理部41は、検索部42より供給された波形データを、言語処理部1より供給された表音文字列内での各表音文字の並びに従った順序で、音片編集部5へと供給する。
なお、定型メッセージデータは、定型メッセージを表音文字列として表すデータであり、発声スピードデータは、定型メッセージデータが表す定型メッセージの発声スピードの指定値(この定型メッセージを発声する時間長の指定値)を示すデータである。照合レベルデータは、検索部6が行う後述の検索処理における検索条件を指定するデータであり、以下では「1」、「2」又は「3」のいずれかの値をとるものとし、「3」が最も厳格な検索条件を示すものとする。
(1) 照合レベルデータの値が「1」である場合は、話速変換部9より供給された音片データ(すなわち、定型メッセージ内の音片と読みが合致する音片データ)をすべて、定型メッセージ内の音片の波形に近いものとして選択する。
例えば、波形データや音片データはPCM形式のデータである必要はなく、データ形式は任意である。
また、波形データベース44や音片データベース7は波形データや音片データを必ずしもデータ圧縮された状態で記憶している必要はない。波形データベース44や音片データベース7が波形データや音片データをデータ圧縮されていない状態で記憶している場合、本体ユニットM1は伸長部43を備えている必要はない。
また、音片登録ユニットRは、必ずしも収録音片データセット記憶部10を備えている必要はない。
また、音片編集部5は、過去の韻律予測の結果を韻律登録データとして新たに記憶するようにしてもよい。
この場合、音響処理部41は、音片編集部5が選択した音片については、この音片の波形を表す波形データを検索部42に索出させなくてもよい。なお、音片編集部5は、音響処理部41が合成しなくてよい音片を音響処理部41に通知し、音響処理部41はこの通知に応答して、この音片を構成する単位音声の波形の検索を中止するようにすればよい。
次に、この発明の第2の実施の形態を説明する。図3は、この発明の第2の実施の形態に係る音声合成システムの構成を示す図である。図示するように、この音声合成システムも、第1の実施の形態におけるものと同様、本体ユニットM2と、音片登録ユニットRとにより構成されている。このうち、音片登録ユニットRの構成は、第1の実施の形態におけるものと実質的に同一の構成を有している。
なお、一致音片決定部51、韻律予測部52及び出力合成部53の一部又は全部の機能を単一のプロセッサが行うようにしてもよい。また、言語処理部1、音響処理部41、検索部42、伸長部43、検索部42、伸長部43、音片編集部5、検索部6、伸長部8及び話速変換部9の一部又は全部の機能を行うプロセッサが、更に一致音片決定部51、韻律予測部52及び出力合成部53の一部又は全部の機能を行うようにしてもよい。従って、例えば、出力合成部53の機能を行うプロセッサが話速変換部9の機能を行うようにしてもよい。
まず、言語処理部1が、第1の実施の形態におけるものと実質的に同一のフリーテキストデータを外部から取得したとする。この場合、言語処理部1は、第1の実施の形態における処理と実質的に同一の処理を行うことにより、このフリーテキストに含まれる表意文字を表音文字へと置換する。そして、置換を行った結果得られた表音文字列を、規則合成処理部4の音響処理部41に供給する。
また、一致音片決定部51は、話速変換部9より欠落部分識別データも供給されている場合、又は、照合レベルデータの値に相当する条件を満たす音片データを選択できなかった音片があった場合には、欠落部分識別データが示す音片(照合レベルデータの値に相当する条件を満たす音片データを選択できなかった音片を含む)の読みを表す表音文字列を定型メッセージデータより抽出して音響処理部41に供給し、この音片の波形を合成するよう指示する。
すなわち、人が発声する音声では、先行する音素から後続の音素へと遷移する境界で、これらの音素双方の影響を受けた特殊な波形が現れることが知られており、一方、規則合成に用いられる音素は、採取した段階で既にその端部にこの特殊な波形を含んでいるため、音素を用いて規則合成を行う場合は、音素間の境界の波形の様々なパターンを再現可能とするために膨大な種類の音素を用意するか、あるいは、音素間の境界の波形が自然な音声とは異なった合成音声を合成することで満足する必要がある。しかし、素片を用いて規則合成を行う場合は、音素の端部以外の部分から素片を採取するようにすれば、音素間の境界の特殊な波形の影響をあらかじめ排除することができる。このため、膨大な種類の素片を用意することを要せず、自然な音声を得ることができる。
例えば、素片波形データはPCM形式のデータである必要はなく、データ形式は任意である。また、波形データベース44は素片波形データや音片データを必ずしもデータ圧縮された状態で記憶している必要はない。波形データベース44が素片波形データをデータ圧縮されていない状態で記憶している場合、本体ユニットM2は伸長部43を備えている必要はない。
例えば、パーソナルコンピュータに上述の言語処理部1、一般単語辞書2、ユーザ単語辞書3、音響処理部41、検索部42、伸長部43、波形データベース44、音片編集部5、検索部6、音片データベース7、伸長部8及び話速変換部9の動作を実行させるためのプログラムを格納した記録媒体(CD−ROM、MO、フロッピー(登録商標)ディスク等)から該プログラムをインストールすることにより、上述の処理を実行する本体ユニットM1を構成することができる。
また、パーソナルコンピュータに上述の収録音片データセット記憶部10、音片データベース作成部11及び圧縮部12の動作を実行させるためのプログラムを格納した媒体から該プログラムをインストールすることにより、上述の処理を実行する音片登録ユニットRを構成することができる。
図4は、このパーソナルコンピュータがフリーテキストデータを取得した場合の処理を示すフローチャートである。
図5は、このパーソナルコンピュータが配信文字列データを取得した場合の処理を示すフローチャートである。
図6は、このパーソナルコンピュータが定型メッセージデータ及び発声スピードデータを取得した場合の処理を示すフローチャートである。
なお、照合レベルデータが示す基準に合致する音片データが1個の音片につき複数あった場合は、これら複数の音片データを、設定した条件より厳格な条件に従って1個に絞り込むものとする。
図7は、本体ユニットM2の機能を行うパーソナルコンピュータがフリーテキストデータを取得した場合の処理を示すフローチャートである。
図8は、本体ユニットM2の機能を行うパーソナルコンピュータが配信文字列データを取得した場合の処理を示すフローチャートである。
図9は、本体ユニットM2の機能を行うパーソナルコンピュータが定型メッセージデータ及び発声スピードデータを取得した場合の処理を示すフローチャートである。
ただし、ステップS607でこのパーソナルコンピュータは、ステップS503の処理に相当する処理を行う代わりに、ステップS605における韻律予測の結果を用いて音声波形データを生成するようにしてもよい。
そして、これらのプログラムを起動し、OSの制御下に、他のアプリケーションプログラムと同様に実行することにより、上述の処理を実行することができる。
1 言語処理部
2 一般単語辞書
3 ユーザ単語辞書
41 音響処理部
42 検索部
43,8 伸長部
44 波形データベース
5 音片編集部
51 一致音片決定部
52 韻律予測部
53 出力合成部
6 検索部
7 音片データベース
9 話速変換部
R 音片登録ユニット
10 収録音片データセット記憶部
11 音片データベース作成部
12 圧縮部
HDR ヘッダ部
IDX インデックス部
DIR ディレクトリ部
DAT データ部
Claims (14)
- 音片を表す音片データを複数記憶する音片記憶手段と、
文章を表す文章情報を入力し、
各前記音片データのうちから、前記文章を構成する音声と読みが共通している音片データを選択する選択手段と、
前記文章を構成する音声のうち、前記選択手段が音片データを選択できなかった音声について、当該音声の波形を表す音声データを合成する欠落部分合成手段と、
前記選択手段が選択した音片データ及び前記欠落部分合成手段が合成した音声データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、
より構成されることを特徴とする音声合成装置。 - 音片を表す音片データを複数記憶する音片記憶手段と、
文章を表す文章情報を入力し、当該文章を構成する音声の韻律を予測する韻律予測手段と、
各前記音片データのうちから、前記文章を構成する音声と読みが共通していて、且つ、韻律が韻律予測結果に所定の条件下で合致する音片データを選択する選択手段と、
前記文章を構成する音声のうち、前記選択手段が音片データを選択できなかった音声について、当該音片の波形を表す音声データを合成する欠落部分合成手段と、
前記選択手段が選択した音片データ及び前記欠落部分合成手段が合成した音声データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、
より構成されることを特徴とする音声合成装置。 - 前記選択手段は、韻律が韻律予測結果に前記所定の条件下で合致しない音片データを、選択の対象から除外する、
ことを特徴とする請求項2に記載の音声合成装置。 - 前記欠落部分合成手段は、
音素を表し、又は、音素を構成する素片を表すデータを複数記憶する記憶手段と、
前記選択手段が音片データを選択できなかった前記音声に含まれる音素を特定し、特定した音素又は当該音素を構成する素片を表すデータを前記記憶手段より取得して互いに結合することにより、当該音声の波形を表す音声データを合成する合成手段と、を備える、
ことを特徴とする請求項2又は3に記載の音声合成装置。 - 前記欠落部分合成手段は、前記選択手段が音片データを選択できなかった前記音声の韻律を予測する欠落部分韻律予測手段を備え、
前記合成手段は、前記選択手段が音片データを選択できなかった前記音声に含まれる音素を特定し、特定した音素又は当該音素を構成する素片を表すデータを前記記憶手段より取得し、取得したデータを、当該データが表す音素又は素片が、前記欠落部分韻律予測手段による韻律の予測結果に合致するように変換して、変換されたデータを互いに結合することにより、当該音声の波形を表す音声データを合成する、
ことを特徴とする請求項4に記載の音声合成装置。 - 前記欠落部分合成手段は、前記韻律予測手段が予測した韻律に基づいて、前記選択手段が音片データを選択できなかった音声について、当該音片の波形を表す音声データを合成する、
ことを特徴とする請求項2、3又は4に記載の音声合成装置。 - 前記音片記憶手段は、音片データが表す音片のピッチの時間変化を表す韻律データを、当該音片データに対応付けて記憶しており、
前記選択手段は、各前記音片データのうちから、前記文章を構成する音声と読みが共通しており、且つ、対応付けられている韻律データが表すピッチの時間変化が韻律の予測結果に最も近い音片データを選択する、
ことを特徴とする請求項2乃至6のいずれか1項に記載の音声合成装置。 - 前記合成音声を発声するスピードの条件を指定する発声スピードデータを取得し、前記合成音声を表すデータを構成する音片データ及び/又は音声データを、当該発声スピードデータが指定する条件を満たすスピードで発話される音声を表すように選択又は変換する発話スピード変換手段を備える、
ことを特徴とする請求項1乃至7のいずれか1項に記載の音声合成装置。 - 前記発話スピード変換手段は、前記合成音声を表すデータを構成する音片データ及び/又は音声データから素片を表す区間を除去し、又は、当該音片データ及び/又は音声データに素片を表す区間を追加することによって、当該音片データ及び/又は音声データを、前記発声スピードデータが指定する条件を満たすスピードで発話される音声を表すよう変換する、
ことを特徴とする請求項8に記載の音声合成装置。 - 前記音片記憶手段は、音片データの読みを表す表音データを、当該音片データに対応付けて記憶しており、
前記選択手段は、前記文章を構成する音声の読みに合致する読みを表す表音データが対応付けられている音片データを、当該音声と読みが共通する音片データとして扱う、
ことを特徴とする請求項1乃至9のいずれか1項に記載の音声合成装置。 - 音片を表す音片データを複数記憶し、
文章を表す文章情報を入力し、
各前記音片データのうちから、前記文章を構成する音声と読みが共通している音片データを選択し、
前記文章を構成する音声のうち、音片データを選択できなかった音声について、当該音声の波形を表す音声データを合成し、
選択した音片データ及び合成した音声データを互いに結合することにより、合成音声を表すデータを生成する、
ことを特徴とする音声合成方法。 - 音片を表す音片データを複数記憶し、
文章を表す文章情報を入力して、当該文章を構成する音声の韻律を予測し、
各前記音片データのうちから、前記文章を構成する音声と読みが共通していて、且つ、韻律が韻律予測結果に所定の条件下で合致する音片データを選択し、
前記文章を構成する音声のうち、音片データを選択できなかった音声について、当該音声の波形を表す音声データを合成し、
選択した音片データ及び合成した音声データを互いに結合することにより、合成音声を表すデータを生成する、
ことを特徴とする音声合成方法。 - コンピュータを、
音片を表す音片データを複数記憶する音片記憶手段と、
文章を表す文章情報を入力し、
各前記音片データのうちから、前記文章を構成する音声と読みが共通している音片データを選択する選択手段と、
前記文章を構成する音声のうち、前記選択手段が音片データを選択できなかった音声について、当該音声の波形を表す音声データを合成する欠落部分合成手段と、
前記選択手段が選択した音片データ及び前記欠落部分合成手段が合成した音声データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、
して機能させるためのプログラム。 - コンピュータを、
音片を表す音片データを複数記憶する音片記憶手段と、
文章を表す文章情報を入力し、当該文章を構成する音声の韻律を予測する韻律予測手段と、
各前記音片データのうちから、前記文章を構成する音声と読みが共通していて、且つ、韻律が韻律予測結果に所定の条件下で合致する音片データを選択する選択手段と、
前記文章を構成する音声のうち、前記選択手段が音片データを選択できなかった音声について、当該音声の波形を表す音声データを合成する欠落部分合成手段と、
前記選択手段が選択した音片データ及び前記欠落部分合成手段が合成した音声データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、
して機能させるためのプログラム。
Priority Applications (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004142907A JP4287785B2 (ja) | 2003-06-05 | 2004-04-09 | 音声合成装置、音声合成方法及びプログラム |
PCT/JP2004/008087 WO2004109659A1 (ja) | 2003-06-05 | 2004-06-03 | 音声合成装置、音声合成方法及びプログラム |
DE04735990T DE04735990T1 (de) | 2003-06-05 | 2004-06-03 | Sprachsynthesevorrichtung, sprachsyntheseverfahren und programm |
US10/559,571 US8214216B2 (en) | 2003-06-05 | 2004-06-03 | Speech synthesis for synthesizing missing parts |
EP04735990A EP1630791A4 (en) | 2003-06-05 | 2004-06-03 | SPEECH SYNTHESIS DEVICE, SPEECH SYNTHESIS METHOD, AND PROGRAM |
CN2004800182659A CN1813285B (zh) | 2003-06-05 | 2004-06-03 | 语音合成设备和方法 |
KR1020057023284A KR101076202B1 (ko) | 2003-06-05 | 2005-12-05 | 음성 합성 장치, 음성 합성 방법 및 프로그램이 기록된 기록 매체 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003160657 | 2003-06-05 | ||
JP2004142907A JP4287785B2 (ja) | 2003-06-05 | 2004-04-09 | 音声合成装置、音声合成方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005018037A true JP2005018037A (ja) | 2005-01-20 |
JP4287785B2 JP4287785B2 (ja) | 2009-07-01 |
Family
ID=34196774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004142907A Expired - Lifetime JP4287785B2 (ja) | 2003-06-05 | 2004-04-09 | 音声合成装置、音声合成方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4287785B2 (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006251538A (ja) * | 2005-03-11 | 2006-09-21 | Kenwood Corp | 音声合成装置、音声合成方法及びプログラム |
JP2007108450A (ja) * | 2005-10-14 | 2007-04-26 | Kenwood Corp | 音声再生装置、音声配信装置、音声配信システム、音声再生方法、音声配信方法及びプログラム |
JP2007240988A (ja) * | 2006-03-09 | 2007-09-20 | Kenwood Corp | 音声合成装置、データベース、音声合成方法及びプログラム |
JP2007240987A (ja) * | 2006-03-09 | 2007-09-20 | Kenwood Corp | 音声合成装置、音声合成方法及びプログラム |
JP2007240989A (ja) * | 2006-03-09 | 2007-09-20 | Kenwood Corp | 音声合成装置、音声合成方法及びプログラム |
JP2007240990A (ja) * | 2006-03-09 | 2007-09-20 | Kenwood Corp | 音声合成装置、音声合成方法及びプログラム |
JP2009020264A (ja) * | 2007-07-11 | 2009-01-29 | Hitachi Ltd | 音声合成装置及び音声合成方法並びにプログラム |
US7536303B2 (en) | 2005-01-25 | 2009-05-19 | Panasonic Corporation | Audio restoration apparatus and audio restoration method |
JPWO2008062529A1 (ja) * | 2006-11-24 | 2010-03-04 | 富士通株式会社 | 文書読上げ装置、文書読上げ装置を制御する制御方法及び文書読上げ装置を制御する制御プログラム |
-
2004
- 2004-04-09 JP JP2004142907A patent/JP4287785B2/ja not_active Expired - Lifetime
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7536303B2 (en) | 2005-01-25 | 2009-05-19 | Panasonic Corporation | Audio restoration apparatus and audio restoration method |
JP2006251538A (ja) * | 2005-03-11 | 2006-09-21 | Kenwood Corp | 音声合成装置、音声合成方法及びプログラム |
JP4516863B2 (ja) * | 2005-03-11 | 2010-08-04 | 株式会社ケンウッド | 音声合成装置、音声合成方法及びプログラム |
JP2007108450A (ja) * | 2005-10-14 | 2007-04-26 | Kenwood Corp | 音声再生装置、音声配信装置、音声配信システム、音声再生方法、音声配信方法及びプログラム |
JP2007240988A (ja) * | 2006-03-09 | 2007-09-20 | Kenwood Corp | 音声合成装置、データベース、音声合成方法及びプログラム |
JP2007240987A (ja) * | 2006-03-09 | 2007-09-20 | Kenwood Corp | 音声合成装置、音声合成方法及びプログラム |
JP2007240989A (ja) * | 2006-03-09 | 2007-09-20 | Kenwood Corp | 音声合成装置、音声合成方法及びプログラム |
JP2007240990A (ja) * | 2006-03-09 | 2007-09-20 | Kenwood Corp | 音声合成装置、音声合成方法及びプログラム |
JPWO2008062529A1 (ja) * | 2006-11-24 | 2010-03-04 | 富士通株式会社 | 文書読上げ装置、文書読上げ装置を制御する制御方法及び文書読上げ装置を制御する制御プログラム |
JP4973664B2 (ja) * | 2006-11-24 | 2012-07-11 | 富士通株式会社 | 文書読上げ装置、文書読上げ装置を制御する制御方法及び文書読上げ装置を制御する制御プログラム |
US8315873B2 (en) | 2006-11-24 | 2012-11-20 | Fujitsu Limited | Sentence reading aloud apparatus, control method for controlling the same, and control program for controlling the same |
JP2009020264A (ja) * | 2007-07-11 | 2009-01-29 | Hitachi Ltd | 音声合成装置及び音声合成方法並びにプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4287785B2 (ja) | 2009-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4516863B2 (ja) | 音声合成装置、音声合成方法及びプログラム | |
KR101076202B1 (ko) | 음성 합성 장치, 음성 합성 방법 및 프로그램이 기록된 기록 매체 | |
JP4620518B2 (ja) | 音声データベース製造装置、音片復元装置、音声データベース製造方法、音片復元方法及びプログラム | |
JP4287785B2 (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP2005018036A (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP4264030B2 (ja) | 音声データ選択装置、音声データ選択方法及びプログラム | |
JP4411017B2 (ja) | 話速変換装置、話速変換方法及びプログラム | |
JPH08335096A (ja) | テキスト音声合成装置 | |
JP4574333B2 (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP4407305B2 (ja) | ピッチ波形信号分割装置、音声信号圧縮装置、音声合成装置、ピッチ波形信号分割方法、音声信号圧縮方法、音声合成方法、記録媒体及びプログラム | |
JP4209811B2 (ja) | 音声選択装置、音声選択方法及びプログラム | |
JP4620517B2 (ja) | 音声データベース製造装置、音片復元装置、音声データベース製造方法、音片復元方法及びプログラム | |
JP4184157B2 (ja) | 音声データ管理装置、音声データ管理方法及びプログラム | |
JP2006145690A (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP2007108450A (ja) | 音声再生装置、音声配信装置、音声配信システム、音声再生方法、音声配信方法及びプログラム | |
JP4780188B2 (ja) | 音声データ選択装置、音声データ選択方法及びプログラム | |
JP2006145848A (ja) | 音声合成装置、音片記憶装置、音片記憶装置製造装置、音声合成方法、音片記憶装置製造方法及びプログラム | |
KR20100003574A (ko) | 음성음원정보 생성 장치 및 시스템, 그리고 이를 이용한음성음원정보 생성 방법 | |
JP2006195207A (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP2004361944A (ja) | 音声データ選択装置、音声データ選択方法及びプログラム | |
JP4816067B2 (ja) | 音声データベース製造装置、音声データベース、音片復元装置、音声データベース製造方法、音片復元方法及びプログラム | |
JP2007240987A (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP2007240989A (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP2007240988A (ja) | 音声合成装置、データベース、音声合成方法及びプログラム | |
JP2006133559A (ja) | 録音編集・テキスト音声合成併用型音声合成装置、録音編集・テキスト音声合成併用型音声合成プログラム、記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060825 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080708 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080905 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081007 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090106 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090130 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090317 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090327 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120403 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4287785 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120403 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120403 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130403 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140403 Year of fee payment: 5 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |