JP3884856B2 - 音声合成用データ作成装置、音声合成装置及びそれらの方法、コンピュータ可読メモリ - Google Patents
音声合成用データ作成装置、音声合成装置及びそれらの方法、コンピュータ可読メモリ Download PDFInfo
- Publication number
- JP3884856B2 JP3884856B2 JP05724998A JP5724998A JP3884856B2 JP 3884856 B2 JP3884856 B2 JP 3884856B2 JP 05724998 A JP05724998 A JP 05724998A JP 5724998 A JP5724998 A JP 5724998A JP 3884856 B2 JP3884856 B2 JP 3884856B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- data
- environment
- database
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
Description
【発明の属する技術分野】
本発明は、音素片データを管理するデータベースを有し、そのデータベースで管理されている音素片データを用いて音声合成を行う音声合成装置及びその制御方法、コンピュータ可読メモリにに関するものである。
【0002】
【従来の技術】
従来より、音声合成方法として、波形編集方式による合成方法が存在する。波形編集合成法では、1〜数ピッチ分の波形素片を所望のピッチ間隔に合わせて貼り合わせるピッチ同期波形重畳法によって韻律の変更を行う。波形編集合成法では、パラメータ方式による合成法に対して、より自然な合成音声が得られる反面、韻律変更に対する許容範囲が狭いという問題がある。
【0003】
そこで、様々なバリエーションの音声データを用意し、それらを適切に選択して用いることで音質向上が図られる。音声データの選択基準としては、音素環境(合成対象となる当該音素あるいはその両側数音素)や基本周波数F0等の情報が用いられる。
【0004】
【発明が解決しようとする課題】
しかしながら、上記従来の音声合成方法は、以下のような問題点があった。
【0005】
例えば、合成対象となる音素環境を満たす音声データが存在しない場合、音素環境に関する条件を緩めて必要とする音声データを再探索することになる。そして、この再探索を音声合成時に行うと処理が複雑になり、処理時間が増大してしまうという問題点があった。また、音声データの選択規準に基本周波数F0を用いた場合、合成対象の音声データの基本周波数F0に最も合致する音声データを得るために、各音声データについて基本周波数F0の評価を行わなくてはならなかった。
【0006】
本発明は上記問題点に鑑みてなされたものであり、音声合成を精度良く高速に行うことができる音声合成装置及びその制御方法、コンピュータ可読メモリを提供することを目的とする。
【0007】
【課題を解決するための手段】
上記の目的を達成するための本発明による音声合成用データ作成装置は以下の構成を備える。即ち、
検索対象の第1音素に対し音素環境を考慮した第2音素を生成する生成手段と、
前記第2音素に対応する音素片データを、音声合成用の音素片データを管理するデータベースから検索する第1検索手段と、
前記第1検索手段の検索の結果、前記第2音素に対応する音素片データが存在しない場合には、前記音素環境を他の音素環境に変更した第3音素を生成し、該第3音素に対応する音素片データを前記データベースから検索する第2検索手段と、
前記第1検索手段あるいは前記第2検索手段による検索結果と、前記第2音素を対応づけてテーブルに登録する登録手段と
を備える。
【0014】
上記の目的を達成するための本発明による音声合成装置は以下の構成を備える。即ち、
データベースに記録されている音素片データ及び前記音素片データが前記データベース中に存在する位置を示す位置情報を記録したテーブルを用いて音声合成を行う音声合成装置であって、
音素環境を考慮した音素に対して、対応する音素片データが存在する場合には前記対応する音素片データの前記データベース中に存在する位置を示す位置情報を前記音素環境を考慮した音素と対応付けて前記テーブルで管理し、対応する音素片データが存在しない場合には前記音素環境を考慮した音素の音素環境を他の音素環境に変更した音素に対応する音素片データの前記データベース中に存在する位置を示す位置情報を前記音素環境を考慮した音素と対応付けて前記テーブルで管理するように、前記テーブルを記憶する記憶手段と、
前記テーブルを参照して、合成対象の音素に対応する音素片データの前記データベース中に存在する位置を示す位置情報を取得する取得手段と、
前記取得手段で取得された位置情報が示す音素片データを前記データベースより取得し、その取得された音素片データの韻律を変更する変更手段と
を備える。
【0018】
上記の目的を達成するための本発明による音声合成用データ作成方法は以下の構成を備える。即ち、
検索対象の第1音素に対し音素環境を考慮した第2音素を生成する生成工程と、
前記第2音素に対応する音素片データを、音声合成用の音素片データを管理するデータベースから検索する第1検索工程と、
前記第1検索工程の検索の結果、前記第2音素に対応する音素片データが存在しない場合には、前記音素環境を他の音素環境に変更した第3音素を生成し、該第3音素に対応する音素片データを前記データベースから検索する第2検索工程と、
前記第1検索工程あるいは前記第2検索工程による検索結果と、前記第2音素を対応づけてテーブルに登録する登録工程と
を備える。
【0019】
上記の目的を達成するための本発明による音声合成方法は以下の構成を備える。即ち、
データベースに記録されている音素片データ及び前記音素片データが前記データベース中に存在する位置を示す位置情報を記録したテーブルを用いて音声合成を行う音声合成方法であって、
音素環境を考慮した音素に対して、対応する音素片データが存在する場合には前記対応する音素片データの前記データベース中に存在する位置を示す位置情報を前記音素環境を考慮した音素と対応付けて前記テーブルで管理し、対応する音素片データが存在しない場合には前記音素環境を考慮した音素の音素環境を他の音素環境に変更した音素に対応する音素片データの前記データベース中に存在する位置を示す位置情報を前記音素環境を考慮した音素と対応付けて前記テーブルで管理するように、前記テーブルを記憶する記憶工程と、
前記テーブルを参照して、合成対象の音素に対応する音素片データの前記データベース中に存在する位置を示す位置情報を取得する取得工程と、
前記取得工程で取得された位置情報が示す音素片データを前記データベースより取得し、その取得された音素片データの韻律を変更する変更工程と
を備える。
【0020】
上記の目的を達成するための本発明によるコンピュータ可読メモリは以下の構成を備える。即ち、
音声合成用の音素片データを管理するデータベースを有する音声合成用データ作成装置の制御のプログラムコードが格納されたコンピュータ可読メモリであって、
検索対象の第1音素に対し音素環境を考慮した第2音素を生成する生成工程のプログラムコードと、
前記第2音素に対応する音素片データを、音声合成用の音素片データを管理するデータベースから検索する第1検索工程のプログラムコードと、
前記第1検索工程の検索の結果、前記第2音素に対応する音素片データが存在しない場合には、前記音素環境を他の音素環境に変更した第3音素を生成し、該第3音素に対応する音素片データを前記データベースから検索する第2検索工程のプログラムコードと、
前記第1検索工程あるいは前記第2検索工程による検索結果と、前記第2音素を対応づけてテーブルに登録する登録工程のプログラムコードと
を備える。
【0021】
上記の目的を達成するための本発明によるコンピュータ可読メモリは以下の構成を備える。即ち、
データベースに記録されている音素片データ及び前記音素片データが前記データベース中に存在する位置を示す位置情報を記録したテーブルを用いて音声合成を行う音声合成装置の制御のプログラムコードが格納されたコンピュータ可読メモリであって、
音素環境を考慮した音素に対して、対応する音素片データが存在する場合には前記対応する音素片データの前記データベース中に存在する位置を示す位置情報を前記音素環境を考慮した音素と対応付けて前記テーブルで管理し、対応する音素片データが存在しない場合には前記音素環境を考慮した音素の音素環境を他の音素環境に変更した音素に対応する音素片データの前記データベース中に存在する位置を示す位置情報を前記音素環境を考慮した音素と対応付けて前記テーブルで管理するように、前記テーブルを記憶する記憶工程のプログラムコードと、
前記テーブルを参照して、合成対象の音素に対応する音素片データの前記データベース中に存在する位置を示す位置情報を取得する取得工程のプログラムコードと、
前記取得工程で取得された位置情報が示す音素片データを前記データベースより取得し、その取得された音素片データの韻律を変更する変更工程のプログラムコードと
を備える。
【0022】
【発明の実施の形態】
以下、図面を参照して本発明の好適な一実施形態を詳細に説明する。
【0023】
<実施形態1>
図1は本発明の実施形態1の音声合成装置の構成を示す図である。
【0024】
103はCPUであり、本発明で実行される数値演算・制御及び各種構成要素の制御等の処理を行う。102はRAMであり、本発明で実行される処理のワークエリア、各種データの一時退避領域である。101はROMであり、本発明で実行される処理のプログラム等の各種制御プログラムを格納している。また、音声合成に用いるための音素片データを管理するデータベース101aを格納する領域を有している。109は外部記憶装置であり、処理されたデータを記憶する領域として機能する。105はD/A変換器であり、当該音声合成処理装置で合成されたデジタル音声データをアナログ音声データに変換して、スピーカ110で出力する。
【0025】
106は表示制御部であり、当該音声合成処理装置の処理状態や処理結果、ユーザインタフェースをディスプレイ111に表示する際の制御を行う。107は入力制御部であり、キーボード112から入力されたキー情報を認識して指示された処理を実行する。108は通信制御部であり、通信ネットーワーク113を介してデータの送受信を制御する。104はバスであり、当該音声合成装置の各種構成要素を相互に接続する。
【0026】
次に、実施形態1で実行される処理の内、処理対象の音素を検索する検索処理について、図2を用いて説明する。
【0027】
図2は本発明の実施形態1で実行される検索処理を示すフローチャートである。
【0028】
尚、実施形態1では、音素環境として各音素の両側1音素、つまり、右音素環境及び左音素環境の音素、即ち、トライホンを用いる。
【0029】
まず、ステップS1で、データベース101aから検索対象の音素pをトライホンptrに初期化する。次に、ステップS2で、データベース101aより音素pを検索する。即ち、音素pを示すラベルpが付与されている音素片データを検索する。次に、ステップS4で、データベース101a中に音素pがあるか否かを判定する。音素pがない場合(ステップS4でNO)、ステップS3に進み、音素pよりも音素環境依存度を減少させた代替音素に変更する。例えば、トライホンptrに合致する音素pがデータベース101a中に存在しなければ、右音素環境依存の音素に変更し、右音素環境依存で合致しなければ左音素環境依存の音素に変更する。また、左音素環境依存で合致しなければ音素環境とは独立に音素pを別の音素に変更するといった方法がある。あるいは、母音については左音素環境の音素を優先し、子音については右音素環境の音素を優先しても良い。また、トライホンptrに一致する音素pが存在しないとき、左あるい右あるいはその両方の音素環境を、類似の音素環境で代用しても良い。例えば、右音素環境が’p’(パ行の子音)のとき、代替として’k’(カ行の子音)を用いても良い。このようにして、検索条件である音素pを変更した後、ステップS2に戻る。
【0030】
一方、音素pがある場合(ステップS4でYES)、ステップS5に進み、検索された音素pの各音素片データについて、平均F0(平均F0:音素片データの開始から終了までの基本周波数の平均)を計算する。尚、この計算は、対数F0(F0:時刻の関数)について行っても良いし線形F0について行っても良い。また、無声音については平均F0を0としても良いし、音素pの両側の音素の音素片データの平均F0から何らかの方法で推定しても良い。
【0031】
次に、ステップS6で、計算された平均F0を基にして、検索された各音素片データを整列(ソート)する。次に、ステップS7で、整列された音素片データをトライホンptrに対応させて登録する。登録の結果、作成される音素片データとトライホンの対応を示すインデックスは、例えば、図3のようになる。また、図3に示すように、トライホン(triphone)に対応づけて管理されるポインタ(pointer)には、その音素片データがデータベース101a中に存在する位置を示す「素片位置」とその平均F0を対応づけた表として管理される。
【0032】
以上、ステップS1〜ステップS7の各ステップを、考えられるすべてのトライホンについて繰り返し、ステップS8で、全てのトライホンについて処理が終了したか否かを判定する。終了していない場合(ステップS8でNO)、ステップS1に戻る。一方、終了した場合(ステップS8でYES)、処理を終了する。
【0033】
次に、図2で説明した処理によって作成されたインデックスを用いて、合成対象の音素の音素片データを検索し音声合成を行う音声合成処理について、図4を用いて説明する。
【0034】
図4は本発明の実施形態1で実行される音声合成処理を示すフローチャートである。
【0035】
尚、音声合成処理を行うにあたり入力として、合成対象となる音素pのトライホンptr、平均F0の軌跡が与えられる。そして、これらを基に、音素の音素片データを検索し波形重畳法により音声を合成する。
【0036】
まず、ステップS9で、合成対象の音素群の平均F0の平均値F0’を求める。次に、ステップS10で、図3に示すインデックスから音素pのトライホンptrに対応する音素片データの素片位置を管理する表を検索する。例えば、トライホンptrが“a.A.b”であるときには、図3より図5に示される表が得られる。尚、上記検索処理により、あらかじめ妥当な代替音素が求められているため、本ステップの結果が空になることはない。
【0037】
次に、ステップS11で、ステップS10で得られた表を基に、平均値F0’に最も近い平均F0を持つ音素片データの素片位置を得る。ここでは、上記検索処理により、平均F0に基づいて音素片データがソートされているため、探索には2分探索などの手法を用いることが可能である。次に、ステップS12で、ステップS11で得られた素片位置から音素片データをデータベース101aから取り出す。次に、ステップS13で、波形重畳法を用いてステップS12で得られた音素片データの韻律を変更する。
【0038】
以上説明したように、実施形態1によれば、考えられる全ての音素環境に対して予め音素片データの有無を確認し、音素片データが存在しない場合にはあらかじめ代替音素を用意しておくことにより、処理が単純化され高速化が図られる。また、各音素環境について存在する音素片データの平均F0に関する情報をあらかじめ抽出して、それに基づいて音素片データを管理しておくので音声合成時の処理の高速化が図られる。
[実施形態2]
上記実施形態1において、図2に示したステップS5の代わりにステップS14を設け、連続的な音素片データの平均F0を計算する代わりに、音素片データの平均F0を量子化しても良い。この場合の処理について、図6を用いて説明する。
【0039】
図6は本発明の実施形態2で実行される検索処理を示すフローチャートである。
【0040】
尚、実施形態1の図2と同じ処理については、同じステップ番号を付加し、その詳細は省略する。
【0041】
ステップS14で、検索された音素pの各音素片データの平均F0を量子化して、量子化平均F0を得る(量子化平均F0:連続量である平均F0を適当な間隔で量子化したもの)。尚、この計算は、対数F0について行っても良いし線形F0について行っても良い。また、無声音については平均F0を0としても良いし、両側の音素片データの平均F0から何らかの方法で推定しても良い。
【0042】
次に、ステップS6aで、計算された平均F0を基にして、検索された各音素片データを整列(ソート)する。次に、ステップS7aで、整列された音素片データをトライホンptrに対応させて登録する。登録の結果、作成される音素片データとトライホンの対応を示すインデックスは、例えば、図7のようになる。また、図7に示すように、トライホン(triphone)に対応づけて管理されるポインタ(pointer)には、その音素片データがデータベース101a中に存在する位置を示す「素片位置」とその平均F0を対応づけた表として管理される。
【0043】
以上、ステップS1〜ステップS7aの各ステップを、考えられるすべてのトライホンについて繰り返し、ステップS8aで、全てのトライホンについて処理が終了したか否かを判定する。終了していない場合(ステップS8aでNO)、ステップS1に戻る。一方、終了した場合(ステップS8aでYES)、処理を終了する。
【0044】
以上説明したように、実施形態2によれば、実施形態1で説明した効果に加えて、音素片データの量子化平均F0を用いることにより、音素片数の削減、検索時の計算量を減少させる効果を得ることが可能である。
[実施形態3]
上記実施形態2において、整列された音素片データ間を補間した後に、各音素片データをトライホンptrに対応させて登録するようにしても良い。即ち、全ての量子化された音素片データの平均F0に対してインデックスの表中に対応する素片位置が見つかるような構成にしても良い。この場合の処理について、図8を用いて説明する。
【0045】
図8は本発明の実施形態3で実行される検索処理を示すフローチャートである。
【0046】
尚、実施形態2の図6と同じ処理については、同じステップ番号を付加し、その詳細は省略する。
【0047】
ステップS15で、整列された音素片データ間を補間する。ステップS7bで、補間された音素片データをトライホンptrに対応させて登録する。登録の結果、作成される音素片データとトライホンの対応を示すインデックスは、例えば、図9のようになる。また、図9に示すように、トライホン(triphone)に対応づけて管理されるポインタ(pointer)には、その音素片データがデータベース101a中に存在する位置を示す「素片位置」とその平均F0を対応づけた表として管理される。
【0048】
以上、ステップS1〜ステップS7bの各ステップを、考えられるすべてのトライホンについて繰り返し、ステップS8bで、全てのトライホンについて処理が終了したか否かを判定する。終了していない場合(ステップS8bでNO)、ステップS1に戻る。一方、終了した場合(ステップS8bでYES)、処理を終了する。
【0049】
以上説明したように、実施形態3によれば、実施形態2で得られる効果に加えて、すべての音素片データの素片位置を管理しているので、図4のステップS11で説明した処理を、単なる表参照として実現することができ、処理を簡略化することができる。
【0050】
尚、本発明は、複数の機器(例えばホストコンピュータ、インタフェイス機器、リーダ、プリンタなど)から構成されるシステムに適用しても、一つの機器からなる装置(例えば、複写機、ファクシミリ装置など)に適用してもよい。
【0051】
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。
【0052】
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【0053】
プログラムコードを供給するための記憶媒体としては、例えば、フロッピディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
【0054】
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0055】
更に、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0056】
【発明の効果】
【0057】
以上説明したように、本発明によれば、音声合成を精度良く高速に行うことができる音声合成装置及びその制御方法、コンピュータ可読メモリを提供できる。
【図面の簡単な説明】
【図1】本発明の実施形態1の音声合成装置の構成を示す図である。
【図2】本発明の実施形態1で実行される検索処理を示すフローチャートである。
【図3】本発明の実施形態1で管理されるインデックスを示す図である。
【図4】本発明の実施形態1で実行される音声合成処理を示すフローチャートである。
【図5】本発明の実施形態1管理されるインデックスより得られる表を示す図である。
【図6】本発明の実施形態2で実行される検索処理を示すフローチャートである。
【図7】本発明の実施形態2で管理されるインデックスを示す図である。
【図8】本発明の実施形態3で実行される検索処理を示すフローチャートである。
【図9】本発明の実施形態3で管理されるインデックスを示す図である。
【符号の説明】
101 ROM
101a データベース
102 RAM
103 CPU
104 バス
105 D/A変換器
106 表示制御部
107 入力制御部
108 通信制御部
109 外部記憶装置
110 スピーカ
111 ディスプレイ
112 キーボード
113 通信ネットワーク
Claims (16)
- 検索対象の第1音素に対し音素環境を考慮した第2音素を生成する生成手段と、
前記第2音素に対応する音素片データを、音声合成用の音素片データを管理するデータベースから検索する第1検索手段と、
前記第1検索手段の検索の結果、前記第2音素に対応する音素片データが存在しない場合には、前記音素環境を他の音素環境に変更した第3音素を生成し、該第3音素に対応する音素片データを前記データベースから検索する第2検索手段と、
前記第1検索手段あるいは前記第2検索手段による検索結果と、前記第2音素を対応づけてテーブルに登録する登録手段と
を備えることを特徴とする音声合成用データ作成装置。 - 前記登録手段は、前記第1検索手段あるいは前記第2検索手段によって検索された音素片データの平均基本周波数を計算する計算手段と、
前記計算手段で計算された平均基本周波数に基づいて、前記検索された音素片データ群を整列する整列手段とを備え、
前記整列手段で整列された音素片データ群の順番で、前記音素片データ群と前記第2音素あるいは第3音素を対応づけて前記テーブルに登録する
ことを特徴とする請求項1に記載の音声合成用データ作成装置。 - 前記第2音素は、前記第1音素の左右音素の音素環境を考慮したトライホンである
ことを特徴とする請求項1に記載の音声合成用データ作成装置。 - 前記第3音素は、前記第1音素の左右音素どちらかあるいはその両方の音素環境を考慮した音素である
ことを特徴とする請求項1に記載の音声合成用データ作成装置。 - 前記第3音素は、前記第1音素が母音の場合には該第1音素の左音素環境を考慮した音素、子音の場合には該第1音素の右音素環境を考慮した音素である
ことを特徴とする請求項1に記載の音声合成用データ作成装置。 - 前記登録手段は、更に、前記検索された音素片データの平均基本周波数を量子化する量子化手段を備える
ことを特徴とする請求項2に記載の音声合成用データ作成装置。 - 前記計算手段は、前記量子化手段で量子化された音素片データ群の各平均基本周波数の内、対応する音素片データが存在しないものについては、その近傍の平均基本周波数で対応する音素片データが存在する平均基本周波数を用いて補間する
ことを特徴とする請求項6に記載の音声合成用データ作成装置。 - データベースに記録されている音素片データ及び前記音素片データが前記データベース中に存在する位置を示す位置情報を記録したテーブルを用いて音声合成を行う音声合成装置であって、
音素環境を考慮した音素に対して、対応する音素片データが存在する場合には前記対応する音素片データの前記データベース中に存在する位置を示す位置情報を前記音素環境を考慮した音素と対応付けて前記テーブルで管理し、対応する音素片データが存在しない場合には前記音素環境を考慮した音素の音素環境を他の音素環境に変更した音素に対応する音素片データの前記データベース中に存在する位置を示す位置情報を前記音素環境を考慮した音素と対応付けて前記テーブルで管理するように、前記テーブルを記憶する記憶手段と、
前記テーブルを参照して、合成対象の音素に対応する音素片データの前記データベース中に存在する位置を示す位置情報を取得する取得手段と、
前記取得手段で取得された位置情報が示す音素片データを前記データベースより取得し、その取得された音素片データの韻律を変更する変更手段と
を備えることを特徴とする音声合成装置。 - 合成対象の音素群の各音素環境情報とその基本周波数を獲得し、獲得された基本周波数の平均を算出する算出手段と、
前記音素環境情報に対応する音素群を前記テーブルより検索する検索手段とを更に備え、
前記取得手段は、前記算出手段で算出された基本周波数の平均に基づいて、前記検索手段で検索された音素群から所定の音素に対応する音素片データの位置情報を前記テーブルより取得する
ことを特徴とする請求項8に記載の音声合成装置。 - 前記変更手段による韻律の変更は、ピッチ同期波形重畳法を用いる
ことを特徴とする請求項8に記載の音声合成装置。 - 前記音素環境を考慮した音素の基本周波数が量子化されている場合、前記記憶手段は、その量子化された基本周波数と、該音素に対応する音素片データが存在する前記データベース中の位置を示す位置情報とを対応づけて前記テーブルに管理する
ことを特徴とする請求項8に記載の音声合成装置。 - 前記音素環境を考慮した音素の基本周波数が量子化されている場合、前記算出手段は、合成対象の音素群の各音素環境情報を獲得し、また、その量子化された音素群の各基本周波数の平均を算出する
ことを特徴とする請求項8に記載の音声合成装置。 - 検索対象の第1音素に対し音素環境を考慮した第2音素を生成する生成工程と、
前記第2音素に対応する音素片データを、音声合成用の音素片データを管理するデータベースから検索する第1検索工程と、
前記第1検索工程の検索の結果、前記第2音素に対応する音素片データが存在しない場合には、前記音素環境を他の音素環境に変更した第3音素を生成し、該第3音素に対応する音素片データを前記データベースから検索する第2検索工程と、
前記第1検索工程あるいは前記第2検索工程による検索結果と、前記第2音素を対応づけてテーブルに登録する登録工程と
を備えることを特徴とする音声合成用データ作成方法。 - データベースに記録されている音素片データ及び前記音素片データが前記データベース中に存在する位置を示す位置情報を記録したテーブルを用いて音声合成を行う音声合成方法であって、
音素環境を考慮した音素に対して、対応する音素片データが存在する場合には前記対応する音素片データの前記データベース中に存在する位置を示す位置情報を前記音素環境を考慮した音素と対応付けて前記テーブルで管理し、対応する音素片データが存在しない場合には前記音素環境を考慮した音素の音素環境を他の音素環境に変更した音素に対応する音素片データの前記データベース中に存在する位置を示す位置情報を前記音素環境を考慮した音素と対応付けて前記テーブルで管理するように、前記テーブルを記憶する記憶工程と、
前記テーブルを参照して、合成対象の音素に対応する音素片データの前記データベース中に存在する位置を示す位置情報を取得する取得工程と、
前記取得工程で取得された位置情報が示す音素片データを前記データベースより取得し、その取得された音素片データの韻律を変更する変更工程と
を備えることを特徴とする音声合成方法。 - 音声合成用の音素片データを管理するデータベースを有する音声合成用データ作成装置の制御のプログラムコードが格納されたコンピュータ可読メモリであって、
検索対象の第1音素に対し音素環境を考慮した第2音素を生成する生成工程のプログラムコードと、
前記第2音素に対応する音素片データを、音声合成用の音素片データを管理するデータベースから検索する第1検索工程のプログラムコードと、
前記第1検索工程の検索の結果、前記第2音素に対応する音素片データが存在しない場合には、前記音素環境を他の音素環境に変更した第3音素を生成し、該第3音素に対応する音素片データを前記データベースから検索する第2検索工程のプログラムコードと、
前記第1検索工程あるいは前記第2検索工程による検索結果と、前記第2音素を対応づけてテーブルに登録する登録工程のプログラムコードと
を備えることを特徴とするコンピュータ可読メモリ。 - データベースに記録されている音素片データ及び前記音素片データが前記データベース中に存在する位置を示す位置情報を記録したテーブルを用いて音声合成を行う音声合成装置の制御のプログラムコードが格納されたコンピュータ可読メモリであって、
音素環境を考慮した音素に対して、対応する音素片データが存在する場合には前記対応する音素片データの前記データベース中に存在する位置を示す位置情報を前記音素環境を考慮した音素と対応付けて前記テーブルで管理し、対応する音素片データが存在しない場合には前記音素環境を考慮した音素の音素環境を他の音素環境に変更した音素に対応する音素片データの前記データベース中に存在する位置を示す位置情報を前記音素環境を考慮した音素と対応付けて前記テーブルで管理するように、前記テーブルを記憶する記憶工程のプログラムコードと、
前記テーブルを参照して、合成対象の音素に対応する音素片データの前記データベース中に存在する位置を示す位置情報を取得する取得工程のプログラムコードと、
前記取得工程で取得された位置情報が示す音素片データを前記データベースより取得し、その取得された音素片データの韻律を変更する変更工程のプログラムコードと
を備えることを特徴とするコンピュータ可読メモリ。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP05724998A JP3884856B2 (ja) | 1998-03-09 | 1998-03-09 | 音声合成用データ作成装置、音声合成装置及びそれらの方法、コンピュータ可読メモリ |
DE69917960T DE69917960T2 (de) | 1998-03-09 | 1999-03-05 | Phonembasierte Sprachsynthese |
EP99301674A EP0942409B1 (en) | 1998-03-09 | 1999-03-05 | Phoneme-based speech synthesis |
US09/263,262 US7139712B1 (en) | 1998-03-09 | 1999-03-05 | Speech synthesis apparatus, control method therefor and computer-readable memory |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP05724998A JP3884856B2 (ja) | 1998-03-09 | 1998-03-09 | 音声合成用データ作成装置、音声合成装置及びそれらの方法、コンピュータ可読メモリ |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11259093A JPH11259093A (ja) | 1999-09-24 |
JP3884856B2 true JP3884856B2 (ja) | 2007-02-21 |
Family
ID=13050264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP05724998A Expired - Fee Related JP3884856B2 (ja) | 1998-03-09 | 1998-03-09 | 音声合成用データ作成装置、音声合成装置及びそれらの方法、コンピュータ可読メモリ |
Country Status (4)
Country | Link |
---|---|
US (1) | US7139712B1 (ja) |
EP (1) | EP0942409B1 (ja) |
JP (1) | JP3884856B2 (ja) |
DE (1) | DE69917960T2 (ja) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7369994B1 (en) | 1999-04-30 | 2008-05-06 | At&T Corp. | Methods and apparatus for rapid acoustic unit selection from a large speech corpus |
JP3728172B2 (ja) | 2000-03-31 | 2005-12-21 | キヤノン株式会社 | 音声合成方法および装置 |
US6684187B1 (en) | 2000-06-30 | 2004-01-27 | At&T Corp. | Method and system for preselection of suitable units for concatenative speech |
US6505158B1 (en) * | 2000-07-05 | 2003-01-07 | At&T Corp. | Synthesis-based pre-selection of suitable units for concatenative speech |
US6980954B1 (en) | 2000-09-30 | 2005-12-27 | Intel Corporation | Search method based on single triphone tree for large vocabulary continuous speech recognizer |
JP3838039B2 (ja) | 2001-03-09 | 2006-10-25 | ヤマハ株式会社 | 音声合成装置 |
JP2005018036A (ja) * | 2003-06-05 | 2005-01-20 | Kenwood Corp | 音声合成装置、音声合成方法及びプログラム |
WO2004109659A1 (ja) * | 2003-06-05 | 2004-12-16 | Kabushiki Kaisha Kenwood | 音声合成装置、音声合成方法及びプログラム |
JP4328698B2 (ja) * | 2004-09-15 | 2009-09-09 | キヤノン株式会社 | 素片セット作成方法および装置 |
US20070124148A1 (en) * | 2005-11-28 | 2007-05-31 | Canon Kabushiki Kaisha | Speech processing apparatus and speech processing method |
US7953600B2 (en) * | 2007-04-24 | 2011-05-31 | Novaspeech Llc | System and method for hybrid speech synthesis |
US8731931B2 (en) * | 2010-06-18 | 2014-05-20 | At&T Intellectual Property I, L.P. | System and method for unit selection text-to-speech using a modified Viterbi approach |
JP6024191B2 (ja) | 2011-05-30 | 2016-11-09 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
US9311914B2 (en) * | 2012-09-03 | 2016-04-12 | Nice-Systems Ltd | Method and apparatus for enhanced phonetic indexing and search |
JP6000326B2 (ja) * | 2014-12-15 | 2016-09-28 | 日本電信電話株式会社 | 音声合成モデル学習装置、音声合成装置、音声合成モデル学習方法、音声合成方法、およびプログラム |
JP2019066649A (ja) * | 2017-09-29 | 2019-04-25 | ヤマハ株式会社 | 歌唱音声の編集支援方法、および歌唱音声の編集支援装置 |
CN109378004B (zh) * | 2018-12-17 | 2022-05-27 | 广州势必可赢网络科技有限公司 | 一种音素比对的方法、装置、设备及计算机可读存储介质 |
US11302301B2 (en) * | 2020-03-03 | 2022-04-12 | Tencent America LLC | Learnable speed control for speech synthesis |
CN111968619A (zh) * | 2020-08-26 | 2020-11-20 | 四川长虹电器股份有限公司 | 控制语音合成发音的方法及装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4979216A (en) * | 1989-02-17 | 1990-12-18 | Malsheen Bathsheba J | Text to speech synthesis system and method using context dependent vowel allophones |
SE9200817L (sv) * | 1992-03-17 | 1993-07-26 | Televerket | Foerfarande och anordning foer talsyntes |
US5636325A (en) * | 1992-11-13 | 1997-06-03 | International Business Machines Corporation | Speech synthesis and analysis of dialects |
JP3397372B2 (ja) | 1993-06-16 | 2003-04-14 | キヤノン株式会社 | 音声認識方法及び装置 |
AU674246B2 (en) | 1993-08-04 | 1996-12-12 | British Telecommunications Public Limited Company | Synthesising speech by converting phonemes to digital waveforms |
JPH07319497A (ja) | 1994-05-23 | 1995-12-08 | N T T Data Tsushin Kk | 音声合成装置 |
JP3581401B2 (ja) | 1994-10-07 | 2004-10-27 | キヤノン株式会社 | 音声認識方法 |
US5913193A (en) | 1996-04-30 | 1999-06-15 | Microsoft Corporation | Method and system of runtime acoustic unit selection for speech synthesis |
US6163769A (en) * | 1997-10-02 | 2000-12-19 | Microsoft Corporation | Text-to-speech using clustered context-dependent phoneme-based units |
-
1998
- 1998-03-09 JP JP05724998A patent/JP3884856B2/ja not_active Expired - Fee Related
-
1999
- 1999-03-05 EP EP99301674A patent/EP0942409B1/en not_active Expired - Lifetime
- 1999-03-05 US US09/263,262 patent/US7139712B1/en not_active Expired - Fee Related
- 1999-03-05 DE DE69917960T patent/DE69917960T2/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP0942409B1 (en) | 2004-06-16 |
EP0942409A3 (en) | 2000-01-19 |
EP0942409A2 (en) | 1999-09-15 |
US7139712B1 (en) | 2006-11-21 |
DE69917960D1 (de) | 2004-07-22 |
DE69917960T2 (de) | 2005-06-30 |
JPH11259093A (ja) | 1999-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3884856B2 (ja) | 音声合成用データ作成装置、音声合成装置及びそれらの方法、コンピュータ可読メモリ | |
KR101076202B1 (ko) | 음성 합성 장치, 음성 합성 방법 및 프로그램이 기록된 기록 매체 | |
US7603278B2 (en) | Segment set creating method and apparatus | |
JP4516863B2 (ja) | 音声合成装置、音声合成方法及びプログラム | |
US8626510B2 (en) | Speech synthesizing device, computer program product, and method | |
JP2008185805A (ja) | 高品質の合成音声を生成する技術 | |
JP4632384B2 (ja) | 音声情報処理装置及びその方法と記憶媒体 | |
JPH05181491A (ja) | 音声合成装置 | |
JP5648347B2 (ja) | 音声合成装置 | |
US20090281808A1 (en) | Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device | |
JP3728173B2 (ja) | 音声合成方法、装置および記憶媒体 | |
JP4287785B2 (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP2005018036A (ja) | 音声合成装置、音声合成方法及びプログラム | |
US6847932B1 (en) | Speech synthesis device handling phoneme units of extended CV | |
JP4170819B2 (ja) | 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体 | |
JP3371761B2 (ja) | 氏名読み音声合成装置 | |
JP2006330484A (ja) | 音声案内装置及び音声案内プログラム | |
JP3414326B2 (ja) | 音声合成用辞書登録装置及び方法 | |
JPH11231899A (ja) | 音声・動画像合成装置及び音声・動画像データベース | |
JPH11259091A (ja) | 音声合成装置及び方法 | |
JPH09230893A (ja) | 規則音声合成方法及び音声合成装置 | |
JPH06176023A (ja) | 音声合成システム | |
JPH08129398A (ja) | テキスト解析装置 | |
JP4184157B2 (ja) | 音声データ管理装置、音声データ管理方法及びプログラム | |
JP4574333B2 (ja) | 音声合成装置、音声合成方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040528 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040528 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20040528 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20040528 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060515 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060526 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060725 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060825 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061016 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20061030 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061120 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101124 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101124 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111124 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121124 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131124 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |