JP4264030B2 - 音声データ選択装置、音声データ選択方法及びプログラム - Google Patents
音声データ選択装置、音声データ選択方法及びプログラム Download PDFInfo
- Publication number
- JP4264030B2 JP4264030B2 JP2004155306A JP2004155306A JP4264030B2 JP 4264030 B2 JP4264030 B2 JP 4264030B2 JP 2004155306 A JP2004155306 A JP 2004155306A JP 2004155306 A JP2004155306 A JP 2004155306A JP 4264030 B2 JP4264030 B2 JP 4264030B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- sound
- sound piece
- piece
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
Description
録音編集方式は、単語と、この単語を読み上げる音声を表す音声データとを対応付けておき、音声合成する対象の文章を単語に区切ってから、これらの単語に対応付けられた音声データを取得してつなぎ合わせる、という手法である(例えば、特許文献1参照)。
この問題を解決する手法としては、同一の音素を互いに異なった韻律で読み上げる音声を表す複数の音声データを用意し、一方で音声合成する対象の文章に韻律予測を施して、予測結果に合致する音声データを選び出してつなぎ合わせる、という手法が考えられる。
音声の波形を表す音声データを複数記憶する記憶手段と、
文章を表す文章情報を入力し、当該文章内の複数の音片のそれぞれについて韻律予測を行うことにより、当該音片の時間長、及び、当該音片のピッチの時間変化を予測する予測手段と、
前記文章情報が表す文章内の音片のそれぞれについて、当該音片と読みが共通する部分を有する音声データを前記記憶手段から1つ又は複数索出する検索部と、
前記索出されたそれぞれの音声データを前記文章情報が表す文章内の音片の順に従って接続してできる音声データの組み合わせのそれぞれについて評価値を求め、当該評価値が最大となる音声データの組み合わせを選択する選択手段と、
を備え、
前記評価値は、当該音声データが表す音片のピッチの時間変化と、当該音片と読みが共通する前記文章内の音片のピッチの時間変化の予測結果との相関を表す数値を用いて表される関数、及び、当該音声データが表す音片の発声スピードと、当該音片と読みが共通する前記文章内の音片の発声スピードとの差を用いて表される関数より得られ、
前記相関を表す数値は、当該音声データが表す音片のピッチの時間変化と、当該音片と読みが共通する前記文章内の音片のピッチの時間変化との間での1次回帰により得られる勾配及び/又は切片からなる、
ことを特徴とする。
また、前記選択手段は、更に、前記索出されたそれぞれの音声データを文章情報が表す文章内の音片の順に従って接続した際に互いに隣接する音声データ同士の境界でのピッチ成分の周波数の差に基づいて、前記評価値を求めてもよい。
前記選択手段は、前記記憶手段に記憶される音声データのうち、前記文章内の音片の読みに合致する読みを表す表音データが対応付けられている音声データを、当該音片と読みが共通する音片の波形を表す音声データとしてもよい。
前記文章内の音片の読みに合致する読みを表す表音データが対応付けられていない場合、当該表音データを構成する複数の表音文字のそれぞれに対応する音声データを結合することにより、当該音片の波形を表す音声データを合成する欠落部分合成手段を備えていてもよく、
前記音声合成手段は、前記選択手段が選択した音声データ及び前記欠落部分合成手段が合成した音声データを互いに結合することにより、合成音声を表すデータを生成するものであってもよい。
記憶手段と処理手段を有する音声データ選択装置にて実行される音声データ選択方法であって、
前記記憶手段には、音声の波形を表す音声データが複数記憶され、
前記処理手段が、文章を表す文章情報を入力し、当該文章内の複数の音片のそれぞれについて韻律予測を行うことにより、当該音片の時間長、及び、当該音片のピッチの時間変化を予測し、
前記処理手段が、前記文章情報が表す文章内の音片のそれぞれについて、当該音片と読みが共通する部分を有する音声データを前記記憶手段から1つ又は複数索出し、
前記処理手段が、前記索出されたそれぞれの音声データを前記文章情報が表す文章内の音片の順に従って接続してできる音声データの組み合わせのそれぞれについて評価値を求め、当該評価値が最大となる音声データの組み合わせを選択し、
前記評価値は、当該音声データが表す音片のピッチの時間変化と、当該音片と読みが共通する前記文章内の音片のピッチの時間変化の予測結果との相関を表す数値を用いて表される関数、及び、当該音声データが表す音片の発声スピードと、当該音片と読みが共通する前記文章内の音片の発声スピードとの差を用いて表される関数より得られ、
前記相関を表す数値は、当該音声データが表す音片のピッチの時間変化と、当該音片と読みが共通する前記文章内の音片のピッチの時間変化との間での1次回帰により得られる勾配及び/又は切片からなる、
ことを特徴とする。
また、前記処理手段が、更に、音声データが表す音片のピッチの時間変化を表すデータを一定の方向へ所定サンプル数だけ循環シフトしたものが表す関数と、当該音片と読みが共通する前記文章内の音片のピッチの時間変化の予測結果を表す関数と、の相関係数の最大値に基づいて、前記評価値を求めてもよい。
また、前記処理手段が、更に、前記索出されたそれぞれの音声データを文章情報が表す文章内の音片の順に従って接続した際に互いに隣接する音声データ同士の境界でのピッチ成分の周波数の差に基づいて、前記評価値を求めてもよい。
コンピュータを、
音声の波形を表す音声データを複数記憶する記憶手段、
文章を表す文章情報を入力し、当該文章内の複数の音片のそれぞれについて韻律予測を行うことにより、当該音片の時間長、及び、当該音片のピッチの時間変化を予測する予測手段、
前記文章情報が表す文章内の音片のそれぞれについて、当該音片と読みが共通する部分を有する音声データを1つ又は複数索出する検索部、
前記索出されたそれぞれの音声データを前記文章情報が表す文章内の音片の順に従って接続してできる音声データの組み合わせのそれぞれについて評価値を求め、当該評価値が最大となる音声データの組み合わせを選択する選択手段、
として機能させ、
前記評価値は、当該音声データが表す音片のピッチの時間変化と、当該音片と読みが共通する前記文章内の音片のピッチの時間変化の予測結果との相関を表す数値を用いて表される関数、及び、当該音声データが表す音片の発声スピードと、当該音片と読みが共通する前記文章内の音片の発声スピードとの差を用いて表される関数より得られ、
前記相関を表す数値は、当該音声データが表す音片のピッチの時間変化と、当該音片と読みが共通する前記文章内の音片のピッチの時間変化との間での1次回帰により得られる勾配及び/又は切片からなる、
ことを特徴とする。
また、前記選択手段は、更に、音声データが表す音片のピッチの時間変化を表すデータを一定の方向へ所定サンプル数だけ循環シフトしたものが表す関数と、当該音片と読みが共通する前記文章内の音片のピッチの時間変化の予測結果を表す関数と、の相関係数の最大値に基づいて、前記評価値を求めてもよい。
また、前記選択手段は、更に、前記索出されたそれぞれの音声データを文章情報が表す文章内の音片の順に従って接続した際に互いに隣接する音声データ同士の境界でのピッチ成分の周波数の差に基づいて、前記評価値を求めてもよい。
(第1の実施の形態)
図1は、この発明の第1の実施の形態に係る音声合成システムの構成を示す図である。図示するように、この音声合成システムは、本体ユニットMと、音片登録ユニットRとにより構成されている。
なお、言語処理部1、音響処理部4、検索部5、伸長部6、音片編集部8、検索部9及び話速変換部11の一部又は全部の機能を単一のプロセッサが行うようにしてもよい。
ユーザ単語辞書3は、表意文字を含む単語等と、この単語等の読みを表す表音文字とを、ユーザの操作に従って外部より取得し、互いに対応付けて記憶する。ユーザ単語辞書3には、一般単語辞書2に記憶されていない単語等とその読みを表す表音文字とが格納されていれば十分である。
音片データベース10には、例えば、図2に示すデータ構造を有するデータが記憶されている。すなわち、図示するように、音片データベース10に格納されているデータは、ヘッダ部HDR、インデックス部IDX、ディレクトリ部DIR及びデータ部DATの4種に分かれている。
なお、音片とは、音声のうち音素1個以上を含む連続した1区間をいい、通常は単語1個分又は複数個分の区間からなる。
また、エントロピー符号化される前の音片データは、上述の圧縮波形データの生成のためエントロピー符号化される前の波形データと同じ形式のデータ(例えば、PCMされたデジタル形式のデータ)からなっていればよい。
(A) この圧縮音片データが表す音片の読みを示す表音文字を表すデータ(音片読みデータ)、
(B) この圧縮音片データが格納されている記憶位置の先頭のアドレスを表すデータ、
(C) この圧縮音片データのデータ長を表すデータ、
(D) この圧縮音片データが表す音片の発声スピード(再生した場合の時間長)を表すデータ(スピード初期値データ)、
(E) この音片のピッチ成分の周波数の時間変化を表すデータ(ピッチ成分データ)、
が、互いに対応付けられた形で格納されている。(なお、音片データベース10の記憶領域にはアドレスが付されているものとする。)
収録音片データセット記憶部12には、音片の読みを表す表音文字と、この音片を人が実際に発声したものを集音して得た波形を表す音片データとが、この音声合成システムの製造者等によって、あらかじめ互いに対応付けて記憶されている。なお、この音片データは、例えば、PCM化されたデジタル形式のデータからなっていればよい。
発声スピードの特定は、例えば、この音片データのサンプル数を数えることにより特定すればよい。
圧縮部14は、音片データベース作成部13より供給された音片データをエントロピー符号化して圧縮音片データを作成し、音片データベース作成部13に返送する。
また、書き込んだ圧縮音片データの、音片データベース10の記憶領域内での先頭のアドレスを特定し、このアドレスを上述の(B)のデータとして音片データベース10の記憶領域に書き込む。
また、この圧縮音片データのデータ長を特定し、特定したデータ長を、(C)のデータとして音片データベース10の記憶領域に書き込む。
また、この圧縮音片データが表す音片の発声スピード及びピッチ成分の周波数の時間変化を特定した結果を示すデータを生成し、スピード初期値データ及びピッチ成分データとして音片データベース10の記憶領域に書き込む。
まず、言語処理部1が、この音声合成システムに音声を合成させる対象としてユーザが用意した、表意文字を含む文章(フリーテキスト)を記述したフリーテキストデータを外部から取得したとして説明する。
音響処理部4は、検索部5より供給された波形データを、言語処理部1より供給された表音文字列内での各表音文字の並びに従った順序で、音片編集部8へと供給する。
なお、定型メッセージデータは、定型メッセージを表音文字列として表すデータであり、発声スピードデータは、定型メッセージデータが表す定型メッセージの発声スピードの指定値(この定型メッセージを発声する時間長の指定値)を示すデータである。
(ただし、Ytは音片データが表す音片の発声スピード、Xtはこの音片と読みが合致する定型メッセージ内の音片の発声スピード)
(ただし、W1及びW2は所定の正の係数)
一方、音声の抑揚は、音片のピッチ成分の周波数の時間変化により特徴付けられる。従って、勾配αの値は、音声の抑揚の差異を敏感に反映する性質を有する。
このため、合成されるべき音声について抑揚の正確さが重視される場合(例えば、電子メール等のテキストを読み上げる音声を合成する場合等)は、上述の係数W1の値をなるべく大きくすることが望ましい。
一方、音声のベースピッチ周波数は、音声の話者の声質を支配する要因であり、話者の性別による差異も顕著である。
このため、合成されるべき音声についてベースピッチ周波数の正確さが重視される場合(例えば、合成音声の話者の性別や声質を明確にする必要がある場合など)は、上述の係数W2の値をなるべく大きくすることが望ましい。
例えば、波形データや音片データはPCM形式のデータである必要はなく、データ形式は任意である。
また、波形データベース7や音片データベース10は波形データや音片データを必ずしもデータ圧縮された状態で記憶している必要はない。波形データベース7や音片データベース10が波形データや音片データをデータ圧縮されていない状態で記憶している場合、本体ユニットMは伸長部6を備えている必要はない。
また、音片登録ユニットRは、必ずしも収録音片データセット記憶部12を備えている必要はない。
また、音片編集部8は、過去の韻律予測の結果を韻律登録データとして新たに記憶するようにしてもよい。
(ただし、W3は所定の係数、RmaxはRxy(0)〜Rxy(n−1)のうちの最大値)
あるいは、音片編集部8は、係数dtの値をそのまま評価値として用いてもよく、この場合、音片編集部は、勾配αや、切片βや、Rxy(j)の値を求める必要がない。
この場合、音響処理部4は、音片編集部8が選択した音片データが表す音片については、この音片の波形を表す波形データを検索部5に索出させなくてもよい。なお、音片編集部8は、音響処理部4が合成しなくてよい音片を音響処理部4に通知し、音響処理部4はこの通知に応答して、この音片を構成する単位音声の波形の検索を中止するようにすればよい。
次に、この発明の第2の実施の形態を説明する。この発明の第2の実施の形態に係る音声合成システムの物理的構成は、上述した第1の実施の形態における構成と実質的に同一である。
そして、読み出した音片データを圧縮部14に供給し、圧縮音片データの返送を受けると、この圧縮音片データ、収録音片データセット記憶部12より読み出した表音文字、この圧縮音片データの音片データベース10の記憶領域内での先頭のアドレス、この圧縮音片データのデータ長、及び、特定した発声スピードを示すスピード初期値データを、第1の実施の形態の音片データベース作成部13と同様の動作を行うことにより音片データベース10の記憶領域に書き込み、また、音声の先頭及び末尾におけるピッチ成分の周波数を特定した結果を示すデータを生成して、ピッチ成分データとして音片データベース10の記憶領域に書き込むものする。
なお、発声スピード及びピッチ成分の周波数の特定は、例えば、第1の実施の形態の音片データベース作成部13が行う手法と実質的に同一の手法により行えばよい。
この音声合成システムの言語処理部1がフリーテキストデータを外部から取得した場合、及び、音響処理部4が配信文字列データを取得した場合の動作は、第1の実施の形態の音声合成システムが行う動作と実質的に同一である。(なお、言語処理部1がフリーテキストデータを取得する手法や音響処理部4が配信文字列データを取得する手法はいずれも任意であり、例えば、いずれも第1の実施の形態における言語処理部1や音響処理部4が行う手法と同様の手法によりフリーテキストデータあるいは配信文字列データを取得すればよい。)
例えば、ピッチ成分データは音片データが表す音片の先頭及び末尾でのピッチ長を表すデータであってもよい。この場合、音片編集部8は、話速変換部11より供給された各音片データの先頭及び末尾でのピッチ長を話速変換部11より供給されたピッチ成分データに基づいて特定し、定型メッセージ内で隣接する音片同士の境界でのピッチ長の差の絶対値を定型メッセージ全体で累計した値が最小になる、という条件を満たすように、音片データを選択すればよい。
この場合、音響処理部4は、音片編集部8が抽出した音片データが表す音片については、この音片の波形を表す波形データを検索部5に索出させなくてもよい。なお、音片編集部8は、音響処理部4が合成しなくてよい音片を音響処理部4に通知し、音響処理部4はこの通知に応答して、この音片を構成する単位音声の波形の検索を中止するようにすればよい。
次に、この発明の第3の実施の形態を説明する。この発明の第3の実施の形態に係る音声合成システムの物理的構成は、上述した第1の実施の形態における構成と実質的に同一である。
この音声合成システムの言語処理部1がフリーテキストデータを外部から取得した場合、及び、音響処理部4が配信文字列データを取得した場合の動作は、第1又は第2の実施の形態の音声合成システムが行う動作と実質的に同一である。(なお、言語処理部1がフリーテキストデータを取得する手法や音響処理部4が配信文字列データを取得する手法はいずれも任意であり、例えば、いずれも第1又は第2の実施の形態における言語処理部1や音響処理部4が行う手法と同様の手法によりフリーテキストデータあるいは配信文字列データを取得すればよい。)
(ただし、WA、WB及びWCはいずれも所定の係数であり、WAは0ではないものとする)
なお、音片編集部8は、cost_Aの値を特定するため、話速変換部11より供給されたピッチ成分データに基づき、話速変換部11より供給された各音片データの先頭及び末尾の各時点でのピッチ成分の周波数を特定するようにすればよい。
(ただし、WB1、WB2及びWB3は所定の正の係数)
(ただし、WC1及びWC2は所定の係数)
(ただし、WDは0でない所定の係数)
(ただし、Wd1は0でない所定の係数)
つまり、例えば図5に示すように、定型メッセージデータが表す定型メッセージが音片A,B及びCより構成され、音片Aを表す音片データの候補として音片データA1,A2及びA3が索出され、音片Bを表す音片データの候補として音片データB1及びB2が索出され、音片Cを表す音片データの候補として音片データC1,C2及びC3が索出された場合、音片データA1,A2及びA3のうちから1個、音片データB1及びB2のうちから1個、音片データC1,C2及びC3のうちから1個、計3個選ぶことにより得られる組み合わせ計18通りのうち、組み合わせに属する各音片データの評価値HXYの総和が最大となるものを、定型メッセージを読み上げる音声を合成するための最適な音片データの組み合わせとして選択する。
例えば、最適な音片データの組み合わせを選択するために音片編集部8が用いる評価値は数式7〜13に示すものに限られず、音片データが表す音片を互いに結合して得られる音声が、人の発する音声にどの程度類似又は相違しているかについての評価を表す任意の値であってよい。
また、評価値を表す数式(評価式)に含まれる変数ないし定数も必ずしも数式7〜13に含まれているものに限られず、評価式としては、音片データが表す音片の特徴を示す任意のパラメータや、あるいは当該音片を互いに結合して得られる音声の特徴を示す任意のパラメータや、あるいは当該音声を人が発した場合に当該音声に備わると予測される特徴を示す任意のパラメータを含んだ数式が用いられてよい。
また、最適な音片データの組み合わせを選択するための基準は必ずしも評価値の形で表現可能なものである必要はなく、音片データが表す音片を互いに結合して得られる音声が人の発する音声にどの程度類似又は相違しているかについての評価に基づいて音片データの最適な組み合わせを特定するに至るような基準である限り任意である。
例えば、パーソナルコンピュータに上述の第1の実施の形態における言語処理部1、一般単語辞書2、ユーザ単語辞書3、音響処理部4、検索部5、伸長部6、波形データベース7、音片編集部8、検索部9、音片データベース10及び話速変換部11の動作を実行させるためのプログラムを格納した媒体(CD−ROM、MO、フロッピー(登録商標)ディスク等)から該プログラムをインストールすることにより、当該パーソナルコンピュータに、上述の第1の実施の形態の本体ユニットMの機能を行わせることができる。
また、パーソナルコンピュータに、上述の第1の実施の形態における収録音片データセット記憶部12、音片データベース作成部13及び圧縮部14の動作を実行させるためのプログラムを格納した媒体から該プログラムをインストールすることにより、当該パーソナルコンピュータに、上述の第1の実施の形態の音片登録ユニットRの機能を行わせることができる。
図6は、このパーソナルコンピュータがフリーテキストデータを取得した場合の処理を示すフローチャートである。
図7は、このパーソナルコンピュータが配信文字列データを取得した場合の処理を示すフローチャートである。
図8は、このパーソナルコンピュータが定型メッセージデータ及び発声スピードデータを取得した場合の処理を示すフローチャートである。
また、パーソナルコンピュータに上述の第2の実施の形態における収録音片データセット記憶部12、音片データベース作成部13及び圧縮部14の動作を実行させるためのプログラムを格納した媒体から該プログラムをインストールすることにより、当該パーソナルコンピュータに、上述の第2の実施の形態における音片登録ユニットRの機能を行わせることができる。
図9は、このパーソナルコンピュータが定型メッセージデータ及び発声スピードデータを取得した場合の処理を示すフローチャートである。
また、パーソナルコンピュータに上述の第3の実施の形態における収録音片データセット記憶部12、音片データベース作成部13及び圧縮部14の動作を実行させるためのプログラムを格納した媒体から該プログラムをインストールすることにより、当該パーソナルコンピュータに、上述の第3の実施の形態における音片登録ユニットRの機能を行わせることができる。
図10は、このパーソナルコンピュータが定型メッセージデータ及び発声スピードデータを取得した場合の処理を示すフローチャートである。
そして、これらのプログラムを起動し、OSの制御下に、他のアプリケーションプログラムと同様に実行することにより、上述の処理を実行することができる。
1 言語処理部
2 一般単語辞書
3 ユーザ単語辞書
4 音響処理部
5 検索部
6 伸長部
7 波形データベース
8 音片編集部
9 検索部
10 音片データベース
11 話速変換部
R 音片登録ユニット
12 収録音片データセット記憶部
13 音片データベース作成部
14 圧縮部
HDR ヘッダ部
IDX インデックス部
DIR ディレクトリ部
DAT データ部
Claims (12)
- 音声の波形を表す音声データを複数記憶する記憶手段と、
文章を表す文章情報を入力し、当該文章内の複数の音片のそれぞれについて韻律予測を行うことにより、当該音片の時間長、及び、当該音片のピッチの時間変化を予測する予測手段と、
前記文章情報が表す文章内の音片のそれぞれについて、当該音片と読みが共通する部分を有する音声データを前記記憶手段から1つ又は複数索出する検索部と、
前記索出されたそれぞれの音声データを前記文章情報が表す文章内の音片の順に従って接続してできる音声データの組み合わせのそれぞれについて評価値を求め、当該評価値が最大となる音声データの組み合わせを選択する選択手段と、
を備え、
前記評価値は、当該音声データが表す音片のピッチの時間変化と、当該音片と読みが共通する前記文章内の音片のピッチの時間変化の予測結果との相関を表す数値を用いて表される関数、及び、当該音声データが表す音片の発声スピードと、当該音片と読みが共通する前記文章内の音片の発声スピードとの差を用いて表される関数より得られ、
前記相関を表す数値は、当該音声データが表す音片のピッチの時間変化と、当該音片と読みが共通する前記文章内の音片のピッチの時間変化との間での1次回帰により得られる勾配及び/又は切片からなる、
ことを特徴とする音声データ選択装置。 - 前記選択手段は、更に、音声データが表す音片のピッチの時間変化を表すデータを一定の方向へ所定サンプル数だけ循環シフトしたものが表す関数と、当該音片と読みが共通する前記文章内の音片のピッチの時間変化の予測結果を表す関数と、の相関係数の最大値に基づいて、前記評価値を求める、
ことを特徴とする請求項1に記載の音声データ選択装置。 - 前記選択手段は、更に、前記索出されたそれぞれの音声データを文章情報が表す文章内の音片の順に従って接続した際に互いに隣接する音声データ同士の境界でのピッチ成分の周波数の差に基づいて、前記評価値を求める、
ことを特徴とする請求項1に記載の音声データ選択装置。 - 前記記憶手段は、音声データの読みを表す表音データを、当該音声データに対応付けて記憶し、
前記選択手段は、前記記憶手段に記憶される音声データのうち、前記文章内の音片の読みに合致する読みを表す表音データが対応付けられている音声データを、当該音片と読みが共通する音片の波形を表す音声データとする、
ことを特徴とする請求項1乃至3のいずれか1項に記載の音声データ選択装置。 - 前記選択手段により選択された音声データを互いに結合することにより、合成音声を表すデータを生成する音声合成手段を更に備える、
ことを特徴とする請求項1乃至4のいずれか1項に記載の音声データ選択装置。 - 前記表音データは、複数の表音文字から構成され、
前記文章内の音片の読みに合致する読みを表す表音データが対応付けられていない場合、当該表音データを構成する複数の表音文字のそれぞれに対応する音声データを結合することにより、当該音片の波形を表す音声データを合成する欠落部分合成手段を備え、
前記音声合成手段は、前記選択手段が選択した音声データ及び前記欠落部分合成手段が合成した音声データを互いに結合することにより、合成音声を表すデータを生成する、
ことを特徴とする請求項4に記載の音声データ選択装置。 - 記憶手段と処理手段を有する音声データ選択装置にて実行される音声データ選択方法であって、
前記記憶手段には、音声の波形を表す音声データが複数記憶され、
前記処理手段が、文章を表す文章情報を入力し、当該文章内の複数の音片のそれぞれについて韻律予測を行うことにより、当該音片の時間長、及び、当該音片のピッチの時間変化を予測し、
前記処理手段が、前記文章情報が表す文章内の音片のそれぞれについて、当該音片と読みが共通する部分を有する音声データを前記記憶手段から1つ又は複数索出し、
前記処理手段が、前記索出されたそれぞれの音声データを前記文章情報が表す文章内の音片の順に従って接続してできる音声データの組み合わせのそれぞれについて評価値を求め、当該評価値が最大となる音声データの組み合わせを選択し、
前記評価値は、当該音声データが表す音片のピッチの時間変化と、当該音片と読みが共通する前記文章内の音片のピッチの時間変化の予測結果との相関を表す数値を用いて表される関数、及び、当該音声データが表す音片の発声スピードと、当該音片と読みが共通する前記文章内の音片の発声スピードとの差を用いて表される関数より得られ、
前記相関を表す数値は、当該音声データが表す音片のピッチの時間変化と、当該音片と読みが共通する前記文章内の音片のピッチの時間変化との間での1次回帰により得られる勾配及び/又は切片からなる、
ことを特徴とする音声データ選択方法。 - 前記処理手段が、更に、音声データが表す音片のピッチの時間変化を表すデータを一定の方向へ所定サンプル数だけ循環シフトしたものが表す関数と、当該音片と読みが共通する前記文章内の音片のピッチの時間変化の予測結果を表す関数と、の相関係数の最大値に基づいて、前記評価値を求める、
ことを特徴とする請求項7に記載の音声データ選択方法。 - 前記処理手段が、更に、前記索出されたそれぞれの音声データを文章情報が表す文章内の音片の順に従って接続した際に互いに隣接する音声データ同士の境界でのピッチ成分の周波数の差に基づいて、前記評価値を求める、
ことを特徴とする請求項7に記載の音声データ選択方法。 - コンピュータを、
音声の波形を表す音声データを複数記憶する記憶手段、
文章を表す文章情報を入力し、当該文章内の複数の音片のそれぞれについて韻律予測を行うことにより、当該音片の時間長、及び、当該音片のピッチの時間変化を予測する予測手段、
前記文章情報が表す文章内の音片のそれぞれについて、当該音片と読みが共通する部分を有する音声データを1つ又は複数索出する検索部、
前記索出されたそれぞれの音声データを前記文章情報が表す文章内の音片の順に従って接続してできる音声データの組み合わせのそれぞれについて評価値を求め、当該評価値が最大となる音声データの組み合わせを選択する選択手段、
として機能させ、
前記評価値は、当該音声データが表す音片のピッチの時間変化と、当該音片と読みが共通する前記文章内の音片のピッチの時間変化の予測結果との相関を表す数値を用いて表される関数、及び、当該音声データが表す音片の発声スピードと、当該音片と読みが共通する前記文章内の音片の発声スピードとの差を用いて表される関数より得られ、
前記相関を表す数値は、当該音声データが表す音片のピッチの時間変化と、当該音片と読みが共通する前記文章内の音片のピッチの時間変化との間での1次回帰により得られる勾配及び/又は切片からなる、
ことを特徴とするプログラム。 - 前記選択手段は、更に、音声データが表す音片のピッチの時間変化を表すデータを一定の方向へ所定サンプル数だけ循環シフトしたものが表す関数と、当該音片と読みが共通する前記文章内の音片のピッチの時間変化の予測結果を表す関数と、の相関係数の最大値に基づいて、前記評価値を求める、
ことを特徴とする請求項10に記載のプログラム。 - 前記選択手段は、更に、前記索出されたそれぞれの音声データを文章情報が表す文章内の音片の順に従って接続した際に互いに隣接する音声データ同士の境界でのピッチ成分の周波数の差に基づいて、前記評価値を求める、
ことを特徴とする請求項10に記載のプログラム。
Priority Applications (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004155306A JP4264030B2 (ja) | 2003-06-04 | 2004-05-25 | 音声データ選択装置、音声データ選択方法及びプログラム |
CN2004800187934A CN1816846B (zh) | 2003-06-04 | 2004-06-03 | 用于选择话音数据的设备和方法 |
PCT/JP2004/008088 WO2004109660A1 (ja) | 2003-06-04 | 2004-06-03 | 音声データを選択するための装置、方法およびプログラム |
DE04735989T DE04735989T1 (de) | 2003-06-04 | 2004-06-03 | Einrichtung, verfahren und programm zur auswahl von voice-daten |
US10/559,573 US20070100627A1 (en) | 2003-06-04 | 2004-06-03 | Device, method, and program for selecting voice data |
KR1020057023078A KR20060015744A (ko) | 2003-06-04 | 2004-06-03 | 음성 데이터를 선택하기 위한 장치, 방법 및 프로그램 |
EP04735989A EP1632933A4 (en) | 2003-06-04 | 2004-06-03 | DEVICE, METHOD AND PROGRAM FOR SELECTING VOICE DATA |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003159880 | 2003-06-04 | ||
JP2003165582 | 2003-06-10 | ||
JP2004155306A JP4264030B2 (ja) | 2003-06-04 | 2004-05-25 | 音声データ選択装置、音声データ選択方法及びプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008318839A Division JP4780188B2 (ja) | 2003-06-04 | 2008-12-15 | 音声データ選択装置、音声データ選択方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005025173A JP2005025173A (ja) | 2005-01-27 |
JP4264030B2 true JP4264030B2 (ja) | 2009-05-13 |
Family
ID=33514559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004155306A Expired - Fee Related JP4264030B2 (ja) | 2003-06-04 | 2004-05-25 | 音声データ選択装置、音声データ選択方法及びプログラム |
Country Status (7)
Country | Link |
---|---|
US (1) | US20070100627A1 (ja) |
EP (1) | EP1632933A4 (ja) |
JP (1) | JP4264030B2 (ja) |
KR (1) | KR20060015744A (ja) |
CN (1) | CN1816846B (ja) |
DE (1) | DE04735989T1 (ja) |
WO (1) | WO2004109660A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7696194B2 (en) | 2001-04-11 | 2010-04-13 | Senju Pharmaceutical Co., Ltd. | Visual function disorder improving agents |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004109659A1 (ja) * | 2003-06-05 | 2004-12-16 | Kabushiki Kaisha Kenwood | 音声合成装置、音声合成方法及びプログラム |
JP4516863B2 (ja) * | 2005-03-11 | 2010-08-04 | 株式会社ケンウッド | 音声合成装置、音声合成方法及びプログラム |
JP2008185805A (ja) * | 2007-01-30 | 2008-08-14 | Internatl Business Mach Corp <Ibm> | 高品質の合成音声を生成する技術 |
KR101395459B1 (ko) * | 2007-10-05 | 2014-05-14 | 닛본 덴끼 가부시끼가이샤 | 음성 합성 장치, 음성 합성 방법 및 컴퓨터 판독가능 기억 매체 |
JP5093387B2 (ja) * | 2011-07-19 | 2012-12-12 | ヤマハ株式会社 | 音声特徴量算出装置 |
CN111506736B (zh) * | 2020-04-08 | 2023-08-08 | 北京百度网讯科技有限公司 | 文本发音获取方法、装置和电子设备 |
CN112669810B (zh) * | 2020-12-16 | 2023-08-01 | 平安科技(深圳)有限公司 | 语音合成的效果评估方法、装置、计算机设备及存储介质 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2761552B2 (ja) * | 1988-05-11 | 1998-06-04 | 日本電信電話株式会社 | 音声合成方法 |
US5636325A (en) * | 1992-11-13 | 1997-06-03 | International Business Machines Corporation | Speech synthesis and analysis of dialects |
JPH07319497A (ja) * | 1994-05-23 | 1995-12-08 | N T T Data Tsushin Kk | 音声合成装置 |
JP3583852B2 (ja) * | 1995-05-25 | 2004-11-04 | 三洋電機株式会社 | 音声合成装置 |
JPH09230893A (ja) * | 1996-02-22 | 1997-09-05 | N T T Data Tsushin Kk | 規則音声合成方法及び音声合成装置 |
JPH1097268A (ja) * | 1996-09-24 | 1998-04-14 | Sanyo Electric Co Ltd | 音声合成装置 |
JP3587048B2 (ja) * | 1998-03-02 | 2004-11-10 | 株式会社日立製作所 | 韻律制御方法及び音声合成装置 |
JPH11249679A (ja) * | 1998-03-04 | 1999-09-17 | Ricoh Co Ltd | 音声合成装置 |
JPH11259083A (ja) * | 1998-03-09 | 1999-09-24 | Canon Inc | 音声合成装置および方法 |
JP3180764B2 (ja) * | 1998-06-05 | 2001-06-25 | 日本電気株式会社 | 音声合成装置 |
JP2001013982A (ja) * | 1999-04-28 | 2001-01-19 | Victor Co Of Japan Ltd | 音声合成装置 |
JP2001034284A (ja) * | 1999-07-23 | 2001-02-09 | Toshiba Corp | 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体 |
US6505152B1 (en) * | 1999-09-03 | 2003-01-07 | Microsoft Corporation | Method and apparatus for using formant models in speech systems |
JP2001092481A (ja) * | 1999-09-24 | 2001-04-06 | Sanyo Electric Co Ltd | 規則音声合成方法 |
US7219061B1 (en) * | 1999-10-28 | 2007-05-15 | Siemens Aktiengesellschaft | Method for detecting the time sequences of a fundamental frequency of an audio response unit to be synthesized |
US6496801B1 (en) * | 1999-11-02 | 2002-12-17 | Matsushita Electric Industrial Co., Ltd. | Speech synthesis employing concatenated prosodic and acoustic templates for phrases of multiple words |
US6865533B2 (en) * | 2000-04-21 | 2005-03-08 | Lessac Technology Inc. | Text to speech |
CA2359771A1 (en) * | 2001-10-22 | 2003-04-22 | Dspfactory Ltd. | Low-resource real-time audio synthesis system and method |
US20040030555A1 (en) * | 2002-08-12 | 2004-02-12 | Oregon Health & Science University | System and method for concatenating acoustic contours for speech synthesis |
-
2004
- 2004-05-25 JP JP2004155306A patent/JP4264030B2/ja not_active Expired - Fee Related
- 2004-06-03 KR KR1020057023078A patent/KR20060015744A/ko not_active Application Discontinuation
- 2004-06-03 US US10/559,573 patent/US20070100627A1/en not_active Abandoned
- 2004-06-03 CN CN2004800187934A patent/CN1816846B/zh active Active
- 2004-06-03 WO PCT/JP2004/008088 patent/WO2004109660A1/ja active Application Filing
- 2004-06-03 EP EP04735989A patent/EP1632933A4/en not_active Withdrawn
- 2004-06-03 DE DE04735989T patent/DE04735989T1/de active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7696194B2 (en) | 2001-04-11 | 2010-04-13 | Senju Pharmaceutical Co., Ltd. | Visual function disorder improving agents |
Also Published As
Publication number | Publication date |
---|---|
CN1816846B (zh) | 2010-06-09 |
WO2004109660A1 (ja) | 2004-12-16 |
JP2005025173A (ja) | 2005-01-27 |
CN1816846A (zh) | 2006-08-09 |
EP1632933A4 (en) | 2007-11-14 |
KR20060015744A (ko) | 2006-02-20 |
US20070100627A1 (en) | 2007-05-03 |
DE04735989T1 (de) | 2006-10-12 |
EP1632933A1 (en) | 2006-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4516863B2 (ja) | 音声合成装置、音声合成方法及びプログラム | |
KR101076202B1 (ko) | 음성 합성 장치, 음성 합성 방법 및 프로그램이 기록된 기록 매체 | |
JP4130190B2 (ja) | 音声合成システム | |
JP4264030B2 (ja) | 音声データ選択装置、音声データ選択方法及びプログラム | |
US7089187B2 (en) | Voice synthesizing system, segment generation apparatus for generating segments for voice synthesis, voice synthesizing method and storage medium storing program therefor | |
JP4287785B2 (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP4411017B2 (ja) | 話速変換装置、話速変換方法及びプログラム | |
JP2005018036A (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP4209811B2 (ja) | 音声選択装置、音声選択方法及びプログラム | |
JP4407305B2 (ja) | ピッチ波形信号分割装置、音声信号圧縮装置、音声合成装置、ピッチ波形信号分割方法、音声信号圧縮方法、音声合成方法、記録媒体及びプログラム | |
JP4780188B2 (ja) | 音声データ選択装置、音声データ選択方法及びプログラム | |
WO2008056604A1 (fr) | Système de collecte de son, procédé de collecte de son et programme de traitement de collecte | |
JP4184157B2 (ja) | 音声データ管理装置、音声データ管理方法及びプログラム | |
JP4574333B2 (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP7183556B2 (ja) | 合成音生成装置、方法、及びプログラム | |
JP2004361944A (ja) | 音声データ選択装置、音声データ選択方法及びプログラム | |
JP2006145690A (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP2006145848A (ja) | 音声合成装置、音片記憶装置、音片記憶装置製造装置、音声合成方法、音片記憶装置製造方法及びプログラム | |
JP2006195207A (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP2007240989A (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP2007240988A (ja) | 音声合成装置、データベース、音声合成方法及びプログラム | |
JP2007240987A (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP2007240990A (ja) | 音声合成装置、音声合成方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060825 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080708 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080905 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20081021 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081215 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20090106 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090203 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090213 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120220 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120220 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120220 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130220 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130220 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140220 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |