JP2007286511A - 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム - Google Patents

音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム Download PDF

Info

Publication number
JP2007286511A
JP2007286511A JP2006115992A JP2006115992A JP2007286511A JP 2007286511 A JP2007286511 A JP 2007286511A JP 2006115992 A JP2006115992 A JP 2006115992A JP 2006115992 A JP2006115992 A JP 2006115992A JP 2007286511 A JP2007286511 A JP 2007286511A
Authority
JP
Japan
Prior art keywords
phoneme
learning
lsp
hmm
coefficient group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006115992A
Other languages
English (en)
Other versions
JP5228283B2 (ja
Inventor
Katsuhiko Sato
勝彦 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2006115992A priority Critical patent/JP5228283B2/ja
Publication of JP2007286511A publication Critical patent/JP2007286511A/ja
Application granted granted Critical
Publication of JP5228283B2 publication Critical patent/JP5228283B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】音声データベースからHMMに基づく学習により構築された音声合成辞書を参照して音声を合成すると、学習前又は学習中に生じたスペクトルの乱れのために、当該音声の音質は劣化する。そこで、合成音声の音質を高めるために、より適切な音声合成辞書の構築がなされるようにすることを課題とする。
【解決手段】音声合成辞書を構築するにあたり、音声データベースから取り出した音声データをスペクトル分析した後、生成されたスペクトルの乱れを補正した後に、HMMに基づく学習をさせる。また、当該学習が多段階に渡る場合には、各段階において生成されたスペクトルの乱れを補正した後に、次の段階の学習に移るようにする。このように学習前又は学習中のスペクトル補正操作がなされるために、音声合成装置が参照する音声合成辞書としてより適切な音声合成辞書が構築される。
【選択図】図1

Description

本発明は、与えられた音声データベースを参照することにより、音声合成に用いるデータベースを構築する、音声合成辞書構築装置及び音声合成辞書構築方法に関する。
隠れマルコフモデル(以下、HMMと称する。)に基づいた音声認識技術及び音声合成技術は、広く利用されている。
HMMに基づいた音声認識技術及び音声合成技術に係る文献例としては、特許文献1乃至3に記載されるものがあった。
特開2002−62890号公報 特開2002−244689号公報 特開2002−268660号公報
HMMに基づいた音声認識及び音声合成においては、音素ラベルとスペクトルパラメータデータ列等の対応関係を記録した音声合成辞書が必要になる。
音声合成辞書は、通例、音素ラベル列とそれに対応する音声データとの組から構成されているデータベース(以下、音声データベースと称呼する。)に記録されているデータについて、スペクトル分析とピッチ抽出を行い、HMMに基づく学習過程を経ることにより、構築される。
従来は、音声合成辞書を構築する際、音声データから算出された音声スペクトルパラメータデータ列を、特に加工等を施すことなく、そのままHMMに基づく学習に用いて、音声合成辞書を構築していた。
また、HMMに基づく学習過程は、しばしば、尤度を向上させるための、単数回または複数回の再学習過程を含む。
HMMに基づく学習過程が、このように、複数段階の学習過程を含む場合、段階毎に音素ラベルに対する音素HMMが決定され、当該対応関係が次の学習段階に伝達され、学習が進んでいくことになる。
従来、段階毎に生成される音素HMMは、特に加工等をなされることなく、次の段階に送られていた。
このようにして構築された音声合成辞書は、音声合成装置に用いられる。
音声データに対してLSP分析を施して生成したLSP係数群時系列データや、音素HMM学習の結果LSP係数に関する音素HMMを定義するパラメータ、例えば平均値に乱れが生じることがある。
従来の音声合成辞書構築法では、LSP係数群時系列データの乱れを無視して音素HMM学習過程に進んだり、LSP係数に関する音素HMMを定義するパラメータの乱れを無視して学習を進行させたりしている。このために、従来の音声合成辞書構築方法では、品質の不十分な音声合成辞書が構築されてしまう場合があった。
本発明は、上記実情に鑑みてなされたもので、高品質のテキスト音声の合成を可能とする音声合成辞書構築装置及び方法を提供することを目的とする。
上記目的を達成するために、この発明の第1の観点に係る音声合成辞書構築装置は、
音声データに対してLSP分析を施して多次元のLSP(Line Spectrum Pair)係数を含むLSP係数群時系列データを生成するLSP係数群時系列データ生成部と、
前記LSP係数群時系列データ生成部により生成された前記LSP係数群時系列データに、所定の安定条件を満たすように、補正操作を施す学習前スペクトルパラメータ補正部と、
音素ラベル列と前記学習前スペクトルパラメータ補正部から出力された前記補正済LSP係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素HMMを対応させる音素HMM学習部と、
前記音素HMM学習部によって対応付けられた音素ラベルと音素HMMとを音声合成辞書に記録するデータ書き出し部と、
を備えることを特徴とする。
前記音素HMM学習部は、例えば、隠れマルコフモデルに基づく学習により音素ラベル毎に音素HMMを対応させると共に、前記音素HMMを定義するLSP係数について、前記所定の安定条件を満たすように補正操作を施す。
上記目的を達成するために、この発明の第2の観点に係る音声合成辞書構築装置は、
音声データに対してLSP分析を施して多次元のLSP(Line Spectrum Pair)係数を含むLSP係数群時系列データを生成するLSP係数群時系列データ生成部と、
音素ラベル列と前記LSP係数群時系列データ生成部から出力されたLSP係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素HMMを対応させると共に、前記音素HMMを定義するLSP係数について、所定の安定条件を満たすように所定の補正操作を施す音素HMM学習部と、
前記音素HMM学習部によって対応付けられた音素ラベルと音素HMMとを音声合成辞書に記録するデータ書き出し部と、
を備えることを特徴とする。
前記LSP係数群時系列データ生成部により生成されたLSP係数群時系列データに、前記所定の安定条件を満たすように、補正操作を施し、前記音素HMM学習部に供給する学習前スペクトルパラメータ補正部、をさらに備えてもよい。
前記補正操作は、例えば、LSP係数群について、前記所定の安定条件を満たすか否かを判別し、満たしていない場合に、前記所定の安定条件を満たすようなLSP係数群に置換する操作から構成される。
前記補正操作は、例えば、LSP係数群について、前記所定の安定条件を満たすようなLSP係数群に置換する処理から構成される。ここで前記所定の安定条件とは、例えば、LSP係数が、全て0より大きくπより小さく、かつ、当該係数の次元の昇順に並べた場合に、小さい順に並ぶことである。
前記音素HMM学習部は、例えば、第1乃至第N(Nは2以上の自然数)音素HMM学習部と、学習中スペクトルパラメータ補正部と、から構成される。ここで、第1音素HMM学習部は音素ラベル列と前記LSP係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素HMMを対応させて、前記学習中スペクトルパラメータ補正部に供給し、前記第2乃至第N−1音素HMM学習部は、それぞれ、第1乃至第N−2音素HMM学習部から出力された後に学習中スペクトルパラメータ補正部による補正を受けた音素HMMを基に、隠れマルコフモデルに基づく再学習により音素ラベル毎に音素HMMを対応させて、前記学習中スペクトルパラメータ補正部に供給し、第N音素HMM学習部は、第N−1音素HMM学習部を経た後に前記学習中スペクトルパラメータ補正部による補正を受けた音素HMMを基に、隠れマルコフモデルに基づく再学習により音素ラベル毎に音素HMMを対応させて出力し、前記学習中スペクトルパラメータ補正部は、前記第1乃至第N−1音素HMM学習部から出力された音素HMMを前記所定の条件を満たすように補正して前記第2乃至第N音素HMM学習部に供給する。
上記目的を達成するために、この発明の第3の観点に係る音声合成辞書構築方法は、
音声データに対してLSP分析を施して多次元のLSP(Line Spectrum Pair)係数を含むLSP係数群時系列データを生成し、
生成されたLSP係数群時系列データに、所定の安定条件を満たすように、補正操作を施し、
音素ラベル列と前記補正済LSP係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素HMMを対応させ、
対応付けられた音素ラベルと音素HMMとを音声合成辞書に記録する、
ことを特徴とする。
上記目的を達成するために、この発明の第4の観点に係る音声合成辞書構築方法は、
音声データに対してLSP分析を施して多次元のLSP(Line Spectrum Pair)係数を含むLSP係数群時系列データを生成し、
音素ラベル列と前記LSP係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素HMMを対応させると共に、前記音素HMMを定義するLSP係数について、所定の安定条件を満たすように補正操作を施し、
対応付けられた音素ラベルと音素HMMとを音声合成辞書に記録する、
ことを特徴とする。
上記目的を達成するために、この発明の第5の観点に係るコンピュータプログラムは、
コンピュータに、
音声データに対してLSP分析を施して多次元のLSP(Line Spectrum Pair)係数を含むLSP係数群時系列データを生成し、
生成された前記LSP係数群時系列データに、所定の安定条件を満たすように、補正操作を施し、
音素ラベル列と前記補正済LSP係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素HMMを対応させ、
対応付けられた音素ラベルと音素HMMとを音声合成辞書に記録する、
処理を実行させる、ことを特徴とする。
上記目的を達成するために、この発明の第6の観点に係るコンピュータプログラムは、
コンピュータに、
音声データに対してLSP分析を施して多次元のLSP(Line Spectrum Pair)係数を含むLSP係数群時系列データを生成し、
音素ラベル列と前記LSP係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素HMMを対応させると共に、前記音素HMMを定義するLSP係数について、所定の安定条件を満たすように補正操作を施し、
対応付けられた音素ラベルと音素HMMとを音声合成辞書に記録する、
処理を実行させる、ことを特徴とする。
本発明によれば、LSP係数群時系列データ、LSP係数に関する音素HMMを定義するパラメータに補正が行われるため、適切なデータを有する音声合成辞書が構築される。その結果、当該音声合成辞書を参照することにより音声を合成する音声合成装置は、高品質の合成音声を発することができる。
以下、本発明の実施形態に係る音声合成辞書構築装置及び方法について説明する。
(実施形態1)
図1は、実施形態1に係るスペクトルパラメータ補正機能を備えた音声合成辞書構築装置11の概要構成図である。
音声合成辞書構築装置11は、データ取り出し部13と、スペクトル分析部15と、学習前スペクトルパラメータ補正部17と、音素HMM学習部19と、データ書き出し部29と、を備える。
音素HMM学習部19は、第1音素HMM学習部21と、学習中スペクトルパラメータ補正部23と、第2音素HMM学習部25〜第N音素HMM学習部27と、を備える。
音声合成辞書構築装置11は、音声データベース31と音声合成辞書33に接続されている。
音声データベース31は、音素ラベル列とそれに対応する音声データとの組から構成されているデータベースであり、例えばハードディスク装置に記憶されている。
音声合成辞書33は、音声合成辞書構築装置11によって生成された音素ラベル毎の音素HMMを格納するデータベースであり、例えばハードディスクに記憶されている。この音声合成辞書33は、音声の合成に使用される。
データ取り出し部13は、音声データベース31から音声ラベル列と音声データの組を読み込み、音素ラベル列と音声データとに分離する。データ取り出し部13は、音素ラベル列を第1音素HMM学習部21に引き渡し、音声データをスペクトル分析部15に引き渡す。
スペクトル分析部15は、データ取り出し部13から引き渡された音声データを解析して、音声データのスペクトル包絡を表す音声スペクトルパラメータデータ列を生成し、学習前スペクトルパラメータ補正部17に引き渡す。本実施形態においては、音声スペクトルパラメータデータ列は、LSP係数列である。
学習前スペクトルパラメータ補正部17は、スペクトル分析部15から引き渡された音声スペクトルパラメータデータ列に対し、所定の安定条件を満たすよう、補正操作を施し、補正済音声スペクトルパラメータデータ列を第1音素HMM学習部21に供給する。
所定の安定条件とは、同一フレーム内のLSP係数が、全て0より大きくπより小さく、かつ、当該係数の次元の昇順に並べた場合に、小さい順に並ぶことである。すなわち、原則としては、隣接するフレームのLSP係数群同士で、同次元のLSP係数を時間軸に沿って線でつないだとき、それぞれの線が交差することはなく、かつ、これらの線がLSP係数についての0とπの間の領域をはみ出すことはない。
ここで、フレームとは、音声データをLSP分析する周期のことである。
第1音素HMM学習部21は、データ取り出し部13から供給された音素ラベル列と学習前スペクトルパラメータ補正部17から供給される補正済音声スペクトルパラメータデータ列の対の群を用いて、音素HMMに基づく学習により、音素ラベル毎に音素HMMを構築し、これらを学習中スペクトルパラメータ補正部23に供給する。
第2音素HMM学習部25〜第N音素HMM学習部27は、学習中スペクトルパラメータ補正部23から供給される補正済音素HMMを、音素HMMに基づき再学習し、これらを学習中スペクトルパラメータ補正部23に供給する。
学習中スペクトルパラメータ補正部23は、第1音素HMM学習部21〜第N音素HMM学習部27から供給される、音素HMMを定義するパラメータのうち、平均値について、所定の安定条件をみたすような補正を行う。その後、学習中スペクトルパラメータ補正部23は、音素HMMを次段の音素HMM学習部に供給する。即ち、学習中スペクトルパラメータ補正部23は、第1〜第(N−1)音素HMM学習部から供給された、音素HMMを定義するパラメータのうち、平均値を、第2〜第N音素HMM学習部に供給する。また、学習中スペクトルパラメータ補正部23は、第N音素HMM学習部27から供給された補正済音素HMMを、データ書き出し部29に供給する。
データ書き出し部29は、音素HMMを、音声合成辞書33に記録する。
図1に示す音声合成辞書構築装置11は、物理的には、図2に示すような一般的なコンピュータ装置41により、構成される。CPU43、ROM45、記憶部47、データ入出力I/F51、ユーザI/F49は、バス71で相互に接続されている。
ROM45は、HMMに基づいた学習のための動作プログラム、特に、この実施の形態においては、スペクトルパラメータを補正する動作を含む動作プログラムを記憶する。
記憶部47は、RAM65やハードディスク67から構成されて、学習のための定数、音素ラベル列、音声データ、スペクトルパラメータデータ、音素ラベルとスペクトルパラメータデータ列の対応関係、を記憶する。
データ入出力I/F51は、元データ入りハードディスク55等及び処理済データ記録用ハードディスク57等に接続するためのインタフェースである。
データ入出力I/F51は、図1に示す音声データベース31に接続され、図2に示すCPU43の制御下に、学習対象の音素ラベル列と音声データの対を読み出してきて、記憶部37に格納する。
データ入出力I/F51は、図1に示す音声合成辞書33に接続され、図2に示すCPU43による処理の結果である、音素HMMを、図1に示す音声合成辞書33に出力する。
図2に示すユーザI/F49は、キーボード61と、モニタ63と、から構成され、任意の指示、データ及びプログラムを入力するために設けられている。
CPU43は、ROM45に格納された動作プログラムを実行することにより、音声合成辞書生成動作を実行する。
図1に示すように、本実施形態に係る音声合成辞書構築装置11の特徴は、1又は2以上のスペクトルパラメータ補正部を設けて、スペクトルパラメータデータが所定の安定条件を満たすよう所定の補正処理を行うことである。
学習前スペクトルパラメータ補正部17及び学習中スペクトルパラメータ補正部23が実行する補正処理は、所定の安定条件を満たす操作であれば、いかなる操作でもよい。以下では、理解を容易にするため、特定の補正処理を参照しつつこの音声合成装置の具体的動作について説明する。
まず、データ取り出し部13は、音声データベース31に記憶されている音素ラベルと音声データとの対を順次取り出し、音素ラベルと音声データとに分離し、音素ラベル列を第1学習部21に、音声データをスペクトル分析部15に供給する。
スペクトル分析部15は、供給された音声データを既知の手法で分析して、LSP係数を順次生成し、学習前スペクトルパラメータ補正部17に供給する。
図3に示すフローチャートを参照しつつ、学習前スペクトルパラメータ補正部17が行う補正操作について説明する。
まず、NSp個の音声データを取り出して記憶し(ステップS301)、その中から、m番目の音声データSpを特定する(ステップS303)。次に、m番目の音声データSpのNfm個のフレームのLSP係数群のうちから、第fmフレーム(ステップS305)のLSP係数群ωm、k[fm]を取り出す(なお、1≦k≦N、NはLSP係数の次数である。)(ステップS307)。次に、取り出したLSP係数ωm、k[fm](但し、1≦k≦N、0≦fm≦Nfm[m]、NはLSP係数の次数、Nfm[m]は音声データSpに対するフレーム数)において、LSP係数の所定の安定条件が満たされているか判別する(ステップS309)。
ここで、LSP係数の所定の安定条件とは、
0<ωm、1[fm]<ωm、2[fm]<……<ωm、Nd[fm]<π
である。
なお、LSP係数ωm、kは、フレームfm毎に、即ち、LSP係数ωm、k[fm]毎に前記の安定条件を満たしているか判別する。つまり、0≦fm≦Nfm[m]の範囲でfmが走査されるようなループが設定されている(ステップS315;未完了ならfm←fm+1)。
前記所定の安定条件を満たしている場合(ステップS309;満たす)、LSP係数確認フラグcf[fm]を1にセットし(cf[fm]=1)(ステップS311)、満たしていない場合には(ステップS309;満たさない)、LSP係数確認フラグcf[fm]を0にセット(cf[fm]=0)する(ステップS313)。
fmをNfm[m]まで走査し終えたら(ステップS315;完了)、続いて、cf[fmNG]=0となるLSP係数確認フラグが存在するか判別する(ステップS317)。
cf[fmNG]=0となるLSP係数確認フラグが存在しない場合には(ステップS317;存在しない)、m番目の音声データSpについての補正操作を終了する。
cf[fmNG]=0となるLSP係数確認フラグが存在する場合には(ステップS317;存在する)、cf[fm=fmNG]=0となるフレームfmNGに対するLSP係数ωm、k[fmNG]を、補正し(ステップS321、S323、S325)、m番目の音声データSpについての補正操作を終了する。
補正の内容について説明する。まず、fmNGが0であるか、0<fmNG<Nfm[m]であるか、Nfm[m]であるか判別する(ステップS319)。
ステップS319で、fmNG=0であると判別されたときは、2番目以降のフレームのLSP係数を参照して補正を行う(ステップS321)。例えば、ωm、k[fmNG]=ωm、k[fmOK、H](但し、1≦k≦Nであり、fmOK、Hは、fmNGより大きくcf[fmOK、H]=1を満たす最小値である。)とする。
ステップS319で、0<fmNG<Nfm[m]であると判別されたときは、0≦fm≦Nfm[m]であるような、fmNGに隣接等するフレームのLSP係数を参照して補正を行う(ステップS323)。例えば、ωm、k[fmNG]=ωm、k[fmOK、L]×α+ωm、k[fmOK、H]×β(但し、1≦k≦Nであり、fmOK、Lは、fmNGより小さくcf[fmOK、L]=1を満たす最大値、fmOK、Hは、fmNGより大きくcf[fmOK、H]=1を満たす最小値、α及びβは重み係数である。)とする。
ステップS21で、fmNG=Nfm[m]であると判別されたときは、最後尾から2番目以前のフレームを参照して補正を行う(ステップS325)。例えば、ωm、k[fmNG]=ωm、k[fmOK、L](但し、1≦k≦Nであり、fmOK、Lは、fmNGより小さくcf[fmOK、L]=1を満たす最大値である。)とする。
学習前スペクトルパラメータ補正部17は、音声データとフレームとを順次更新しつつ上述の補正処理を繰り返す(ステップS315;未完了ならfm←fm+1、ステップS327;未完了ならm←m+1)。一方、更新の継続の結果、全ての音声データの全てのフレームについての処理が終わったら、ループを抜ける(ステップS315;完了、ステップS327;完了)
学習前スペクトルパラメータ補正部17は、補正済音声スペクトルパラメータデータ列(補正済みLSP係数群の列)を第1音素HMM学習部21に供給する。
第1音素HMM学習部21は、音素ラベルと補正済みの音声スペクトルパラメータデータ列(補正済LSP係数群の列)とを対応付けて、音素HMMに基づく学習を行う。学習手法自体は、既知の任意手法を採用できる。
学習中スペクトルパラメータ補正部23は、第1音素HMM学習部21から供給された音素HMMについて、後述の具体例に示す補正処理を行って、次段の音素HMM学習部に供給する。
以後、同様の処理が繰り返されて、最終的な音素HMMがデータ書き出し部29に供給され、音声合成辞書33に書き込まれる。
本実施の形態の音声合成辞書構築装置では、学習前スペクトルパラメータ補正部17及び学習中スペクトルパラメータ補正部23において、スペクトルパラメータが生成されるたびに、所定の安定条件を満たすように補正がなされるので、より音質の高い合成音声を出力するのに資する音声合成辞書の構築が達成できる。
ここまでは、cf[fmNG]=0のとき、1≦k≦Nなる全ての次数kに対して、ωm、k[fmNG]の補正を行うことを想定してきたが、安定条件を満たさない原因となった次数kについてのみωm、k[fmNG]の補正を行ってもよい。
そのようにすれば、必要な次数kについてのLSP係数の補正は行われ安定条件が満たされる一方、フレームfmNGに属している全てのLSP係数が補正の対象となる場合と異なり、元来安定条件を満たしていた次数kについてのLSP係数は余計な補正を受けずに済むから、より適切な補正が実現される。
(学習中補正の具体例1)
第1実施形態に係る音声合成辞書構築装置11における、音素HMM学習部19の内部の具体例を、図4に示すフローチャートを参照して説明する。
本具体例に係る音声合成辞書構築装置は、音素HMM学習部は、第1〜第5音素HMM学習部と、学習中スペクトルパラメータ補正部と、を備えることを特徴とする。
第1〜第5音素HMM学習部は、それぞれ、モノフォンHMMの初期化学習、モノフォンHMMの再学習、トライフォンHMMの初期化学習、トライフォンHMMの再学習、及び、決定木を用いたクラスタリング処理を担う。
モノフォンHMMとして状態数5のHMMを採用する。状態Sは初期状態、状態Sは終了状態であり、いずれの状態もLSP係数を出力しない。LSP係数は、状態S、S、Sから出力される。
第1音素HMM学習部では、音素ラベル列と音声スペクトルパラメータデータ列ωm、k[fm]を学習データとして、音素ラベル毎に、LSP係数に関するモノフォンHMMを初期化学習する(ステップS401)。
学習結果は、図1に示す学習中スペクトルパラメータ補正部23に引き渡される。
学習中スペクトルパラメータ補正部では、各音素ラベルのLSP係数に関するモノフォンHMMに対して、各状態のLSP係数の平均値ωk、Ave[S](但し、iは1乃至3であり、1≦k≦Nであり、NはLSP係数の次数である。)が安定条件0<ω1、Ave[S]<ω2、Ave[S]<……<ωNd、Ave[S]<πを満たしているか判別する(ステップS425)。判別は、S、S、Sの全てについて行う必要があるので、カウンタiを用いて順次処理する(ステップS423、ステップS429)。
安定条件が満たされている場合(ステップS425;満たす)には、状態S、S、Sの全てについての処理が終わっていれば(ステップS429;YES)、補正操作を終了する。
安定条件が満たされていない場合には(ステップS425;満たさない)、満たすように補正する操作を施す(ステップS427)。
補正操作の結果は、第2音素HMM学習部に引き渡される。
第2音素HMM学習部では、音素ラベル毎に、LSP係数に関するモノフォンHMMを再学習する。
学習結果は、学習中スペクトルパラメータ補正部23に引き渡される。
学習中スペクトルパラメータ補正部23は、前記の操作と同様な補正操作を行い、その結果を、第3音素HMM学習部に引き渡す。
第3音素HMM学習部では、トライフォンHMMの初期化学習を行う。すなわち、LSP係数に関するモノフォンHMMを、前後の音素ラベルを考慮したLSP係数に関するトライフォンHMMにコピーし、初期化学習する。
トライフォンHMMも、モノフォンHMMと同様に、状態数5のHMMとし、HMM内の各状態におけるLSP係数の平均値をωk、Ave[S]で表すものとする。
学習結果は、学習中スペクトルパラメータ補正部23に引き渡される。
学習中スペクトルパラメータ補正部23は、前記の操作と同様な補正操作を行い、その結果を、第4音素HMM学習部に引き渡す。
第4音素HMM学習部では、トライフォンHMMの再学習を行う。
学習結果は、学習中スペクトルパラメータ補正部23に引き渡される。
学習中スペクトルパラメータ補正部23は、前記の操作と同様な補正操作を行い、その結果を、第5音素HMM学習部に引き渡す。
第5音素学習部では、LSP係数に関するトライフォンHMMに対して、決定木を用いたクラスタリングを行い、学習データ中に存在しない音素ラベルの組み合わせにも対応できるモデルを生成して、再度、LSP係数に関するトライフォンHMMを再学習する。
学習結果は、学習中スペクトルパラメータ補正部23に引き渡される。
学習中スペクトルパラメータ補正部は、前記の操作と同様な補正操作を行い、その結果を、図1に示すデータ書き出し部29に引き渡す。
このように、音素HMM学習部の内部では、各段階の学習が済む毎に、学習中スペクトルパラメータ補正部により、LSP係数の補正操作が施される。以下では、図5に示すフローチャートを参照して、当該補正操作の具体的な内容を説明する。
モノフォンHMM又はトライフォンHMMの各状態のLSP係数の平均値ωk、Ave[S]を読み出し(ステップS501)、これらに対して、安定条件0<ω1、Ave[S]<ω2、Ave[S]<……<ωNd、Ave[S]<πが満たされているか判別する。
状態S乃至Sの全てについて前記安定条件が満たされている場合(ステップS503;YES、ステップS505;YES、ステップS509;YES)は、補正をせずに、補正操作を終了する。
状態Sについては前記安定条件が満たされていないが(ステップS503;NO)、S及びSについては満たさされている場合(ステップS507;YES、ステップS513;YES)は、状態SのLSP係数の平均値ωk、Ave[S]に対しては、
ωk、Ave[S]=ωk、Ave[S](但し、1≦k≦Nとする。)
のように補正し(ステップS521)、状態S及びSに関するLSP係数は補正せずに、補正操作を終了する。
状態Sについては前記安定条件が満たされていないが、S及びSについては満たさされている場合(ステップS503;YES、ステップS505;NO、ステップS511;YES)は、状態SのLSP係数の平均値ωk、Ave[S]に対しては、
ωk、Ave[S]=(ωk、Ave[S]+ωk、Ave[S])/2(但し、1≦k≦N)のように補正し(ステップS519)、状態S及びSに関するLSP係数は補正せずに、補正操作を終了する。
状態Sについては前記安定条件が満たされていないが、S及びSについては満たさされている場合(ステップS503;YES、ステップS505;YES、ステップS509;NO)は、状態SのLSP係数の平均値ωk、Ave[S]に対しては、
ωk、Ave[S]=ωk、Ave[S](但し、1≦k≦Nとする。)
のように補正し(ステップS517)、状態S及びSに関するLSP係数は補正せずに、補正操作を終了する。
状態S及び状態Sについては前記安定条件が満たされていないが、Sについては満たさされている場合(ステップS503;NO、ステップS507;NO、ステップS515;YES)は、状態S及び状態SのLSP係数の平均値ωk、Ave[S]及びωk、Ave[S]に対しては、
ωk、Ave[S]=ωk、Ave[S]、ωk、Ave[S]=ωk、Ave[S](但し、1≦k≦Nとする。)
のように補正し(ステップS527)、状態Sに関するLSP係数は補正せずに、補正操作を終了する。
状態S及び状態Sについては前記安定条件が満たされていないが、Sについては満たさされている場合(ステップS503;NO、ステップS507;YES、ステップS513;NO)は、状態S及び状態SのLSP係数の平均値ωk、Ave[S]及びωk、Ave[S]に対しては、
ωk、Ave[S]=ωk、Ave[S]、ωk、Ave[S]=ωk、Ave[S](但し、1≦k≦Nとする。)
のように補正し(ステップS525)、状態Sに関するLSP係数は補正せずに、補正操作を終了する。
状態S及び状態Sについては前記安定条件が満たされていないが、Sについては満たされている場合(ステップS503;YES、ステップS505;NO、ステップS511;NO)は、状態S及び状態SのLSP係数の平均値ωk、Ave[S]及びωk、Ave[S]に対しては、
ωk、Ave[S]=ωk、Ave[S]、ωk、Ave[S]=ωk、Ave[S](但し、1≦k≦Nとする。)
のように補正し(ステップS523)、状態Sに関するLSP係数は補正せずに、補正操作を終了する。
状態S乃至Sについて前記安定条件が満たされていない場合(ステップS503;NO、ステップS507;NO、ステップS515;NO)は、学習前の状態に戻して(ステップS529)、補正操作を終了する。
(学習中補正の具体例2)
前記具体例においては、安定条件が満たされていない場合に行われる補正操作は、LSP係数の全ての次数k、すなわち1≦k≦Nなる全てのkについて行われる。これに対し、本実施例においては、安定条件を満たさない原因となった次数kについてのみ行う。
このように補正対象を限定することにより、本来補正の必要のなかった次数kに関してまで補正が行われてしまうことを防ぐことができ、結果として、第4実施例に係る音声合成辞書構築装置により構築される音声合成辞書よりも、高音質な合成音声の出力に資する音声合成辞書の構築が達成される。
(学習中補正の具体例3)
本実施例では、具体例1におけるLSP係数の補正に加えて、HMM内の各状態におけるLSP係数の分散値ωk、Var[S]に対して、所定の適切性判別基準を課し、不適切な値を有する次数kの分散値に対しては、適切な値に補正する操作を加える。
(実施形態2)
本実施例に係る音声合成辞書構築装置は、第1実施例に係る音声合成辞書構築装置において、学習前スペクトルパラメータ補正部を省略することを特徴とする、音声合成辞書構築装置である。
音素HMM学習部19の内部で学習中スペクトルパラメータ補正部23により補正が繰り返されるため、本実施例に係る音声合成辞書構築装置により構築された音声合成辞書を音声合成装置に用いた場合、従来の音声合成辞書構築装置により構築された音声合成辞書を音声合成装置に用いた場合に比べて、高音質の合成音声の出力が達成される。
学習前スペクトルパラメータ補正部が省略されているため、本実施例に係る音声合成辞書構築装置により構築された音声合成辞書を音声合成装置に用いた場合、第1実施例に係る音声合成辞書構築装置により構築された音声合成辞書を音声合成装置に用いた場合に比べて、出力される合成音声の品質は劣る。
しかし、学習前スペクトルパラメータ補正部を省略することにより、本実施例に係る音声合成辞書構築装置は、第1実施例に係る音声合成辞書構築装置に比べて、構造が単純になるというメリットがある。
なお、この発明は、条規実施形態に限定されず、種々の変形及び応用が可能である。例えば、上述のハードウェア構成やブロック構成、フローチャートは例示であって、限定されるものではない。また、この発明は、音声合成辞書構築装置に限定されるものではなく、任意のコンピュータを用いて構築可能である。例えば、上述の処理をコンピュータに実行させるためのコンピュータプログラムを記録媒体や通信により配布し、これをコンピュータにインストールして実行させることにより、この発明の音声合成辞書構築装置として機能させることも可能である。
本発明による音声合成辞書構築装置及び方法の概要構成図である。 実施形態1に係る音声合成辞書構築装置の物理的な構成を示す図である。 学習前補正における動作の流れを示すフローチャートである。 第1音素HMM学習部における学習の流れを示すフローチャートである。 学習中補正における動作の流れを示すフローチャートである。
符号の説明
11・・・音声合成辞書構築装置、13・・・データ取り出し部、15・・・スペクトル分析部、17・・・学習前スペクトルパラメータ補正部、19・・・音素HMM学習部、21・・・第1音素HMM学習部、23・・・学習中スペクトルパラメータ補正部、25・・・第2音素HMM学習部、27・・・第N音素HMM学習部、29・・・データ書き出し部、31・・・音声データベース、33・・・音声合成辞書、41・・・コンピュータ装置、43・・・CPU、45・・・ROM、47・・・記憶部、49・・・ユーザI/F、51・・・データ入出力I/F、55・・・元データ入りハードディスク、57・・・処理済データ記録用ハードディスク、61・・・キーボード、63・・・モニタ、65・・・RAM、67・・・ハードディスク、71・・・バス

Claims (11)

  1. 音声データに対してLSP分析を施して多次元のLSP(Line Spectrum Pair)係数を含むLSP係数群時系列データを生成するLSP係数群時系列データ生成部と、
    前記LSP係数群時系列データ生成部により生成された前記LSP係数群時系列データに、所定の安定条件を満たすように、補正操作を施す学習前スペクトルパラメータ補正部と、
    音素ラベル列と前記学習前スペクトルパラメータ補正部から出力された前記補正済LSP係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素HMMを対応させる音素HMM学習部と、
    前記音素HMM学習部によって対応付けられた音素ラベルと音素HMMとを音声合成辞書に記録するデータ書き出し部と、
    を備えることを特徴とする音声合成辞書構築装置。
  2. 前記音素HMM学習部は、隠れマルコフモデルに基づく学習により音素ラベル毎に音素HMMを対応させると共に、前記音素HMMを定義するLSP係数について、前記所定の安定条件を満たすように補正操作を施す、
    ことを特徴とする請求項1に記載の音声合成辞書構築装置。
  3. 音声データに対してLSP分析を施して多次元のLSP(Line Spectrum Pair)係数を含むLSP係数群時系列データを生成するLSP係数群時系列データ生成部と、
    音素ラベル列と前記LSP係数群時系列データ生成部から出力されたLSP係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素HMMを対応させると共に、前記音素HMMを定義するLSP係数について、所定の安定条件を満たすように所定の補正操作を施す音素HMM学習部と、
    前記音素HMM学習部によって対応付けられた音素ラベルと音素HMMとを音声合成辞書に記録するデータ書き出し部と、
    を備えることを特徴とする音声合成辞書構築装置。
  4. 前記LSP係数群時系列データ生成部により生成されたLSP係数群時系列データに、前記所定の安定条件を満たすように、補正操作を施し、前記音素HMM学習部に供給する学習前スペクトルパラメータ補正部、をさらに備えることを特徴とする請求項3に記載の音声合成辞書構築装置。
  5. 前記補正操作は、LSP係数群について、前記所定の安定条件を満たすか否かを判別し、満たしていない場合に、前記所定の安定条件を満たすようなLSP係数群に置換する操作から構成される、
    ことを特徴とする請求項1乃至4の何れか1項に記載の音声合成辞書構築装置。
  6. 前記補正操作は、LSP係数群について、前記所定の安定条件を満たすような係数群に置換する処理から構成され、
    前記所定の安定条件とは、LSP係数が、全て0より大きくπより小さく、かつ、当該係数の次元の昇順に並べた場合に、小さい順に並ぶことである、
    ことを特徴とする請求項1乃至5の何れか1項に記載の音声合成辞書構築装置。
  7. 前記音素HMM学習部は、第1乃至第N(Nは2以上の自然数)音素HMM学習部と、学習中スペクトルパラメータ補正部と、から構成され、
    第1音素HMM学習部は音素ラベル列と前記LSP係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素HMMを対応させて、前記学習中スペクトルパラメータ補正部に供給し、
    前記第2乃至第N−1音素HMM学習部は、それぞれ、第1乃至第N−2音素HMM学習部から出力された後に学習中スペクトルパラメータ補正部による補正を受けた音素HMMを基に、隠れマルコフモデルに基づく再学習により音素ラベル毎に音素HMMを対応させて、前記学習中スペクトルパラメータ補正部に供給し、
    第N音素HMM学習部は、第N−1音素HMM学習部を経た後に前記学習中スペクトルパラメータ補正部による補正を受けた音素HMMを基に、隠れマルコフモデルに基づく再学習により音素ラベル毎に音素HMMを対応させて出力し、
    前記学習中スペクトルパラメータ補正部は、前記第1乃至第N−1音素HMM学習部から出力された音素HMMを前記所定の条件を満たすように補正して前記第2乃至第N音素HMM学習部に供給する、
    ことを特徴とする請求項1乃至6の何れか1項に記載の音声合成辞書構築装置。
  8. 音声データに対してLSP分析を施して多次元のLSP(Line Spectrum Pair)係数を含むLSP係数群時系列データを生成し、
    生成されたLSP係数群時系列データに、所定の安定条件を満たすように、補正操作を施し、
    音素ラベル列と前記補正済LSP係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素HMMを対応させ、
    対応付けられた音素ラベルと音素HMMとを音声合成辞書に記録する、
    ことを特徴とする音声合成辞書構築方法。
  9. 音声データに対してLSP分析を施して多次元のLSP(Line Spectrum Pair)係数を含むLSP係数群時系列データを生成し、
    音素ラベル列と前記LSP係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素HMMを対応させると共に、前記音素HMMを定義するLSP係数について、所定の安定条件を満たすように補正操作を施し、
    対応付けられた音素ラベルと音素HMMとを音声合成辞書に記録する、
    ことを特徴とする音声合成辞書構築方法。
  10. コンピュータに、
    音声データに対してLSP分析を施して多次元のLSP(Line Spectrum Pair)係数を含むLSP係数群時系列データを生成し、
    生成された前記LSP係数群時系列データに、所定の安定条件を満たすように、補正操作を施し、
    音素ラベル列と前記補正済LSP係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素HMMを対応させ、
    対応付けられた音素ラベルと音素HMMとを音声合成辞書に記録する、
    処理を実行させるためのコンピュータプログラム。
  11. コンピュータに、
    音声データに対してLSP分析を施して多次元のLSP(Line Spectrum Pair)係数を含むLSP係数群時系列データを生成し、
    音素ラベル列と前記LSP係数群時系列データとから、隠れマルコフモデルに基づく学習により音素ラベル毎に音素HMMを対応させると共に、前記音素HMMを定義するLSP係数について、所定の安定条件を満たすように補正操作を施し、
    対応付けられた音素ラベルと音素HMMとを音声合成辞書に記録する、
    処理を実行させるためのコンピュータプログラム。
JP2006115992A 2006-04-19 2006-04-19 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム Active JP5228283B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006115992A JP5228283B2 (ja) 2006-04-19 2006-04-19 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006115992A JP5228283B2 (ja) 2006-04-19 2006-04-19 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム

Publications (2)

Publication Number Publication Date
JP2007286511A true JP2007286511A (ja) 2007-11-01
JP5228283B2 JP5228283B2 (ja) 2013-07-03

Family

ID=38758307

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006115992A Active JP5228283B2 (ja) 2006-04-19 2006-04-19 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム

Country Status (1)

Country Link
JP (1) JP5228283B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101125859B1 (ko) 2011-09-27 2012-03-28 주식회사 스마트송 음원 벡터 인덱스를 이용한 음성 합성 시스템 및 방법
JP2013057735A (ja) * 2011-09-07 2013-03-28 National Institute Of Information & Communication Technology 音声合成用の隠れマルコフモデル学習装置及び音声合成装置
CN113223503A (zh) * 2020-04-29 2021-08-06 浙江大学 一种基于测试反馈的核心训练语音选择方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08305397A (ja) * 1995-05-12 1996-11-22 Mitsubishi Electric Corp 音声加工フィルタ及び音声合成装置
JPH10254350A (ja) * 1997-03-13 1998-09-25 Mitsubishi Electric Corp 音声認識装置
JPH11308113A (ja) * 1998-04-20 1999-11-05 Toshiba Corp ベクトル量子化方法
JP2000242298A (ja) * 1999-02-24 2000-09-08 Mitsubishi Electric Corp Lsp補正装置,音声符号化装置及び音声復号化装置
JP2002062890A (ja) * 2000-08-18 2002-02-28 Seiko Epson Corp 音声合成方法および音声合成装置ならびに音声合成処理プログラムを記録した記録媒体
JP2002123280A (ja) * 2000-10-16 2002-04-26 Seiko Epson Corp 音声合成方法および音声合成装置ならびに音声合成処理プログラムを記録した記録媒体

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08305397A (ja) * 1995-05-12 1996-11-22 Mitsubishi Electric Corp 音声加工フィルタ及び音声合成装置
JPH10254350A (ja) * 1997-03-13 1998-09-25 Mitsubishi Electric Corp 音声認識装置
JPH11308113A (ja) * 1998-04-20 1999-11-05 Toshiba Corp ベクトル量子化方法
JP2000242298A (ja) * 1999-02-24 2000-09-08 Mitsubishi Electric Corp Lsp補正装置,音声符号化装置及び音声復号化装置
JP2002062890A (ja) * 2000-08-18 2002-02-28 Seiko Epson Corp 音声合成方法および音声合成装置ならびに音声合成処理プログラムを記録した記録媒体
JP2002123280A (ja) * 2000-10-16 2002-04-26 Seiko Epson Corp 音声合成方法および音声合成装置ならびに音声合成処理プログラムを記録した記録媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200700044016; 森田 義則 Yoshinori MORITA: 'LSPパラメータを用いた雑音下音声認識のAURORA-2Jによる評価 noisy-speech recognition perfo' 日本音響学会2004年秋季研究発表会講演論文集-I- THE 2004 AUTUMN MEETING OF THE ACOUSTICAL SOCI , 20040921, 社団法人日本音響学会 *
JPN6011029523; 森田 義則 Yoshinori MORITA: 'LSPパラメータを用いた雑音下音声認識のAURORA-2Jによる評価 noisy-speech recognition perfo' 日本音響学会2004年秋季研究発表会講演論文集-I- THE 2004 AUTUMN MEETING OF THE ACOUSTICAL SOCI , 20040921, 社団法人日本音響学会 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013057735A (ja) * 2011-09-07 2013-03-28 National Institute Of Information & Communication Technology 音声合成用の隠れマルコフモデル学習装置及び音声合成装置
KR101125859B1 (ko) 2011-09-27 2012-03-28 주식회사 스마트송 음원 벡터 인덱스를 이용한 음성 합성 시스템 및 방법
CN113223503A (zh) * 2020-04-29 2021-08-06 浙江大学 一种基于测试反馈的核心训练语音选择方法

Also Published As

Publication number Publication date
JP5228283B2 (ja) 2013-07-03

Similar Documents

Publication Publication Date Title
US8401847B2 (en) Speech recognition system and program therefor
US7136816B1 (en) System and method for predicting prosodic parameters
CN110556100A (zh) 端到端语音识别模型的训练方法及系统
CN110737764A (zh) 一种个性化对话内容生成方法
JP2004109464A (ja) 音声認識装置及び音声認識方法
JP2004279701A (ja) 音響モデル作成方法および音響モデル作成装置ならびに音声認識装置
WO2016042659A1 (ja) 音声合成装置、音声合成方法およびプログラム
JP3092491B2 (ja) 記述長最小基準を用いたパターン適応化方式
JP6103564B2 (ja) パターン認識装置およびパターン認識方法
WO2021109856A1 (zh) 一种针对认知障碍的语音识别系统
CN110798733A (zh) 一种字幕生成方法、装置及计算机存储介质、电子设备
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
CN115293139A (zh) 一种语音转写文本纠错模型的训练方法和计算机设备
JP5228283B2 (ja) 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム
US6173076B1 (en) Speech recognition pattern adaptation system using tree scheme
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
JP7359028B2 (ja) 学習装置、学習方法、および、学習プログラム
JP2001282779A (ja) 電子化テキスト作成システム
JP4816201B2 (ja) 音声処理装置及び方法、テキスト音声合成装置、プログラム
JP4760471B2 (ja) 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム
Calvo et al. A multilingual SLU system based on semantic decoding of graphs of words
Tian et al. End-to-end speech recognition with Alignment RNN-Transducer
WO2024042650A1 (ja) 学習装置、学習方法及びプログラム
CN115630635B (zh) 一种基于检索和多阶段的中文文本校对方法、系统及设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090402

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110309

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110801

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120529

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120723

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130304

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160329

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5228283

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150