JP4760471B2 - 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム - Google Patents

音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム Download PDF

Info

Publication number
JP4760471B2
JP4760471B2 JP2006084281A JP2006084281A JP4760471B2 JP 4760471 B2 JP4760471 B2 JP 4760471B2 JP 2006084281 A JP2006084281 A JP 2006084281A JP 2006084281 A JP2006084281 A JP 2006084281A JP 4760471 B2 JP4760471 B2 JP 4760471B2
Authority
JP
Japan
Prior art keywords
pitch
phoneme
data
data string
speech synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006084281A
Other languages
English (en)
Other versions
JP2007256866A (ja
Inventor
勝彦 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2006084281A priority Critical patent/JP4760471B2/ja
Publication of JP2007256866A publication Critical patent/JP2007256866A/ja
Application granted granted Critical
Publication of JP4760471B2 publication Critical patent/JP4760471B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声合成に用いるデータベースを構築する、音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラムに関する。
音声認識及び音声合成技術として隠れマルコフモデル(以下、HMMと称呼する。)に基づいた音声認識技術及び音声合成技術が、広く利用されている。
HMMに基づいた音声認識技術及び音声合成技術は、例えば、特許文献1及び2に開示されている。
特開2002−244689号公報 特開2002−268660号公報
HMMに基づいた音声合成においては、音素ラベルとスペクトルパラメータデータ列等の対応関係を記録した音声合成辞書が必要になる。
音声合成辞書は、通例、音素ラベル列とそれに対応する音声データとの組から構成されているデータベース(以下、音声データベースと称呼する。)に記録されているデータについて、スペクトル分析とピッチ抽出をし、HMMに基づく学習過程を経ることにより、構築される。
従来は、音声合成辞書を構築する際、音声データから抽出されたピッチを、特に加工等を施すことなく、そのままHMMに基づく学習に用いて、音声合成辞書を構築していた。
しかしながら、そのように構築された音声合成辞書を用いて生成された合成音声のピッチ変動は、元の音声のピッチ変動に比べて小さい。
このため、従来の音声合成辞書構築装置により構築された音声合成辞書を用いた合成音声は、人間の自然な音声に比べて、平坦な印象を与える不自然なものとなっていた。
本発明は、上記実情に鑑みてなされたもので、自然な印象を与える音声を合成することができる音声合成辞書を構築可能とする音声合成辞書構築装置及び音声合成辞書構築方法を提供することを目的とする。
本発明は、高品質のテキスト音声合成を可能とする音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラムを提供することを目的とする。
この発明に係る音声合成辞書構築装置は、
音素ラベル列とそれに対応する音声データとを受信する受信部と、
前記受信部で受信した音声データからピッチデータ列を抽出するピッチデータ列抽出部と、
抽出されたピッチデータ列において、ピッチデータ列内でのピッチデータが表すピッチについて、所定の基準ピッチを中心にしてピッチを拡大するように編集し、編集済ピッチデータ列を生成するピッチ編集部と、
前記音素ラベル列と編集済ピッチデータ列とから、隠れマルコフモデルに基づく学習により各音素ラベルに音素ピッチ情報を対応させる音素HMM学習部と、
学習結果を音声合成辞書に記録するデータ書き出し部と、
を備えることを特徴とする。
また本発明に係る音声合成辞書構築方法は、
データベースから、音素ラベル列とそれに対応する音声データとを受信する受信ステップと、
前記受信ステップで受信した音声データからピッチデータ列を抽出するピッチデータ列抽出ステップと、
前記ピッチデータ列抽出ステップで抽出されたピッチデータ列において、ピッチデータ列内でのピッチデータが表すピッチについて、所定の基準ピッチを中心にしてピッチを拡大するように編集し、編集済ピッチデータ列を生成するピッチ編集ステップと、
前記音素ラベル列と編集済ピッチデータ列とから、隠れマルコフモデルに基づく学習により各音素ラベルに音素ピッチ情報を対応させる音素HMM学習ステップと、
学習結果を出力する出力ステップと、
から構成される音声合成辞書構築方法である。
また本発明に係るコンピュータプログラムは、
コンピュータに、
データベースから、音素ラベル列とそれに対応する音声データとを受信する受信ステップと、
前記受信ステップで受信した音声データからピッチデータ列を抽出するピッチデータ列抽出ステップと、
ピッチデータ列抽出ステップで抽出されたピッチデータ列において、ピッチデータ列内でのピッチデータが表すピッチについて、所定の基準ピッチを中心にしてピッチを拡大するように編集し、編集済ピッチデータ列を生成するピッチ編集ステップと、
前記音素ラベル列と編集済ピッチデータ列とから、隠れマルコフモデルに基づく学習により各音素ラベルに音素ピッチ情報を対応させる音素HMM学習ステップと、
学習結果を出力する出力ステップと、
を実行させるコンピュータプログラムである。
本発明によれば、音声データから抽出されたピッチデータ列を、所定の基準ピッチを中心にしてピッチを拡大してから音声合成辞書の学習に用いる。このため、当該音声合成辞書を利用して得られる合成音声を、ピッチ変動の大きな、自然な音声により近いという点で、高品質なものとすることができる。
以下、本発明の実施の形態に係る音声合成辞書構築装置について詳細に説明する。
(実施形態1)
まず、本実施形態に係る音声合成辞書構築装置の構成を説明する。
図1は、本実施形態に係る音声合成辞書構築装置11の機能構成図である。
音声合成辞書構築装置11は、図示するように、データ取り出し部13と、ピッチデータ列抽出部15と、ピッチ編集部17と、音素HMM学習部19と、データ書き出し部21と、を備える。
音声合成辞書構築装置11は、図1に示すように、音声データベース23と音声合成辞書25に接続される。音声データベース23は、音素ラベル列とそれに対応する音声データとの組から構成されているデータベースであり、ハードディスク等に記憶されている。
音声合成辞書25は、音声合成辞書構築装置11によって構築されたデータベースであり、音素ラベルと音素学習結果とを対応させて記憶しており、ハードディスク等に記憶されている。
前記音素学習結果は、音素ピッチ情報を含む。音声合成に必要な他のスペクトル情報は、音声合成装置の仕様により様々であり、前記音素学習結果には、かかる様々な情報も含まれるものとする。
音声合成辞書構築装置11のデータ取り出し部13は、音声データベース23からデータを読み込み、音素ラベル列と音声データとに分離する。
音素ラベル列は音素HMM学習部19に引き渡され、音声データは、ピッチデータ列抽出部15に引き渡される。
ピッチデータ列抽出部15は、データ取り出し部13から引き渡された音声データから、所定のピッチデータ列を抽出し、ピッチ編集部17に引き渡す。
ピッチ編集部17は、ピッチデータ列抽出部15から引き渡されたピッチデータ列に対し、所定の編集処理を施す。
所定の編集処理とは、ピッチデータ列内でのピッチの変動を拡大する処理のことである。この所定の編集処理の詳細については、図3及び図4を参照して後述する。
編集済みピッチデータ列は、音素HMM学習部19に引き渡される。
音素HMM学習部19は、音素ラベル列と編集済みピッチデータ列の対応関係を、HMMに基づく学習により、音素ラベルと音素ピッチ情報の対応関係に変換し、当該対応関係を、データ書き出し部21に引き渡す。
データ書き出し部21は、音素ラベルと音素ピッチ情報の対応関係を音声合成辞書25に記録する。
図1に示す音声合成辞書構築装置11は、物理的には、図2に示すような一般的なコンピュータ装置31により、構成される。ユーザインタフェース(以下、I/Fと書く。)39、CPU33、ROM35、記憶部37、データ入出力I/F43は、バス49で相互に接続されている。
ROM35は、HMMに基づいた学習のための動作プログラム、特に、この実施の形態においては、ピッチを拡大する編集動作を含む動作プログラムを記憶する。
記憶部37は、RAM45やハードディスク47から構成されて、学習のための定数、音素ラベル列、音声データ、ピッチデータ列、音素ラベルと音素ピッチ情報を対応付けたもの、を記憶する。
データ入出力I/F43は、元データ入りハードディスク55等及び処理済データ記録用ハードディスク57等に接続するためのインタフェースである。
データ入出力I/F43は、図1に示す音声データベース23に接続され、図2に示すCPU33の制御下に、学習対象の音素ラベル列と音声データの対を読み出してきて、記憶部37に格納する。
データ入出力I/F43は、図1に示す音声合成辞書25に接続され、図2に示すCPU33による処理の結果である、音素ラベルと音素ピッチ情報の対応関係を、図1に示す音声合成辞書25に出力する。
図2に示すユーザI/F39は、キーボード51と、モニタ53と、から構成され、任意の指示、データ及びプログラムを入力するために設けられている。特に、ピッチ編集処理においては、ユーザが該I/Fを介して、各種定数を与える必要がある。
CPU33は、ROM35に格納された動作プログラムを実行することにより、合成辞書生成動作を実行する。
図1に示すように、本実施形態に係る音声合成辞書構築装置11の特徴は、ピッチ編集部17において各ピッチデータ列内でのピッチの変動を拡大する所定の編集処理を行うことである。
ピッチ編集部17が実行する所定の編集処理は、ピッチ変動を強調する処理であれば、いかなる処理でもよいが、以下に、編集処理の好適な具体例について説明する。
なお、以下の説明では、フレームとは、ピッチ抽出のために用いられる時間区分を意味し、記号fmで表す。
(編集処理の具体例1)
図3に示すフローチャートを参照して、編集処理の具体例1を説明する。
本具体例においては、あらかじめ、ユーザが、ピッチの基準値C及び後述の重み係数αを、図2のユーザI/F39を介して、記憶部37に設定しておくものとする(ステップ23)。
図1に示すように、音声合成辞書構築装置11により音声合成辞書25を構築する際には、音声合成辞書構築装置11には、音声データベース23と、例えば、空状態の音声合成辞書25が接続される。
音声合成辞書25生成の開始の指示が図2のユーザI/F39からされると、図1のデータ取り出し部13は、音声データベース23から、
音素ラベル列と音声データSp(但し、1≦m≦NSPであり、NSPは音声データベースのデータ数である。)の対を順次読み出し、図2の記憶部37に記憶する。
図1のピッチデータ列抽出部15は、音声データSpからピッチデータ列Pit[fm](但し、0≦fm≦Nfm[m]であり、Nfm[m]は音声データSpについてのフレーム数である。)を抽出し、図2の記憶部37に記憶する(図3のステップS11)。
音声データを識別するための番号を指定するポインタmを1に初期化する(ステップS13)。
各mについて、ピッチデータ列Pit[fm](但し、0≦fm≦Nfm[m]である。)を図2の記憶部37から読み出す(ステップS15)。
m番目のピッチデータ列についての、フレームの番号を示すポインタfmを0に初期化する(ステップS17)。
ピッチデータPit[fm]に着目し(ステップS19)、処置対象のフレームfmが有声音・無声音のいずれであるかを判別する(ステップS21)。
ステップS21で有声音であると判別された場合、Pit[fm]に対して、
EdPit[fm]=(Pit[fm]−C)×α+C
(但し、Cは所定の基準値、αは所定の重み係数とする。)
とする編集処理を施す(ステップS25)。
なお、前記したとおり、基準値C及び重み係数αは、ユーザが、図2のユーザI/F39を介して、設定すべきものである(ステップS23)。
ステップS21で無声音であると判別された場合、Pit[fm]に対して、
EdPit[fm]=Pit[fm]
とする(ステップS27)。
ステップS25またはステップS27により算出されたEdPit[fm]は、図2の記憶部37に記憶される(ステップS29)。
全てのfmについて処理が完了したか否かを判別する(ステップS31)。
当該処理が完了したと判別された場合は、全てのmについて処理が完了したか否かを判別する(ステップS33)。
ステップS31にて、全てのfmについての処理が完了してはいないと判別された場合には、fmを1だけインクリメントして、ステップS19に戻る。
全てのmについて処理が完了したか否かを判別(ステップS33)した結果、完了したと判別された場合には、処理を終了する。
全てのmについての処理が完了してはいないと判別された場合には、mを1だけインクリメントして、ステップS15に戻る。
以上の処理により、図1の音声データベース23から取り出し得る全てのEdPit[fm]は、図2の記憶部37に記憶される。当該EdPit[fm]は、図1の音素HMM学習部19にて使用される。
本具体例では、図1に示す音素HMM学習部19にて使用されるピッチデータ列を、あらかじめピッチ編集部17にてピッチ変動の強調されたピッチデータ列とすることにより、より自然な合成音声を合成するのに資する音声合成辞書の構築が達成できる。
(編集処理の具体例2)
図4に示すフローチャートを参照して、編集処理の具体例2を説明する。
具体例1では、基準値Cをユーザ自身で設定する必要があったが、適切な値を事前に知ることが困難な場合もある。
そこで、本具体例においては、ユーザがあらかじめ設定しなければならない値を重み係数αのみとしてユーザの負担を軽減し、基準値Cについては、ピッチデータ列Pit[fm]毎にピッチデータPit[0]、Pit[1]、…、Pit[Nfm[m]]の平均値Aveを算出してこれを基準値Cとすることとする。
ただし、前記平均値Aveの算出にあたっては、有声音に対応するフレームに属するピッチデータの値のみが用いられる。
本具体例の動作の流れは、基本的には、図4に示すとおり、図3を用いて説明した具体例1と同様である。
そこで、図4においては、図3と同一の処理を行うステップには、同一の符号を付してある。
本具体例が具体例1と異なる主な点は、図4を図3と比較すれば明らかなように、有声音・無声音判別分岐ステップ(ステップS55)とfm走査ループ(ステップS53、S55、S57及びS59)が付加されている点である。
かかる付加が必要になるのは、基準値Cとして用いる平均値Aveは、有声音のフレームに属するピッチデータのみの平均値であるため、かかるピッチデータのみを取り出すための有声音・無声音判別(ステップS55)が必要になるためと、かかる取り出し作業を全てのfmについて行った後でないと、平均値Aveの算出(ステップS61)ができないためである。
なお、図2の記憶部37には、図4のステップS57に示すように、平均値Aveの算出のために取り出されたピッチデータを蓄えておくためにテンポラリデータVPit[fm]が用意される。
そして、平均値Aveは、該テンポラリデータVPit[fm]の平均値として算出される。これにより、ピッチデータ列Pit[fm]の有声音におけるピッチデータの平均値であるAveが求まったことになる。
本実施例においても、実施例1と同様に、編集処理には、各フレームが有声音に対応しているか、それとも無声音に対応しているか、を判別し、当該判別結果に基づき、条件分岐をするステップ(ステップS21)が含まれる。
ステップS21にて無声音であると判別された場合には、具体例1と同じく、EdPit[fm]=Pit[fm]とする(ステップS27)。
ステップS21にて有声音であると判別された場合は、具体例1とは異なり、
EdPit[fm]=(Pit[fm]−Ave)×α+Ave
とする(ステップS73)。
ここで、前記したとおり、重み係数αは、ユーザが、図2のユーザI/F39を介して、設定すべきものである(ステップS71)。
一方、Aveは、前記のとおりピッチデータ列から自動的に算出されるものであるため、ユーザが設定する必要はない。
このように、本具体例によれば、自然な合成音声の出力に資する音声合成辞書構築装置であって、ユーザが使いやすい装置を提供することができる。
(編集処理の具体例3)
具体例2では、ユーザが、重み係数として単一のαを設定することとしていたが、条件に応じてαの値を使い分けたほうが、より適切な音声合成辞書を構築できる場合もあり得る。
本具体例では、ユーザが設定する重み係数として、αとαの2種類を設ける。そして、具体例2と同様に基準値Cを平均値Aveとしつつ、ピッチデータの値がAve以上の場合には、重み係数としてαを用い、ピッチデータの値がAveより小さい場合には、重み係数としてαを用いる。
すなわち、fmが有声音に対応するフレームの場合は、
Pit[fm]≧Aveのときは、
EdPit[fm]=(Pit[fm]−Ave)×α+Aveとし、
Pit[fm]<Aveのときは、
EdPit[fm]=(Pit[fm]−Ave)×α+Aveとし、
fmが無声音に対応するフレームの場合は、
EdPit[fm]=Pit[fm]とする。
本具体例におけるピッチ編集処理の動作は、基本的には、具体例2と同様に、図4で示される動作である。相違点は、ユーザが、図2のユーザI/F39を介して、重み係数として2種類の値α、αを設定することである。
(編集処理の具体例4)
具体例3では、重み係数を2種類設定し、それぞれをピッチデータが平均値Aveを上回る場合と下回る場合とに対応させた。これに対し、本実施例では、2種類の重み係数を、それぞれ、ピッチデータが平均値を大幅に逸脱した場合のピッチ変動の強調の程度と、さほど逸脱していない場合の強調の程度とに対応させる。
すなわち、α及びαを重み定数、εを任意の閾値として、フレームfmが有声音に対応している場合、
|Pit[fm]−Ave|≧εのときは、
EdPit[fm]=(Pit[fm]−Ave)×α+Ave
とし、
|Pit[fm]−Ave|<εのときは、
EdPit[fm]=(Pit[fm]−Ave)×α+Ave
とし、
当該フレームが無声音の場合は、
EdPit[fm]=Pit[fm]とする。
本具体例におけるピッチ編集処理の動作は、基本的には、具体例2と同様に、図4で示される動作である。相違点は、ユーザが、図2のユーザI/F39を介して、重み係数として2種類の値α、αを設定することと、閾値εを設定することである。
なお、編集処理の具体例として以上のように4例示したが、編集処理はこれらに限定されるものではない。ピッチデータの変動を、ある基準値を中心に顕著化するものであれば、いかなるものでもよい。上記具体例3及び4において、敢えて平均値Aveのかわりに具体例1と同様にユーザの設定した基準値Cを用いることや、基準値Cを単一の値とせず、ユーザが状況に応じて、m毎かつfm毎に異なる値とすることなど、様々なバリエーションが考えられる。
以上では理解を容易にするため、図1の音声データベース23から、データを、データ取り出し部13により図2に示す記憶部37に一旦全部読み込む例を示したが、かかる一括処理は本実施形態の本質的要件ではない。例えば、図1に示す音素HMM学習部19の仕様次第では、より動的に音声合成辞書を構築することも考えられる。
(実施形態2)
実施形態1においては、音声合成辞書構築装置11により音素ラベルと音素ピッチ情報とを対応付けた。この発明はこれに限定されず、音素ラベルと音素ピッチ情報及び音素スペクトルパラメータ情報とを対応付ける場合にも適用可能である。
以下、音素ラベルと音素ピッチ情報及び音素スペクトルパラメータ情報とを対応付けて音声合成辞書に書き出す音声合成辞書構築装置71について説明する。
本実施形態に係る音声合成辞書構築装置71は、図5に示すように、データ取り出し部13と、ピッチデータ列抽出部15と、ピッチ編集部17と、を備える。これらの各部は、実施形態1に係る音声合成辞書構築装置11の対応する各部と同一の構成と機能を有する。
音声合成辞書構築装置71は、さらに、スペクトル分析部73と、音素HMM学習部75と、データ書き出し部77と、を備える。
スペクトル分析部73は、データ取り出し部13により取り出された音声データをスペクトル分析してスペクトルパラメータデータ列(例えば、隠れマルコフモデルに基づきフレーム毎に生成された多次元のLSP係数から成るLSP(Line Spectrum Pair)係数群の時系列データ)を生成する。
音素HMM学習部75は、音素ラベル列と対応する編集済みピッチデータ列の対応関係を、HMMに基づいて学習することにより、音素ラベルと音素ピッチ情報との対応関係を示す情報に変換し、データ書き出し部77に引き渡す。さらに、音素HMM学習部75は、音素ラベル列とスペクトルパラメータデータ列(例えば、LSP係数群の時系列データ)との対応関係を、HMMに基づいて学習し、音素ラベルと音素スペクトルパラメータ情報との対応関係を示す情報に変換し、データ書き出し部77に引き渡す。
データ書き出し部77は、音素ラベルと音素ピッチ情報の対応関係、及び、音素ラベルと音素スペクトルパラメータ情報の対応関係を、音声合成辞書25に書き出す。
このようにして構築された音声合成辞書25を用いることにより、音素ラベル毎に音素ピッチ情報と音素スペクトルパラメータ情報とを用いて、高品質な音声を合成することができる。
なお、この発明は、上記実施形態に限定されず、種々の変形及び応用が可能である。
例えば、上述のハードウエア構成やブロック構成、フローチャートは例示であって、限定されるものでもない。
また、この発明は、音声合成辞書構築装置に限定されるものではなく、任意のコンピュータを用いて構築可能である。例えば、上述の処理をコンピュータに実行されるためのコンピュータプログラムを記録媒体や通信により配布し、これをコンピュータにインストールして実行させることにより、この発明の音声合成辞書構築装置として機能させることも可能である。
実施形態1に係る、ピッチ編集部を備えた音声合成辞書構築装置の機能構成図である。 実施形態1に係る音声合成辞書構築装置の物理的な構成を示す図である。 ピッチ編集処理の具体例1における動作の流れを示す図である。 ピッチ編集処理の具体例2における動作の流れを示す図である。 実施形態2に係る、スペクトル分析部を備えた音声合成辞書構築装置の機能構成図である。
符号の説明
11・・・実施形態1に係る音声合成辞書構築装置、13・・・データ取り出し部、15・・・ピッチデータ列抽出部、17・・・ピッチ編集部、19・・・音素HMM学習部、21・・・データ書き出し部、23・・・音声データベース、25・・・音声合成辞書、31・・・コンピュータ装置、33・・・CPU、35・・・ROM、37・・・記憶部、39・・・ユーザI/F、43・・・データ入出力I/F、45・・・RAM、47・・・ハードディスク、49・・・バス、51・・・キーボード、53・・・モニタ、55・・・元データ入りハードディスク、57・・・処理済データ記録用ハードディスク、71・・・音声合成辞書構築装置、73・・・スペクトル分析部、75・・・音素HMM学習部、77・・・データ書き出し部

Claims (4)

  1. 音素ラベル列とそれに対応する音声データとを受信する受信部と、
    前記受信部で受信した音声データからピッチデータ列を抽出するピッチデータ列抽出部と、
    抽出されたピッチデータ列において、ピッチデータ列内でのピッチデータが表すピッチについて、所定の基準ピッチを中心にしてピッチを拡大するように編集し、編集済ピッチデータ列を生成するピッチ編集部と、
    前記音素ラベル列と編集済ピッチデータ列とから、隠れマルコフモデルに基づく学習により各音素ラベルに音素ピッチ情報を対応させる音素HMM学習部と、
    学習結果を音声合成辞書に記録するデータ書き出し部と、
    を備えることを特徴とする音声合成辞書構築装置。
  2. 前記所定の基準ピッチは、ピッチの平均値である、ことを特徴とする請求項に記載の音声合成辞書構築装置。
  3. データベースから、音素ラベル列とそれに対応する音声データとを受信する受信ステップと、
    前記受信ステップで受信した音声データからピッチデータ列を抽出するピッチデータ列抽出ステップと、
    前記ピッチデータ列抽出ステップで抽出されたピッチデータ列において、ピッチデータ列内でのピッチデータが表すピッチについて、所定の基準ピッチを中心にしてピッチを拡大するように編集し、編集済ピッチデータ列を生成するピッチ編集ステップと、
    前記音素ラベル列と編集済ピッチデータ列とから、隠れマルコフモデルに基づく学習により各音素ラベルに音素ピッチ情報を対応させる音素HMM学習ステップと、
    学習結果を出力する出力ステップと、
    から構成される音声合成辞書構築方法。
  4. コンピュータに、
    データベースから、音素ラベル列とそれに対応する音声データとを受信する受信ステップと、
    前記受信ステップで受信した音声データからピッチデータ列を抽出するピッチデータ列抽出ステップと、
    ピッチデータ列抽出ステップで抽出されたピッチデータ列において、ピッチデータ列内でのピッチデータが表すピッチについて、所定の基準ピッチを中心にしてピッチを拡大するように編集し、編集済ピッチデータ列を生成するピッチ編集ステップと、
    前記音素ラベル列と編集済ピッチデータ列とから、隠れマルコフモデルに基づく学習により各音素ラベルに音素ピッチ情報を対応させる音素HMM学習ステップと、
    学習結果を出力する出力ステップと、
    を実行させるコンピュータプログラム。
JP2006084281A 2006-03-24 2006-03-24 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム Active JP4760471B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006084281A JP4760471B2 (ja) 2006-03-24 2006-03-24 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006084281A JP4760471B2 (ja) 2006-03-24 2006-03-24 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム

Publications (2)

Publication Number Publication Date
JP2007256866A JP2007256866A (ja) 2007-10-04
JP4760471B2 true JP4760471B2 (ja) 2011-08-31

Family

ID=38631135

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006084281A Active JP4760471B2 (ja) 2006-03-24 2006-03-24 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム

Country Status (1)

Country Link
JP (1) JP4760471B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5471858B2 (ja) * 2009-07-02 2014-04-16 ヤマハ株式会社 歌唱合成用データベース生成装置、およびピッチカーブ生成装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002268660A (ja) * 2001-03-13 2002-09-20 Japan Science & Technology Corp テキスト音声合成方法および装置

Also Published As

Publication number Publication date
JP2007256866A (ja) 2007-10-04

Similar Documents

Publication Publication Date Title
US8338687B2 (en) Apparatus and method for creating singing synthesizing database, and pitch curve generation apparatus and method
US8423367B2 (en) Apparatus and method for creating singing synthesizing database, and pitch curve generation apparatus and method
JP4328698B2 (ja) 素片セット作成方法および装置
TWI471854B (zh) 引導式語者調適語音合成的系統與方法及電腦程式產品
US20120143611A1 (en) Trajectory Tiling Approach for Text-to-Speech
JP4038211B2 (ja) 音声合成装置,音声合成方法および音声合成システム
JP2008203543A (ja) 声質変換装置及び音声合成装置
JP2007140002A (ja) 音声合成装置,音声合成方法,およびコンピュータプログラム
CN101131818A (zh) 语音合成装置与方法
CN105609097A (zh) 语音合成装置及其控制方法
CN112037754A (zh) 一种语音合成训练数据的生成方法及相关设备
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JP5326546B2 (ja) 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム
JP4247289B1 (ja) 音声合成装置、音声合成方法およびそのプログラム
JP4760471B2 (ja) 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム
JPH08248994A (ja) 声質変換音声合成装置
JP5376643B2 (ja) 音声合成装置、方法およびプログラム
JP3281281B2 (ja) 音声合成方法及び装置
JP2536169B2 (ja) 規則型音声合成装置
JP5054632B2 (ja) 音声合成装置及び音声合成プログラム
JP4929896B2 (ja) 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム
JP3091426B2 (ja) 自然発話音声波形信号接続型音声合成装置
JPH0944191A (ja) 音声合成装置
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110325

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110523

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140617

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4760471

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150