JP4760471B2

JP4760471B2 - 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム

Info

Publication number: JP4760471B2
Application number: JP2006084281A
Authority: JP
Inventors: 勝彦佐藤
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2006-03-24
Filing date: 2006-03-24
Publication date: 2011-08-31
Anticipated expiration: 2026-03-24
Also published as: JP2007256866A

Description

本発明は、音声合成に用いるデータベースを構築する、音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラムに関する。

音声認識及び音声合成技術として隠れマルコフモデル（以下、ＨＭＭと称呼する。）に基づいた音声認識技術及び音声合成技術が、広く利用されている。

ＨＭＭに基づいた音声認識技術及び音声合成技術は、例えば、特許文献１及び２に開示されている。

特開２００２−２４４６８９号公報特開２００２−２６８６６０号公報

ＨＭＭに基づいた音声合成においては、音素ラベルとスペクトルパラメータデータ列等の対応関係を記録した音声合成辞書が必要になる。

音声合成辞書は、通例、音素ラベル列とそれに対応する音声データとの組から構成されているデータベース（以下、音声データベースと称呼する。）に記録されているデータについて、スペクトル分析とピッチ抽出をし、ＨＭＭに基づく学習過程を経ることにより、構築される。

従来は、音声合成辞書を構築する際、音声データから抽出されたピッチを、特に加工等を施すことなく、そのままＨＭＭに基づく学習に用いて、音声合成辞書を構築していた。

しかしながら、そのように構築された音声合成辞書を用いて生成された合成音声のピッチ変動は、元の音声のピッチ変動に比べて小さい。

このため、従来の音声合成辞書構築装置により構築された音声合成辞書を用いた合成音声は、人間の自然な音声に比べて、平坦な印象を与える不自然なものとなっていた。

本発明は、上記実情に鑑みてなされたもので、自然な印象を与える音声を合成することができる音声合成辞書を構築可能とする音声合成辞書構築装置及び音声合成辞書構築方法を提供することを目的とする。

本発明は、高品質のテキスト音声合成を可能とする音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラムを提供することを目的とする。

この発明に係る音声合成辞書構築装置は、
音素ラベル列とそれに対応する音声データとを受信する受信部と、
前記受信部で受信した音声データからピッチデータ列を抽出するピッチデータ列抽出部と、
抽出されたピッチデータ列において、ピッチデータ列内でのピッチデータが表すピッチについて、所定の基準ピッチを中心にしてピッチを拡大するように編集し、編集済ピッチデータ列を生成するピッチ編集部と、
前記音素ラベル列と編集済ピッチデータ列とから、隠れマルコフモデルに基づく学習により各音素ラベルに音素ピッチ情報を対応させる音素ＨＭＭ学習部と、
学習結果を音声合成辞書に記録するデータ書き出し部と、
を備えることを特徴とする。

また本発明に係る音声合成辞書構築方法は、
データベースから、音素ラベル列とそれに対応する音声データとを受信する受信ステップと、
前記受信ステップで受信した音声データからピッチデータ列を抽出するピッチデータ列抽出ステップと、
前記ピッチデータ列抽出ステップで抽出されたピッチデータ列において、ピッチデータ列内でのピッチデータが表すピッチについて、所定の基準ピッチを中心にしてピッチを拡大するように編集し、編集済ピッチデータ列を生成するピッチ編集ステップと、
前記音素ラベル列と編集済ピッチデータ列とから、隠れマルコフモデルに基づく学習により各音素ラベルに音素ピッチ情報を対応させる音素ＨＭＭ学習ステップと、
学習結果を出力する出力ステップと、
から構成される音声合成辞書構築方法である。

また本発明に係るコンピュータプログラムは、
コンピュータに、
データベースから、音素ラベル列とそれに対応する音声データとを受信する受信ステップと、
前記受信ステップで受信した音声データからピッチデータ列を抽出するピッチデータ列抽出ステップと、
ピッチデータ列抽出ステップで抽出されたピッチデータ列において、ピッチデータ列内でのピッチデータが表すピッチについて、所定の基準ピッチを中心にしてピッチを拡大するように編集し、編集済ピッチデータ列を生成するピッチ編集ステップと、
前記音素ラベル列と編集済ピッチデータ列とから、隠れマルコフモデルに基づく学習により各音素ラベルに音素ピッチ情報を対応させる音素ＨＭＭ学習ステップと、
学習結果を出力する出力ステップと、
を実行させるコンピュータプログラムである。

本発明によれば、音声データから抽出されたピッチデータ列を、所定の基準ピッチを中心にしてピッチを拡大してから音声合成辞書の学習に用いる。このため、当該音声合成辞書を利用して得られる合成音声を、ピッチ変動の大きな、自然な音声により近いという点で、高品質なものとすることができる。

以下、本発明の実施の形態に係る音声合成辞書構築装置について詳細に説明する。

（実施形態１）

まず、本実施形態に係る音声合成辞書構築装置の構成を説明する。

図１は、本実施形態に係る音声合成辞書構築装置１１の機能構成図である。

音声合成辞書構築装置１１は、図示するように、データ取り出し部１３と、ピッチデータ列抽出部１５と、ピッチ編集部１７と、音素ＨＭＭ学習部１９と、データ書き出し部２１と、を備える。

音声合成辞書構築装置１１は、図１に示すように、音声データベース２３と音声合成辞書２５に接続される。音声データベース２３は、音素ラベル列とそれに対応する音声データとの組から構成されているデータベースであり、ハードディスク等に記憶されている。

音声合成辞書２５は、音声合成辞書構築装置１１によって構築されたデータベースであり、音素ラベルと音素学習結果とを対応させて記憶しており、ハードディスク等に記憶されている。

前記音素学習結果は、音素ピッチ情報を含む。音声合成に必要な他のスペクトル情報は、音声合成装置の仕様により様々であり、前記音素学習結果には、かかる様々な情報も含まれるものとする。

音声合成辞書構築装置１１のデータ取り出し部１３は、音声データベース２３からデータを読み込み、音素ラベル列と音声データとに分離する。

音素ラベル列は音素ＨＭＭ学習部１９に引き渡され、音声データは、ピッチデータ列抽出部１５に引き渡される。

ピッチデータ列抽出部１５は、データ取り出し部１３から引き渡された音声データから、所定のピッチデータ列を抽出し、ピッチ編集部１７に引き渡す。

ピッチ編集部１７は、ピッチデータ列抽出部１５から引き渡されたピッチデータ列に対し、所定の編集処理を施す。

所定の編集処理とは、ピッチデータ列内でのピッチの変動を拡大する処理のことである。この所定の編集処理の詳細については、図３及び図４を参照して後述する。

編集済みピッチデータ列は、音素ＨＭＭ学習部１９に引き渡される。

音素ＨＭＭ学習部１９は、音素ラベル列と編集済みピッチデータ列の対応関係を、ＨＭＭに基づく学習により、音素ラベルと音素ピッチ情報の対応関係に変換し、当該対応関係を、データ書き出し部２１に引き渡す。

データ書き出し部２１は、音素ラベルと音素ピッチ情報の対応関係を音声合成辞書２５に記録する。

図１に示す音声合成辞書構築装置１１は、物理的には、図２に示すような一般的なコンピュータ装置３１により、構成される。ユーザインタフェース（以下、Ｉ／Ｆと書く。）３９、ＣＰＵ３３、ＲＯＭ３５、記憶部３７、データ入出力Ｉ／Ｆ４３は、バス４９で相互に接続されている。

ＲＯＭ３５は、ＨＭＭに基づいた学習のための動作プログラム、特に、この実施の形態においては、ピッチを拡大する編集動作を含む動作プログラムを記憶する。

記憶部３７は、ＲＡＭ４５やハードディスク４７から構成されて、学習のための定数、音素ラベル列、音声データ、ピッチデータ列、音素ラベルと音素ピッチ情報を対応付けたもの、を記憶する。

データ入出力Ｉ／Ｆ４３は、元データ入りハードディスク５５等及び処理済データ記録用ハードディスク５７等に接続するためのインタフェースである。

データ入出力Ｉ／Ｆ４３は、図１に示す音声データベース２３に接続され、図２に示すＣＰＵ３３の制御下に、学習対象の音素ラベル列と音声データの対を読み出してきて、記憶部３７に格納する。

データ入出力Ｉ／Ｆ４３は、図１に示す音声合成辞書２５に接続され、図２に示すＣＰＵ３３による処理の結果である、音素ラベルと音素ピッチ情報の対応関係を、図１に示す音声合成辞書２５に出力する。

図２に示すユーザＩ／Ｆ３９は、キーボード５１と、モニタ５３と、から構成され、任意の指示、データ及びプログラムを入力するために設けられている。特に、ピッチ編集処理においては、ユーザが該Ｉ／Ｆを介して、各種定数を与える必要がある。

ＣＰＵ３３は、ＲＯＭ３５に格納された動作プログラムを実行することにより、合成辞書生成動作を実行する。

図１に示すように、本実施形態に係る音声合成辞書構築装置１１の特徴は、ピッチ編集部１７において各ピッチデータ列内でのピッチの変動を拡大する所定の編集処理を行うことである。

ピッチ編集部１７が実行する所定の編集処理は、ピッチ変動を強調する処理であれば、いかなる処理でもよいが、以下に、編集処理の好適な具体例について説明する。

なお、以下の説明では、フレームとは、ピッチ抽出のために用いられる時間区分を意味し、記号ｆｍで表す。

（編集処理の具体例１）

図３に示すフローチャートを参照して、編集処理の具体例１を説明する。

本具体例においては、あらかじめ、ユーザが、ピッチの基準値Ｃ及び後述の重み係数αを、図２のユーザＩ／Ｆ３９を介して、記憶部３７に設定しておくものとする（ステップ２３）。

図１に示すように、音声合成辞書構築装置１１により音声合成辞書２５を構築する際には、音声合成辞書構築装置１１には、音声データベース２３と、例えば、空状態の音声合成辞書２５が接続される。

音声合成辞書２５生成の開始の指示が図２のユーザＩ／Ｆ３９からされると、図１のデータ取り出し部１３は、音声データベース２３から、
音素ラベル列と音声データＳｐ_ｍ（但し、１≦ｍ≦Ｎ_ＳＰであり、Ｎ_ＳＰは音声データベースのデータ数である。）の対を順次読み出し、図２の記憶部３７に記憶する。

図１のピッチデータ列抽出部１５は、音声データＳｐ_ｍからピッチデータ列Ｐｉｔ_ｍ［ｆｍ］（但し、０≦ｆｍ≦Ｎ_ｆｍ［ｍ］であり、Ｎ_ｆｍ［ｍ］は音声データＳｐ_ｍについてのフレーム数である。）を抽出し、図２の記憶部３７に記憶する（図３のステップＳ１１）。

音声データを識別するための番号を指定するポインタｍを１に初期化する（ステップＳ１３）。

各ｍについて、ピッチデータ列Ｐｉｔ_ｍ［ｆｍ］（但し、０≦ｆｍ≦Ｎ_ｆｍ［ｍ］である。）を図２の記憶部３７から読み出す（ステップＳ１５）。

ｍ番目のピッチデータ列についての、フレームの番号を示すポインタｆｍを０に初期化する（ステップＳ１７）。

ピッチデータＰｉｔ_ｍ［ｆｍ］に着目し（ステップＳ１９）、処置対象のフレームｆｍが有声音・無声音のいずれであるかを判別する（ステップＳ２１）。

ステップＳ２１で有声音であると判別された場合、Ｐｉｔ_ｍ［ｆｍ］に対して、
ＥｄＰｉｔ_ｍ［ｆｍ］＝（Ｐｉｔ_ｍ［ｆｍ］−Ｃ）×α＋Ｃ
（但し、Ｃは所定の基準値、αは所定の重み係数とする。）
とする編集処理を施す（ステップＳ２５）。

なお、前記したとおり、基準値Ｃ及び重み係数αは、ユーザが、図２のユーザＩ／Ｆ３９を介して、設定すべきものである（ステップＳ２３）。

ステップＳ２１で無声音であると判別された場合、Ｐｉｔ_ｍ［ｆｍ］に対して、
ＥｄＰｉｔ_ｍ［ｆｍ］＝Ｐｉｔ_ｍ［ｆｍ］
とする（ステップＳ２７）。

ステップＳ２５またはステップＳ２７により算出されたＥｄＰｉｔ_ｍ［ｆｍ］は、図２の記憶部３７に記憶される（ステップＳ２９）。

全てのｆｍについて処理が完了したか否かを判別する（ステップＳ３１）。

当該処理が完了したと判別された場合は、全てのｍについて処理が完了したか否かを判別する（ステップＳ３３）。

ステップＳ３１にて、全てのｆｍについての処理が完了してはいないと判別された場合には、ｆｍを１だけインクリメントして、ステップＳ１９に戻る。

全てのｍについて処理が完了したか否かを判別（ステップＳ３３）した結果、完了したと判別された場合には、処理を終了する。

全てのｍについての処理が完了してはいないと判別された場合には、ｍを１だけインクリメントして、ステップＳ１５に戻る。

以上の処理により、図１の音声データベース２３から取り出し得る全てのＥｄＰｉｔ_ｍ［ｆｍ］は、図２の記憶部３７に記憶される。当該ＥｄＰｉｔ_ｍ［ｆｍ］は、図１の音素ＨＭＭ学習部１９にて使用される。

本具体例では、図１に示す音素ＨＭＭ学習部１９にて使用されるピッチデータ列を、あらかじめピッチ編集部１７にてピッチ変動の強調されたピッチデータ列とすることにより、より自然な合成音声を合成するのに資する音声合成辞書の構築が達成できる。

（編集処理の具体例２）

図４に示すフローチャートを参照して、編集処理の具体例２を説明する。

具体例１では、基準値Ｃをユーザ自身で設定する必要があったが、適切な値を事前に知ることが困難な場合もある。

そこで、本具体例においては、ユーザがあらかじめ設定しなければならない値を重み係数αのみとしてユーザの負担を軽減し、基準値Ｃについては、ピッチデータ列Ｐｉｔ_ｍ［ｆｍ］毎にピッチデータＰｉｔ_ｍ［０］、Ｐｉｔ_ｍ［１］、…、Ｐｉｔ_ｍ［Ｎ_ｆｍ［ｍ］］の平均値Ａｖｅ_ｍを算出してこれを基準値Ｃとすることとする。

ただし、前記平均値Ａｖｅ_ｍの算出にあたっては、有声音に対応するフレームに属するピッチデータの値のみが用いられる。

本具体例の動作の流れは、基本的には、図４に示すとおり、図３を用いて説明した具体例１と同様である。

そこで、図４においては、図３と同一の処理を行うステップには、同一の符号を付してある。

本具体例が具体例１と異なる主な点は、図４を図３と比較すれば明らかなように、有声音・無声音判別分岐ステップ（ステップＳ５５）とｆｍ走査ループ（ステップＳ５３、Ｓ５５、Ｓ５７及びＳ５９）が付加されている点である。

かかる付加が必要になるのは、基準値Ｃとして用いる平均値Ａｖｅ_ｍは、有声音のフレームに属するピッチデータのみの平均値であるため、かかるピッチデータのみを取り出すための有声音・無声音判別（ステップＳ５５）が必要になるためと、かかる取り出し作業を全てのｆｍについて行った後でないと、平均値Ａｖｅ_ｍの算出（ステップＳ６１）ができないためである。

なお、図２の記憶部３７には、図４のステップＳ５７に示すように、平均値Ａｖｅ_ｍの算出のために取り出されたピッチデータを蓄えておくためにテンポラリデータＶＰｉｔ_ｍ［ｆｍ］が用意される。

そして、平均値Ａｖｅ_ｍは、該テンポラリデータＶＰｉｔ_ｍ［ｆｍ］の平均値として算出される。これにより、ピッチデータ列Ｐｉｔ_ｍ［ｆｍ］の有声音におけるピッチデータの平均値であるＡｖｅ_ｍが求まったことになる。

本実施例においても、実施例１と同様に、編集処理には、各フレームが有声音に対応しているか、それとも無声音に対応しているか、を判別し、当該判別結果に基づき、条件分岐をするステップ（ステップＳ２１）が含まれる。

ステップＳ２１にて無声音であると判別された場合には、具体例１と同じく、ＥｄＰｉｔ_ｍ［ｆｍ］＝Ｐｉｔ_ｍ［ｆｍ］とする（ステップＳ２７）。

ステップＳ２１にて有声音であると判別された場合は、具体例１とは異なり、
ＥｄＰｉｔ_ｍ［ｆｍ］＝（Ｐｉｔ_ｍ［ｆｍ］−Ａｖｅ_ｍ）×α＋Ａｖｅ_ｍ
とする（ステップＳ７３）。

ここで、前記したとおり、重み係数αは、ユーザが、図２のユーザＩ／Ｆ３９を介して、設定すべきものである（ステップＳ７１）。

一方、Ａｖｅ_ｍは、前記のとおりピッチデータ列から自動的に算出されるものであるため、ユーザが設定する必要はない。

このように、本具体例によれば、自然な合成音声の出力に資する音声合成辞書構築装置であって、ユーザが使いやすい装置を提供することができる。

（編集処理の具体例３）

具体例２では、ユーザが、重み係数として単一のαを設定することとしていたが、条件に応じてαの値を使い分けたほうが、より適切な音声合成辞書を構築できる場合もあり得る。

本具体例では、ユーザが設定する重み係数として、α_１とα_２の２種類を設ける。そして、具体例２と同様に基準値Ｃを平均値Ａｖｅ_ｍとしつつ、ピッチデータの値がＡｖｅ_ｍ以上の場合には、重み係数としてα_１を用い、ピッチデータの値がＡｖｅ_ｍより小さい場合には、重み係数としてα_２を用いる。

すなわち、ｆｍが有声音に対応するフレームの場合は、
Ｐｉｔ_ｍ［ｆｍ］≧Ａｖｅ_ｍのときは、
ＥｄＰｉｔ_ｍ［ｆｍ］＝（Ｐｉｔ_ｍ［ｆｍ］−Ａｖｅ_ｍ）×α_１＋Ａｖｅ_ｍとし、
Ｐｉｔ_ｍ［ｆｍ］＜Ａｖｅ_ｍのときは、
ＥｄＰｉｔ_ｍ［ｆｍ］＝（Ｐｉｔ_ｍ［ｆｍ］−Ａｖｅ_ｍ）×α_２＋Ａｖｅ_ｍとし、
ｆｍが無声音に対応するフレームの場合は、
ＥｄＰｉｔ_ｍ［ｆｍ］＝Ｐｉｔ_ｍ［ｆｍ］とする。

本具体例におけるピッチ編集処理の動作は、基本的には、具体例２と同様に、図４で示される動作である。相違点は、ユーザが、図２のユーザＩ／Ｆ３９を介して、重み係数として２種類の値α_１、α_２を設定することである。

（編集処理の具体例４）

具体例３では、重み係数を２種類設定し、それぞれをピッチデータが平均値Ａｖｅ_ｍを上回る場合と下回る場合とに対応させた。これに対し、本実施例では、２種類の重み係数を、それぞれ、ピッチデータが平均値を大幅に逸脱した場合のピッチ変動の強調の程度と、さほど逸脱していない場合の強調の程度とに対応させる。

すなわち、α_３及びα_４を重み定数、εを任意の閾値として、フレームｆｍが有声音に対応している場合、
｜Ｐｉｔ_ｍ［ｆｍ］−Ａｖｅ_ｍ｜≧εのときは、
ＥｄＰｉｔ_ｍ［ｆｍ］＝（Ｐｉｔ_ｍ［ｆｍ］−Ａｖｅ_ｍ）×α_３＋Ａｖｅ_ｍ
とし、
｜Ｐｉｔ_ｍ［ｆｍ］−Ａｖｅ_ｍ｜＜εのときは、
ＥｄＰｉｔ_ｍ［ｆｍ］＝（Ｐｉｔ_ｍ［ｆｍ］−Ａｖｅ_ｍ）×α_４＋Ａｖｅ_ｍ
とし、
当該フレームが無声音の場合は、
ＥｄＰｉｔ_ｍ［ｆｍ］＝Ｐｉｔ_ｍ［ｆｍ］とする。

本具体例におけるピッチ編集処理の動作は、基本的には、具体例２と同様に、図４で示される動作である。相違点は、ユーザが、図２のユーザＩ／Ｆ３９を介して、重み係数として２種類の値α_３、α_４を設定することと、閾値εを設定することである。

なお、編集処理の具体例として以上のように４例示したが、編集処理はこれらに限定されるものではない。ピッチデータの変動を、ある基準値を中心に顕著化するものであれば、いかなるものでもよい。上記具体例３及び４において、敢えて平均値Ａｖｅ_ｍのかわりに具体例１と同様にユーザの設定した基準値Ｃを用いることや、基準値Ｃを単一の値とせず、ユーザが状況に応じて、ｍ毎かつｆｍ毎に異なる値とすることなど、様々なバリエーションが考えられる。

以上では理解を容易にするため、図１の音声データベース２３から、データを、データ取り出し部１３により図２に示す記憶部３７に一旦全部読み込む例を示したが、かかる一括処理は本実施形態の本質的要件ではない。例えば、図１に示す音素ＨＭＭ学習部１９の仕様次第では、より動的に音声合成辞書を構築することも考えられる。

（実施形態２）

実施形態１においては、音声合成辞書構築装置１１により音素ラベルと音素ピッチ情報とを対応付けた。この発明はこれに限定されず、音素ラベルと音素ピッチ情報及び音素スペクトルパラメータ情報とを対応付ける場合にも適用可能である。
以下、音素ラベルと音素ピッチ情報及び音素スペクトルパラメータ情報とを対応付けて音声合成辞書に書き出す音声合成辞書構築装置７１について説明する。

本実施形態に係る音声合成辞書構築装置７１は、図５に示すように、データ取り出し部１３と、ピッチデータ列抽出部１５と、ピッチ編集部１７と、を備える。これらの各部は、実施形態１に係る音声合成辞書構築装置１１の対応する各部と同一の構成と機能を有する。

音声合成辞書構築装置７１は、さらに、スペクトル分析部７３と、音素ＨＭＭ学習部７５と、データ書き出し部７７と、を備える。

スペクトル分析部７３は、データ取り出し部１３により取り出された音声データをスペクトル分析してスペクトルパラメータデータ列（例えば、隠れマルコフモデルに基づきフレーム毎に生成された多次元のＬＳＰ係数から成るＬＳＰ（ＬｉｎｅＳｐｅｃｔｒｕｍＰａｉｒ）係数群の時系列データ）を生成する。

音素ＨＭＭ学習部７５は、音素ラベル列と対応する編集済みピッチデータ列の対応関係を、ＨＭＭに基づいて学習することにより、音素ラベルと音素ピッチ情報との対応関係を示す情報に変換し、データ書き出し部７７に引き渡す。さらに、音素ＨＭＭ学習部７５は、音素ラベル列とスペクトルパラメータデータ列（例えば、ＬＳＰ係数群の時系列データ）との対応関係を、ＨＭＭに基づいて学習し、音素ラベルと音素スペクトルパラメータ情報との対応関係を示す情報に変換し、データ書き出し部７７に引き渡す。

データ書き出し部７７は、音素ラベルと音素ピッチ情報の対応関係、及び、音素ラベルと音素スペクトルパラメータ情報の対応関係を、音声合成辞書２５に書き出す。

このようにして構築された音声合成辞書２５を用いることにより、音素ラベル毎に音素ピッチ情報と音素スペクトルパラメータ情報とを用いて、高品質な音声を合成することができる。

なお、この発明は、上記実施形態に限定されず、種々の変形及び応用が可能である。

例えば、上述のハードウエア構成やブロック構成、フローチャートは例示であって、限定されるものでもない。

また、この発明は、音声合成辞書構築装置に限定されるものではなく、任意のコンピュータを用いて構築可能である。例えば、上述の処理をコンピュータに実行されるためのコンピュータプログラムを記録媒体や通信により配布し、これをコンピュータにインストールして実行させることにより、この発明の音声合成辞書構築装置として機能させることも可能である。

実施形態１に係る、ピッチ編集部を備えた音声合成辞書構築装置の機能構成図である。実施形態１に係る音声合成辞書構築装置の物理的な構成を示す図である。ピッチ編集処理の具体例１における動作の流れを示す図である。ピッチ編集処理の具体例２における動作の流れを示す図である。実施形態２に係る、スペクトル分析部を備えた音声合成辞書構築装置の機能構成図である。

符号の説明

１１・・・実施形態１に係る音声合成辞書構築装置、１３・・・データ取り出し部、１５・・・ピッチデータ列抽出部、１７・・・ピッチ編集部、１９・・・音素ＨＭＭ学習部、２１・・・データ書き出し部、２３・・・音声データベース、２５・・・音声合成辞書、３１・・・コンピュータ装置、３３・・・ＣＰＵ、３５・・・ＲＯＭ、３７・・・記憶部、３９・・・ユーザＩ／Ｆ、４３・・・データ入出力Ｉ／Ｆ、４５・・・ＲＡＭ、４７・・・ハードディスク、４９・・・バス、５１・・・キーボード、５３・・・モニタ、５５・・・元データ入りハードディスク、５７・・・処理済データ記録用ハードディスク、７１・・・音声合成辞書構築装置、７３・・・スペクトル分析部、７５・・・音素ＨＭＭ学習部、７７・・・データ書き出し部

Claims

音素ラベル列とそれに対応する音声データとを受信する受信部と、
前記受信部で受信した音声データからピッチデータ列を抽出するピッチデータ列抽出部と、
抽出されたピッチデータ列において、ピッチデータ列内でのピッチデータが表すピッチについて、所定の基準ピッチを中心にしてピッチを拡大するように編集し、編集済ピッチデータ列を生成するピッチ編集部と、
前記音素ラベル列と編集済ピッチデータ列とから、隠れマルコフモデルに基づく学習により各音素ラベルに音素ピッチ情報を対応させる音素ＨＭＭ学習部と、
学習結果を音声合成辞書に記録するデータ書き出し部と、
を備えることを特徴とする音声合成辞書構築装置。
前記所定の基準ピッチは、ピッチの平均値である、ことを特徴とする請求項１に記載の音声合成辞書構築装置。
データベースから、音素ラベル列とそれに対応する音声データとを受信する受信ステップと、
前記受信ステップで受信した音声データからピッチデータ列を抽出するピッチデータ列抽出ステップと、
前記ピッチデータ列抽出ステップで抽出されたピッチデータ列において、ピッチデータ列内でのピッチデータが表すピッチについて、所定の基準ピッチを中心にしてピッチを拡大するように編集し、編集済ピッチデータ列を生成するピッチ編集ステップと、
前記音素ラベル列と編集済ピッチデータ列とから、隠れマルコフモデルに基づく学習により各音素ラベルに音素ピッチ情報を対応させる音素ＨＭＭ学習ステップと、
学習結果を出力する出力ステップと、
から構成される音声合成辞書構築方法。
コンピュータに、
データベースから、音素ラベル列とそれに対応する音声データとを受信する受信ステップと、
前記受信ステップで受信した音声データからピッチデータ列を抽出するピッチデータ列抽出ステップと、
ピッチデータ列抽出ステップで抽出されたピッチデータ列において、ピッチデータ列内でのピッチデータが表すピッチについて、所定の基準ピッチを中心にしてピッチを拡大するように編集し、編集済ピッチデータ列を生成するピッチ編集ステップと、
前記音素ラベル列と編集済ピッチデータ列とから、隠れマルコフモデルに基づく学習により各音素ラベルに音素ピッチ情報を対応させる音素ＨＭＭ学習ステップと、
学習結果を出力する出力ステップと、
を実行させるコンピュータプログラム。