JP7033478B2

JP7033478B2 - 音声合成装置、音声モデル学習装置およびそれらのプログラム

Info

Publication number: JP7033478B2
Application number: JP2018066484A
Authority: JP
Inventors: 清栗原; 正熊野; 信正清山; 篤今井; 徹都木
Original assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Current assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2022-03-10
Anticipated expiration: 2038-03-30
Also published as: JP2019179064A

Description

本発明は、抑揚にメリハリのついた音声を生成する音声合成装置、音声モデル学習装置およびそれらのプログラムに関する。

近年、スポーツ競技のスコア、ゴール、反則等の進行状態を示す競技データから、音声による解説（音声ガイド）を生成する技術開発が進められている（非特許文献１参照）。
この手法は、スコア等の進行によって変化する情報をパラメータとする定型文のパラメータを、競技データで補うことで、競技の進行を案内するテキストを生成し、音声合成により音声ガイドを生成する。
この競技データから音声ガイドを生成することで、例えば、視覚障害者が、テレビのスポーツ中継をより楽しむことができたり、インターネットで配信されるスポーツ競技映像に音声による解説を付加したりすることが可能になる。

また、近年、統計モデルを用いた音声合成技術が進歩している。例えば、ディープニューラルネットワーク（Deep Neural Network：ＤＮＮ）を用いて、話者の特徴や感情表現を学習し、テキストから、話者や感情を制御した音声合成を行う技術が開示されている（非特許文献２，３参照）。これによって、表現の豊かな音声合成が可能になる。

K.Kurihara et al，"AUTOMATIC GENERATIONOF AUDIO DESCRIPTIONS FOR SPORTS PROGRAMS"，International Broadcasting Convention [IBC 2017] Conference，Sep 2017 栗原，清山，今井，都木，"話者の特徴と感情表現を制御可能なＤＮＮ音声合成方式の検討"，電子情報通信学会総合大会，D-14-10，p.150（2017）北条，井島，宮崎，"話者コードを用いたＤＮＮ音声合成の検討"，日本音響学会講演論文集，pp.215-218，Sep 2015

従来の競技データから音声ガイドを生成する手法を用いることで、競技の進行を音声で案内することが可能になる。しかし、従来の手法は、単にテキストを音声合成するため、合成音声は抑揚にメリハリのない音声となり、意図を表現することができないという問題がある。
また、従来の話者や感情を制御した音声合成を行う手法を用いて、音声ガイドを生成したとしても、テキスト全体に対して話者や感情を制御することしかできないため、テキストの途中で音声を強調する等の制御を行うことはできない。そのため、この手法を用いて、競技データから音声ガイドを生成することとしても、音声の抑揚にメリハリをつけることはできず、意図を表現することができないという問題を解決することはできない。

本発明は、このような問題に鑑みてなされたものであり、競技データから、抑揚にメリハリのついた音声を生成することが可能な音声合成装置、音声モデル学習装置およびそれらのプログラムを提供することを課題とする。

前記課題を解決するため、本発明に係る音声合成装置は、ディープニューラルネットワークにより、音素ごとの言語特徴量と前記音素に対する強調の有無を示す強調情報とを入力し、前記音素の時間長を出力する予め学習された時間長モデルと、前記音素のフレームごとの言語特徴量と前記フレームの強調の有無を示す強調情報とを入力し、前記フレームの音響特徴量を出力する予め学習された音響特徴量モデルとを用いて、競技データから競技内容の音声を合成する音声合成装置であって、テキスト生成手段と、音素言語特徴量生成手段と、時間長演算手段と、フレーム言語特徴量生成手段と、音響特徴量演算手段と、合成手段と、を備える構成とした。

かかる構成において、音声合成装置は、テキスト生成手段によって、競技データに対して強調箇所を予め定めたテキストのテンプレートを用いて、競技データから強調箇所を示したテキストを生成する。
そして、音声合成装置は、音素言語特徴量生成手段によって、テキスト生成手段で生成されたテキストに対して、形態素解析、韻律推定等の解析を行うことで、音素ごとの言語特徴量と音素に対する強調情報とを生成する。
そして、音声合成装置は、時間長演算手段によって、音素言語特徴量生成手段で生成された音素の言語特徴量と強調情報とを、時間長モデルの入力として演算することで、音素の時間長を生成する。

また、音声合成装置は、フレーム言語特徴量生成手段によって、時間長演算手段で生成された音素の時間長と、音素言語特徴量生成手段で生成された音素の言語特徴量とから、音素のフレームごとの言語特徴量を生成し、フレームに対応する音素の強調情報と対応付ける。これによって、音素の時間長の区間を構成するフレームごとの言語特徴量と強調情報とが対応付けられる。
そして、音声合成装置は、音響特徴量演算手段によって、フレーム言語特徴量生成手段で生成されたフレームの言語特徴量とフレームに対応する強調情報とを、音響特徴量モデルの入力として演算することで、フレームごとの音響特徴量を生成する。

さらに、音声合成装置は、合成手段によって、音響特徴量演算手段で生成されたフレームごとの音響特徴量により音声合成を行う。
これによって、音声合成装置は、予め強調音声の特徴を学習した音響特徴量モデルにより、テキスト中の強調箇所を強調した合成音声を生成することができる。

また、前記課題を解決するため、本発明に係る音声モデル学習装置は、テキストと、前記テキストを強調して発話した音声および強調せずに発話した音声とを用いて、音声合成装置で使用するディープニューラルネットワークの時間長モデルおよび音響特徴量モデルを学習する音声モデル学習装置であって、音素言語特徴量生成手段と、音素区切り手段と、時間長モデル学習手段と、フレーム言語特徴量生成手段と、音響特徴量生成手段と、音響特徴量モデル学習手段と、を備える構成とした。

かかる構成において、音声モデル学習装置は、音素言語特徴量生成手段によって、テキストに対して、形態素解析、韻律推定等の解析を行うとともに、テキストが強調した音声に対応したものか否かにより、音素ごとの言語特徴量と音素に対する強調の有無を示す強調情報とを生成する。
そして、音声モデル学習装置は、音素区切り手段によって、テキストに対応する音声から、音素ごとの区切りを検出し、音素の時間長を特定する。
そして、音声モデル学習装置は、時間長モデル学習手段によって、音素言語特徴量生成手段で生成された音素の言語特徴量と強調情報とを入力し、音素区切り手段で特定された音素の時間長を出力するように時間長モデルを学習する。

また、音声モデル学習装置は、フレーム言語特徴量生成手段によって、音素区切り手段で特定された音素の時間長と、音素言語特徴量生成手段で生成された音素の言語特徴量とから、音素のフレームごとの言語特徴量を生成し、フレームに対応する音素の強調情報と対応付ける。
そして、音声モデル学習装置は、音響特徴量生成手段によって、音素区切り手段で検出された音素の区切りに基づいて、テキストに対応する音声から音素の時間長の区間を構成するフレームごとの音響特徴量を生成する。
そして、音声モデル学習装置は、音響特徴量モデル学習手段によって、フレーム言語特徴量生成手段で生成されたフレームの言語特徴量と強調情報とを入力し、音響特徴量生成手段で生成された音響特徴量を出力するように音響特徴量モデルを学習する。
これによって、音声モデル学習装置は、テキストが同一であっても、強調情報によって異なる音素の時間長および音響特徴量を学習するモデルを生成することができる。

なお、音声合成装置は、コンピュータを、音声合成装置の各手段として機能させるための音声合成プログラムで動作させることができる。
また、音声モデル学習装置は、コンピュータを、音声モデル学習装置の各手段として機能させるための音声モデル学習プログラムで動作させることができる。

本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、競技データから、強調すべき箇所を特定したテキストを生成し、当該個所を強調した合成音声を生成することができる。
これによって、本発明は、競技データから、抑揚にメリハリがつき、意図を表現可能な音声を生成することができる。

本発明の実施形態に係る音声合成装置の構成を示すブロック構成図である。図１の事前学習部の構成を示すブロック構成図である。図１の合成処理部の構成を示すブロック構成図である。時間長モデルの構成例を説明するためのネットワーク構成図である。音響特徴モデルの構成例を説明するためのネットワーク構成図である。競技データの一例を説明するための図であって、（ａ）は出場選手、（ｂ）は競技で発生するイベントを示す。競技データをテキストに変換するためのテンプレートを示す図であって、（ａ）は固定的に強調タグを挿入した例を示す図、（ｂ）は条件によって強調タグを挿入する例を示す図である。テンプレートを用いて変換した発話スタイル付きテキストの例を示す図であって、（ａ）は強調タグを挿入した例を示す図、（ｂ）は強調タグを挿入しない例を示す図である。発話スタイルを特定した合成音声の出力例を示す図であって、（ａ）は発話スタイルを設定していない場合の声の高さを示し、（ｂ）は発話スタイルを設定した場合の声の高さを示す。本発明の実施形態に係る音声合成装置の事前学習部の動作を示すフローチャートである。本発明の実施形態に係る音声合成装置の合成処理部の動作を示すフローチャートである。

以下、本発明の実施形態について図面を参照して説明する。
〔音声合成装置の概要〕
図１を参照して、本発明の実施形態に係る音声合成装置１の概要について説明する。

音声合成装置１は、スポーツ等の進行状態を示す競技データから、音声（合成音声）を生成するものである。
音声合成装置１は、事前学習段階として、コーパス記憶装置５に記憶した学習データであるコーパスから、テキストを音声に変換するための音声モデルをディープニューラルネットワーク（以下、ＤＮＮという）により学習する。
コーパスは、強調音声コーパスと通常音声コーパスとがある。
強調音声コーパスは、テキストと、当該テキストを強調して発話した音声（強調音声）とを対とした学習データである。
通常音声コーパスは、テキストと、当該テキストを通常（強調せず）に発話した音声（通常音声）とを対とした学習データである。

音声合成装置１は、合成処理段階として、学習した音声モデルを用いて、競技データから、競技の進行を解説した音声を生成する。
競技データは、競技の進行状況を示すデータである。この競技データは、例えば、ＯＢＳ（Olympic Broadcasting Services）等の競技大会における公式のデータセンタから実時間で配信されるデータを用いることができる。音声合成装置１は、順次更新される競技データを入力する。

音声合成装置１は、競技データの強調すべき箇所を予め定めたテンプレートに基づいて、競技データから、強調箇所を示す発話スタイルを付加した競技の進行を解説したテキスト（発話スタイル付きテキスト）を生成し、学習した音声モデルを用いて、音声合成を行う。
これによって、音声合成装置１は、競技データから、抑揚にメリハリのついた音声を生成することができる。

〔音声合成装置の構成〕
次に、図１～図３を参照して、本発明の実施形態に係る音声合成装置１の構成について説明する。図１に示すように、音声合成装置１は、事前学習部２と、合成処理部３と、を備える。

事前学習部２は、事前学習段階として、音声モデルを学習するものである。
合成処理部３は、合成処理段階として、学習済みの音声モデルを用いて、競技データから音声（合成音声）を生成するものである。
音声合成装置１は、外部にコーパス記憶装置５を接続する。

（事前学習部）
図２を参照（適宜図１参照）して、事前学習部２の構成について説明する。事前学習部２は、コーパス入力手段１０と、モデル学習手段２０と、モデル記憶手段３０と、を備える。なお、モデル記憶手段３０は、事前学習部２と合成処理部３とで共用する。

コーパス入力手段１０は、コーパス記憶装置５から、強調音声コーパスおよび通常音声コーパスを入力するものである。
コーパス入力手段１０は、テキストと音声（強調音声または通常音声）とを対として、コーパス記憶装置５から読み出し、モデル学習手段２０に出力する。コーパス入力手段１０は、強調音声コーパスから読み込んだテキストについては、対応する音声が強調音声であることを示す強調判別情報とともに、モデル学習手段２０に出力する。また、コーパス入力手段１０は、通常音声コーパスから読み込んだテキストについては、対応する音声が通常音声である（強調音声ではない）ことを示す強調判別情報とともに、モデル学習手段２０に出力する。

モデル学習手段２０は、コーパス入力手段１０で入力したテキスト、強調判別情報および音声（強調、通常）を用いて、ＤＮＮの音声モデルとして、時間長モデル３１と、音響特徴量モデル３２と、を学習するものである。モデル学習手段２０は、テキスト解析手段２１と、音声解析手段２２と、ＤＮＮ学習手段２３と、を備える。

テキスト解析手段２１は、テキストを解析して、音素およびフレームごとの言語特徴量を生成するとともに、強調判別情報に基づいて、発話スタイルを特定する音素ごとのラベル（強調情報、文末情報）を生成するものである。テキスト解析手段２１は、音素言語特徴量生成手段２１１と、フレーム言語特徴量生成手段２１２と、を備える。

音素言語特徴量生成手段２１１は、入力したテキストを構成する音素ごとの言語特徴量である音素言語特徴量を生成するものである。音素言語特徴量は、音素が有する文脈に依存する素性である。例えば、音素言語特徴量は、音素情報（前後の音素を含む音素ラベル）、アクセントの位置、アクセント句情報、品詞情報、呼気段落情報等である。なお、これらの音素言語特徴量は、一般的なテキスト解析（形態素解析、韻律推定等）により求めることができるため、解析手法についての詳細な説明を省略する。

また、音素言語特徴量生成手段２１１は、生成した音素言語特徴量に、強調、体言止めを示す発話スタイル固有のラベル（発話スタイルラベル〔強調情報、文末情報〕）を付加する。
音素言語特徴量生成手段２１１は、テキストとともに入力される強調判別情報が、音声が強調音声であることを示す情報である場合、テキストを構成するすべての音素に対して、発話スタイルラベルとして、強調を示すラベル（強調情報；強調有り）を付加する。また、音素言語特徴量生成手段２１１は、テキストとともに入力される強調判別情報が、音声が通常音声である（強調音声ではない）ことを示す情報である場合、テキストを構成するすべての音素に対して、発話スタイルラベルとして、通常を示すラベル（強調情報；強調無し）を付加する。

また、音素言語特徴量生成手段２１１は、入力したテキストの文末単語の品詞が名詞である場合、文末単語を構成するすべての音素に対して、発話スタイルラベルとして、体言止めを示すラベル（文末情報；体言止め有り）を付加する。また、音素言語特徴量生成手段２１１は、体言止めを示すラベルを付加する音素以外の音素については、体言止めではないことを示すラベル（文末情報；体言止め無し）を付加する。一般的に、スポーツ実況等では、体言止めが多用されるため、ここでは、体言止めの有無を音声モデルの学習に利用する。

音素言語特徴量生成手段２１１は、音素言語特徴量と、発話スタイルラベル（強調情報、文末情報）とを、フレーム言語特徴量生成手段２１２に出力するとともに、ＤＮＮ学習手段２３の時間長モデル学習手段２３１に出力する。
さらに、音素言語特徴量生成手段２１１は、音素ごとに、解析した音素固有の音素ラベルを音声解析手段２２の音素区切り手段２２１に出力する。

フレーム言語特徴量生成手段２１２は、入力したテキストの音素の時間長の区間を構成するフレームに対応した言語特徴量であるフレーム言語特徴量を生成するものである。なお、フレームは、音声解析手段２２で解析される音響特徴量を生成する単位である。
フレーム言語特徴量は、音素言語特徴量生成手段２１１で生成された音素言語特徴量に、音素の時間長の区間を構成するフレームの番号（フレームの位置）、フレームの総数等の音素の時間的特徴を加えたものである。このフレーム言語特徴量生成手段２１２は、１音素に対して、音素の時間長に対応したフレーム言語特徴量を生成する。

フレーム言語特徴量生成手段２１２は、音声解析手段２２から音素の時間長を入力し、音素の時間長の区間を構成するフレームの番号、フレームの総数等を求める。なお、音素の時間長は、例えば、１音素あたりのフレームの数である。
フレーム言語特徴量生成手段２１２は、生成した１音素に対応するフレーム数分のフレーム言語特徴量と、音素言語特徴量生成手段２１１から入力された発話スタイルラベルとを対応付けて、ＤＮＮ学習手段２３の音響特徴量モデル学習手段２３２に出力する。

音声解析手段２２は、入力した音声を解析して、音素の時間長とフレームごとの音響特徴量とを生成するものである。音声解析手段２２は、音素区切り手段２２１と、音響特徴量生成手段２２２と、を備える。

音素区切り手段２２１は、コーパス入力手段１０で入力した音声の音声波形において、テキスト解析手段２１から入力される音素ラベルの音素の区切りを検出するものである。
音素区切り手段２２１は、例えば、音素と当該音素の波形とを対応付けた素片辞書（不図示）を用いて、音素の区切り位置を検出する。
音素区切り手段２２１は、検出した音素の区切り位置を音響特徴量生成手段２２２に出力する。

さらに、音素区切り手段２２１は、検出した音素の区切り位置に基づいて、音素ラベルに対応する音素の時間長を求め、テキスト解析手段２１のフレーム言語特徴量生成手段２１２と、ＤＮＮ学習手段２３の時間長モデル学習手段２３１とに出力する。
なお、音素区切り手段２２１が生成する音素の時間長は、時間長モデル学習手段２３１で時間長モデル３１を学習する際の正解データとなる。

音響特徴量生成手段２２２は、入力した音声のフレームごとの音響特徴量を生成するものである。音響特徴量生成手段２２２は、音素の時間長の区間を構成するフレーム数分の音響特徴量を生成する。音響特徴量生成手段２２２は、音素区切り手段２２１で検出された区切り位置に基づく音素の時間長の区間において、入力した音声を所定のフレーム長（例えば、２５ミリ秒）、所定のフレーム周期（例えば、５ミリ秒）ごとに切り出し、音響分析を行うことで、音響特徴量として、スペクトル係数（メルケプストラム係数等）、ピッチ（対数ピッチ周波数等）、雑音性係数、有性／無声判定値等を生成する。

例えば、音響特徴量生成手段２２２は、６０次元のスペクトル係数、１次元のピッチ、１次元の雑音性係数の計６２次元の静特性と、静特性の時間方向の１次差分および２次差分の１２４次元の動特性と、１次元の有性／無声判定値とからなる計１８７次元の音響特徴量を生成する。なお、これらの音響特徴量は、一般的な音響解析により求めることができるため、解析手法についての詳細な説明を省略する。

音響特徴量生成手段２２２は、生成した音響特徴量を、ＤＮＮ学習手段２３の音響特徴量モデル学習手段２３２に出力する。
なお、音響特徴量生成手段２２２が生成する音響特徴量は、音響特徴量モデル学習手段２３２で音響特徴量モデル３２を学習する際の正解データとなる。

ＤＮＮ学習手段２３は、ＤＮＮの音声モデルとして、時間長モデル３１と、音響特徴量モデル３２と、を学習するものである。ＤＮＮ学習手段２３は、時間長モデル学習手段２３１と、音響特徴量モデル学習手段２３２と、を備える。

時間長モデル学習手段２３１は、音素言語特徴量と発話スタイルラベル（強調情報、文末情報）とを入力し、音素の時間長を出力するＤＮＮのモデル（時間長モデル３１）を学習するものである。
図４にＤＮＮで構成した時間長モデル３１の例を示す。図４に示すように、時間長モデル３１は、入力層Ｉ、隠れ層Ｈ、出力層Ｏで構成される順伝播ニューラルネットワーク（Feed Forward Neural Network：ＦＦＮＮ）で構成することができる。

時間長モデル学習手段２３１は、時間長モデル３１の入力層Ｉの各ユニットに、テキスト解析手段２１で解析された音素言語特徴量をそれぞれ入力するとともに、発話スタイルラベルである強調情報（強調有無）、文末情報（体言止め有無）の各ラベルを入力する。そして、時間長モデル学習手段２３１は、入力層Ｉに入力された音素言語特徴量および発話スタイルラベル（強調情報、文末情報）の各値を、重みを付加して伝播させ、出力層Ｏからの出力が、音声解析手段２２で解析された音素の時間長となるように、時間長モデル３１における重み（パラメータ）を学習する。なお、パラメータの学習には、例えば、誤差逆伝播法（back propagation）を用いることができる。
時間長モデル学習手段２３１は、モデル記憶手段３０において、学習により、時間長モデル３１を逐次更新する。

音響特徴量モデル学習手段２３２は、フレーム言語特徴量と発話スタイルラベル（強調情報、文末情報）とを入力し、音素のフレームごとの音響特徴量を出力するＤＮＮのモデル（音響特徴量モデル３２）を学習するものである。
図５にＤＮＮで構成した音響特徴量モデル３２の例を示す。図５に示すように、音響特徴量モデル３２は、入力層Ｉ、隠れ層Ｈ、出力層Ｏで構成される順伝播ニューラルネットワーク（ＦＦＮＮ）で構成することができる。

音響特徴量モデル学習手段２３２は、音響特徴量モデル３２の入力層Ｉの各ユニットに、テキスト解析手段２１で解析されたフレーム言語特徴量を入力するとともに、発話スタイルラベルである強調情報（強調有無）、文末情報（体言止め有無）の各ラベルを入力する。そして、音響特徴量モデル学習手段２３２は、入力層Ｉに入力されたフレーム言語特徴量および発話スタイルラベル（強調情報、文末情報）の各値を、重みを付加して伝播させ、出力層Ｏからの出力が、音声解析手段２２で解析されたフレームの音響特徴量となるように、音響特徴量モデル３２における重み（パラメータ）を学習する。なお、パラメータの学習には、時間長モデル３１と同様に、誤差逆伝播法を用いることができる。
音響特徴量モデル学習手段２３２は、モデル記憶手段３０において、学習により、音響特徴量モデル３２を逐次更新する。

モデル記憶手段３０は、モデル学習手段２０で学習される音声モデル（時間長モデル３１、音響特徴量モデル３２）を記憶するものである。モデル記憶手段３０は、半導体メモリ等の一般的な記憶媒体で構成することができる。
モデル記憶手段３０に記憶された事前学習段階で学習した音声モデル（時間長モデル３１、音響特徴量モデル３２）は、合成処理部３において使用される。

以上説明したように事前学習部２を構成することで、音声合成装置１は、通常の音声以外に、強調した音声や体言止めの音声における音素の時間長や音響特徴量を学習した音声モデルを生成することができる。

（合成処置部）
次に、図３を参照（適宜図１参照）して、合成処理部３の構成について説明する。合成処理部３は、モデル記憶手段３０と、データ入力手段４０と、テンプレート記憶手段５０と、テキスト生成手段６０と、合成音声生成手段７０と、を備える。

モデル記憶手段３０は、図２において、事前学習部２の構成で説明したものと同一であるため、説明を省略する。
データ入力手段４０は、外部から競技データを入力するものである。データ入力手段４０は、例えば、通信回線を介して、競技データを配信するデータセンタから、競技データを入力する。
データ入力手段４０は、入力した競技データをテキスト生成手段６０に出力する。

ここで、図６を参照して、競技データの一例について説明する。
図６に示すように、競技データは、例えば、試合に出場する出場選手（図６（ａ））、試合中に発生するイベント一覧（図６（ｂ））等の試合内容および試合進行に応じたデータである。図６は、一例として、テニスを対象とした競技データの例を示す。

図６（ａ）では、［選手Ａのフルネーム］が“Ａ１・Ａ２”、［選手Ａのファミリネーム］が“Ａ２”等であることを示している。
また、図６（ｂ）では、１２３番目のイベントが、［時刻］○時△分□秒に発生したことを示している。［セット］はゲームのセット数を示す。なお、競技データは、イベントが更新されるたびに、順次追加されていく。ここでは、１２３番目のイベントにおいて、第４セット（“４Ｓ”）であることを示している。［ゲームカウント］はゲームカウントが更新されたことを示す。ここでは、“Ｂ２”（選手Ｂ）に５点目（“５”）が入ったことを示している。［アンフォーストエラー］はアンフォーストエラーが発生したことを示す。ここでは、“Ａ２”（選手Ａ）がアンフォーストエラーを起こし、アンフォーストエラーが“１２”回目であることを示している。［ブレーク成功］はブレークに成功したことを示す。ここでは、“Ｂ２”（選手Ｂ）が“６”回目のブレークに成功したことを示している。
さらに、図６（ｂ）では、［全体ゲーム数］、［選手Ａの獲得ゲーム数］、［選手Ｂの獲得ゲーム数］、［選手Ｂのブレーク数］等を試合状況として示している。
もちろん、図６に示した競技データはこれに限定されるものでないし、競技の種類によって異なるものであることはいうまでもない。
図３に戻って、合成処理部３の構成について説明を続ける。

テンプレート記憶手段５０は、競技データを、音声合成用のテキストに変換するためのテンプレートを記憶するものである。テンプレート記憶手段５０は、半導体メモリ等の一般的な記憶媒体で構成することができる。

テンプレート記憶手段５０は、競技データにおける予め定めたデータを示す条件に対応付けて、テンプレートを複数記憶する。
例えば、図７（ａ）は、図６に示した競技データにおいて、選手Ａがアンフォーストエラーを起こし、選手Ｂがブレークに成功した場合のテンプレートを示す。
図７（ａ）に示したテンプレートにおいて、“［”および“］”で挟まれた箇所が、競技データに応じて変化することになる。
このテンプレートにおいて、音声を強調して発声させたい箇所には、予め定めたタグで示すこととする。例えば、図７（ａ）に示すように、＜強調＞タグと＜／強調＞タグとで挟まれた箇所を強調対象とする。ここでは、“［選手Ｂのブレーク数］回目のブレーク”を強調する例を示している。

なお、テンプレートは、図７（ａ）で示した条件において、さらに条件を付加して、強調の有無を制御するものとしてもよい。
例えば、図７（ｂ）の（ｂ－１）に示すように、図７（ａ）で示した、選手Ａがアンフォーストエラーを起こし、選手Ｂがブレークに成功した場合に加え、選手Ｂのブレーク数が予め定めた数（例えば“５”）以上である場合に使用するテンプレートは、図７（ａ）と同様に、“［選手Ｂのブレーク数］回目のブレーク”を強調するテンプレートとする。
また、選手Ｂのブレーク数が予め定めた数（例えば“５”）未満である場合に使用するテンプレートは、図７（ｂ）の（ｂ－２）に示すように、（ｂ－１）のテンプレートから＜強調＞タグと＜／強調＞タグとを削除したテンプレートとする。
図３に戻って、合成処理部３の構成について説明を続ける。

テキスト生成手段６０は、テンプレート記憶手段５０に記憶しているテンプレートを用いて、データ入力手段４０で入力した競技データを、音声合成を行うためのテキストに変換するものである。

テキスト生成手段６０は、図６で例示した競技データを入力し、各種データが条件に合致するテンプレートをテンプレート記憶手段５０から読み出し、競技データに応じて変化する文字列を埋め込む。なお、テキスト生成手段６０は、競技データが更新された場合、その更新した内容からテキストを生成する。
例えば、テキスト生成手段６０は、図６で例示した競技データ（ここでは、１２３番目のイベント）を入力した場合、図７（ａ）あるいは、図７（ｂ）の（ｂ－１）に示したテンプレートに文字列を埋め込むことで、図８（ａ）に示すテキストを生成する。
なお、テキスト生成手段６０は、図７（ｂ）の（ｂ－２）に示したテンプレートを用いた場合、図８（ｂ）に示すテキストを生成する。
これによって、テキスト生成手段６０は、発話スタイルとしてテキスト中に強調すべき箇所をタグで示した発話スタイル付きテキストを生成する。
テキスト生成手段６０は、生成した発話スタイル付きテキストを合成音声生成手段７０に出力する。

合成音声生成手段７０は、モデル記憶手段３０に記憶されている学習済みの音声モデル（時間長モデル３１、音響特徴量モデル３２）を用いて、テキスト生成手段６０で生成された発話スタイル付きテキストを音声合成するものである。合成音声生成手段７０は、スタイル解析手段７１と、テキスト解析手段７２と、ＤＮＮ演算手段７３と、合成手段７４と、を備える。

スタイル解析手段７１は、テキスト生成手段６０で生成された発話スタイル付きテキストにおいて、強調箇所を解析するものである。
スタイル解析手段７１は、発話スタイル付きテキストにおいて、一文ごとに予め定めたタグ（＜強調＞、＜／強調＞）を検出することで、当該文中における強調箇所を特定する。そして、スタイル解析手段７１は、文単位で、発話スタイル付きテキストからタグを削除したテキストと、当該テキストにおける強調箇所を示す強調位置情報とを、テキスト解析手段７２に出力する。なお、発話スタイル付きテキストにおいて、予め定めたタグが存在しない場合、スタイル解析手段７１は、文単位で、テキストと、強調箇所が存在しないことを示す強調位置情報とを、テキスト解析手段７２に出力する。

テキスト解析手段７２は、テキストを解析して、音素およびフレームごとの言語特徴量を生成するとともに、強調位置情報に基づいて、発話スタイルを特定する音素ごとのラベルを生成するものである。テキスト解析手段７２は、音素言語特徴量生成手段７２１と、フレーム言語特徴量生成手段７２２と、を備える。

音素言語特徴量生成手段７２１は、入力したテキストを構成する音素ごとの言語特徴量である音素言語特徴量を生成するものである。音素言語特徴量は、音素が有する素性である。また、音素言語特徴量生成手段７２１は、生成した音素言語特徴量に、強調、体言止めを示す発話スタイル固有のラベル（発話スタイルラベル〔強調情報、文末情報〕）を付加するものでもある。この音素言語特徴量生成手段７２１は、図２で説明した音素言語特徴量生成手段２１１と同じ機能を有する。

なお、音素言語特徴量生成手段２１１は、強調音声に対応するテキストを構成するすべての音素に対して、発話スタイルラベルとして、強調を示すラベル（強調有り）を付加した。一方、音素言語特徴量生成手段７２１は、スタイル解析手段７１で解析された強調位置情報で示される強調箇所に対応する音素に対して、発話スタイルラベルとして、強調を示すラベル（強調情報；強調有り）を付加し、それ以外の音素に対して、強調ではないことを示すラベル（強調情報；強調無し）を付加する。
音素言語特徴量生成手段７２１は、音素言語特徴量と、発話スタイルラベル（強調情報、文末情報）とを、フレーム言語特徴量生成手段７２２に出力するとともに、ＤＮＮ演算手段７３の時間長演算手段７３１に出力する。

フレーム言語特徴量生成手段７２２は、入力したテキストの音素の時間長の区間を構成するフレームに対応した言語特徴量であるフレーム言語特徴量を生成するものである。このフレーム言語特徴量生成手段７２２は、図２で説明したフレーム言語特徴量生成手段２１２と同じ機能を有する。

フレーム言語特徴量生成手段７２２は、音素言語特徴量生成手段７２１で生成された音素言語特徴量と、ＤＮＮ演算手段７３の時間長演算手段７３１で生成された当該音素の時間長とを入力し、フレーム言語特徴量生成手段２１２（図２）と同様にフレーム言語特徴量を生成する。
フレーム言語特徴量生成手段７２２は、生成したフレーム言語特徴量と、音素言語特徴量生成手段７２１から入力された発話スタイルラベルとを対応付けて、ＤＮＮ演算手段７３の音響特徴量演算手段７３２に出力する。

ＤＮＮ演算手段７３は、モデル記憶手段３０に記憶されている音声モデル（時間長モデル３１、音響特徴量モデル３２）を用いて、ＤＮＮの演算を行うものである。ＤＮＮ演算手段７３は、時間長演算手段７３１と、音響特徴量演算手段７３２と、を備える。

時間長演算手段７３１は、学習済みの時間長モデル３１を用いて、音素言語特徴量と発話スタイルラベル（強調情報、文末情報）とから、音素の時間長を生成するものである。
時間長演算手段７３１は、例えば、図４に示した時間長モデル３１の入力層Ｉの各ユニットに、音素言語特徴量と発話スタイルラベル（強調情報、文末情報）とを入力する。そして、時間長演算手段７３１は、学習済みの時間長モデル３１のパラメータを用いてＤＮＮの演算を行い、出力層Ｏから出力される値を音素の時間長とする。
時間長演算手段７３１は、生成した音素の時間長を、テキスト解析手段７２のフレーム言語特徴量生成手段７２２に出力する。

音響特徴量演算手段７３２は、学習済みの音響特徴量モデル３２を用いて、フレーム言語特徴量と発話スタイルラベル（強調情報、文末情報）とから、音素のフレームごとの音響特徴量を生成するものである。
音響特徴量演算手段７３２は、例えば、図５に示した音響特徴量モデル３２の入力層Ｉの各ユニットに、フレーム言語特徴量と発話スタイルラベル（強調情報、文末情報）とを入力する。そして、音響特徴量演算手段７３２は、学習済みの音響特徴量モデル３２のパラメータを用いてＤＮＮの演算を行い、出力層Ｏから出力される値を音響特徴量とする。
音響特徴量演算手段７３２は、生成したフレームごとの音響特徴量を、合成手段７４に出力する。

合成手段７４は、ＤＮＮ演算手段７３の音響特徴量演算手段７３２で生成されたフレームごとの音響特徴量を用いて音声合成を行い、合成音声を生成するものである。
合成手段７４は、音響特徴量に含まれるピッチ、雑音特性等の情報（音源パラメータ）に基づいて、声の高さ、大きさ、雑音性度合いの時間変化を表現した声帯音源波形を生成する。また、合成手段７４は、フレームごとの音響特徴量に含まれるスペクトル係数等の情報（スペクトルパラメータ）に基づいて、音韻の違いや声質を表現した声道フィルタを生成する。そして、合成手段７４は、声帯音源波形を声道フィルタへの入力として、フレームに対応する音声波形を生成する。
なお、音響特徴量を用いて音声合成を行う手法は、ボコーダ方式の一般的な手法を用いればよいため、ここでは、詳細な説明を省略する。
合成手段７４は、フレームごとの音声波形を連結して合成音声として出力する。

以上説明したように合成処理部３を構成することで、音声合成装置１は、事前学習部２で事前学習した音声モデルを用いて、競技データから、スポーツ実況として使用可能な強調および体言止めを表現した合成音声を生成することができる。

例えば、強調を学習せずに音声合成を行った場合、図９（ａ）に示すように、「このセット６回目のブレーク。」は、通常、平坦な音の高さで音声合成される。また、体言止めを学習せずに音声合成を行った場合、図９（ａ）に示すように、通常、文末の「ブレーク」は下がり調子で音声合成される。なお、図中、文字列の上に一般的な声の高さＬを示している。
一方、音声合成装置１は、強調や体言止めを学習するため、図９（ｂ）に示すように、強調箇所である「６回目のブレーク」の声の高さが高くなり、体言止めとなる文末の「ブレーク」は末尾の声の高さが持ち上げられることなる。

以上、本発明の実施形態に係る音声合成装置１の構成について説明したが、音声合成装置１は、コンピュータを前記した各手段として機能させるためのプログラム（音声合成プログラム）で動作させることができる。

〔音声合成装置の動作〕
次に、図１０および図１１を参照して、本発明の実施形態に係る音声合成装置１の動作について説明する。ここでは、音声合成装置１の動作を、事前学習部２の動作と、合成処理部３の動作とに分けて説明する。
（事前学習部）
まず、図１０を参照（構成については、適宜図１，図２参照）して、音声合成装置１の事前学習部２の動作について説明する。

ステップＳ１において、コーパス入力手段１０は、テキストと音声（強調音声または通常音声）とを対として、コーパス記憶装置５からコーパスを入力する。ここで、コーパス入力手段１０は、強調音声に対応するテキストに、当該テキストが強調音声に対応するものであることを示す強調判別情報を付加する。また、コーパス入力手段１０は、通常音声に対応するテキストに、当該テキストが強調音声ではないことを示す強調判別情報を付加する。

ステップＳ２において、テキスト解析手段２１の音素言語特徴量生成手段２１１は、ステップＳ１で入力したテキストを解析し、テキストを構成する音素ごとの言語特徴量（音素言語特徴量）を生成する。

ステップＳ３において、音素言語特徴量生成手段２１１は、ステップＳ２で生成した音素言語特徴量に、発話スタイルラベルを付加する。ここで、音素言語特徴量生成手段２１１は、テキストに、当該テキストが強調音声であることを示す強調判別情報が付加されている場合、音素言語特徴量に、発話スタイルラベルとして、強調を示すラベル（強調情報；強調有り）を付加する。また、音素言語特徴量生成手段２１１は、テキストに、当該テキストが強調音声ではないことを示す強調判別情報が付加されている場合、音素言語特徴量に、発話スタイルラベルとして、通常を示すラベル（強調情報；強調無し）を付加する。

さらに、音素言語特徴量生成手段２１１は、文末単語の品詞が名詞である単語に対応する音素については、音素言語特徴量に、発話スタイルラベルとして、体言止めを示すラベル（文末情報；体言止め有り）を付加する。また、音素言語特徴量生成手段２１１は、文末単語以外、および、文末単語であっても名詞ではない単語に対応する音素については、音素言語特徴量に、発話スタイルラベルとして、体言止めではないことを示すラベル（文末情報；体言止め無し）を付加する。

ステップＳ４において、音声解析手段２２の音素区切り手段２２１は、ステップＳ１で入力した音声について、音素の区切り位置を検出し、音素の時間長を求める。
ステップＳ５において、ＤＮＮ学習手段２３の時間長モデル学習手段２３１は、ステップＳ２で生成した音素言語特徴量と、ステップＳ３で付加した発話スタイルラベルとを入力し、ステップＳ４で求めた音素の時間長を出力するように、時間長モデル３１を学習する。

ステップＳ６において、テキスト解析手段２１のフレーム言語特徴量生成手段２１２は、ステップＳ４で求めた音素の時間長に基づいて音素の時間長の区間を構成するフレームの言語特徴量（フレーム言語特徴量）を生成する。
ステップＳ７において、フレーム言語特徴量生成手段２１２は、ステップＳ６で生成したフレーム言語特徴量に、ステップＳ３で音素言語特徴量に付加したものと同じ発話スタイルラベルを付加する。

ステップＳ８において、音声解析手段２２の音響特徴量生成手段２２２は、ステップＳ１で入力した音声について、ステップＳ４で求めた音素の区切り位置に基づいて、フレームの音響特徴量を生成する。
ステップＳ９において、ＤＮＮ学習手段２３の音響特徴量モデル学習手段２３２は、ステップＳ６で生成したフレーム言語特徴量と、ステップＳ７で付加した発話スタイルラベルとを入力し、ステップＳ８で生成した音響特徴量を出力するように、音響特徴量モデル３２を学習する。

（合成処理部）
次に、図１１を参照（構成については、適宜図１，図３参照）して、音声合成装置１の合成処理部３の動作について説明する。

ステップＳ１０において、データ入力手段４０は、外部から競技データを入力する。
ステップＳ１１において、テキスト生成手段６０は、予めテンプレート記憶手段５０に記憶されているテンプレートに基づいて、ステップＳ１０で入力した競技データから、発話スタイル付きテキストを生成する。このテンプレートは、音声を強調して発声させたい箇所に、予め定めたタグ（＜強調＞、＜／強調＞）が付加されている（図７（ａ）参照）。テキスト生成手段６０は、テンプレートの可変箇所を、競技データで特定される情報に置き換えることで、発話スタイル付きテキストを生成する（図８（ａ）参照）。

ステップＳ１２において、合成音声生成手段７０のスタイル解析手段７１は、ステップＳ１１で生成した発話スタイル付きテキストを解析し、タグを削除したテキストと、タグで指定された当該テキストにおける強調箇所を示す強調位置情報とを生成する。
ステップＳ１３において、テキスト解析手段７２の音素言語特徴量生成手段７２１は、ステップＳ１２で生成したテキストを解析し、テキストを構成する音素ごとの言語特徴量（音素言語特徴量）を生成する。

ステップＳ１４において、音素言語特徴量生成手段７２１は、ステップＳ１３で生成した音素言語特徴量に、発話スタイルラベルを付加する。ここで、音素言語特徴量生成手段７２１は、強調位置情報に基づいて強調が指定された強調箇所に対応する音素に対して、発話スタイルラベルとして、強調を示すラベル（強調情報；強調有り）を付加し、それ以外の音素に対して、強調ではないことを示すラベル（強調情報；強調無し）を付加する。

また、音素言語特徴量生成手段７２１は、文末単語の品詞が名詞である単語に対応する音素については、音素言語特徴量に、発話スタイルラベルとして、体言止めを示すラベル（文末情報；体言止め有り）を付加する。また、音素言語特徴量生成手段７２１は、文末単語以外、および、文末単語であっても名詞ではない単語に対応する音素については、音素言語特徴量に、発話スタイルラベルとして、体言止めではないことを示すラベル（文末情報；体言止め無し）を付加する。

ステップＳ１５において、ＤＮＮ演算手段７３の時間長演算手段７３１は、学習済みの時間長モデル３１を用いて、ステップＳ１３で生成した音素言語特徴量と、ステップＳ１４で付加した発話スタイルラベルとから、音素の時間長を生成する。
ステップＳ１６において、テキスト解析手段７２のフレーム言語特徴量生成手段７２２は、ステップＳ１５で生成した音素の時間長に基づいて、音素の時間長の区間を構成するフレームの言語特徴量（フレーム言語特徴量）を生成する。

ステップＳ１７において、フレーム言語特徴量生成手段７２２は、ステップＳ１６で生成したフレーム言語特徴量に、ステップＳ１４で音素言語特徴量に付加したものと同じ発話スタイルラベルを付加する。
ステップＳ１８において、ＤＮＮ演算手段７３の音響特徴量演算手段７３２は、学習済みの音響特徴量モデル３２を用いて、ステップＳ１６で生成したフレーム言語特徴量と、ステップＳ１７で付加した発話スタイルラベルとから、フレームの音響特徴量を生成する。

ステップＳ１９において、合成手段７４は、ステップＳ１８で生成したフレームの音響特徴量を用いて音声合成を行い、合成音声を生成する。
以上の動作によって、音声合成装置１は、競技データから、スポーツ実況として使用可能な強調および体言止めを表現した合成音声を生成することができる。

〔変形例〕
以上、本発明の実施形態に係る音声合成装置１の構成および動作について説明したが、本発明は、この実施形態に限定されるものではない。
音声合成装置１は、音声モデル（時間長モデル３１、音響特徴量モデル３２）を学習する事前学習と、音声モデルを用いて競技データから音声合成を行う合成処理との２つの動作を１つの装置で行うものである。しかし、これらの動作は、別々の装置で行うようにしても構わない。

具体的には、音声モデルを事前学習する装置として、図２に示した事前学習部２を音声モデル学習装置として分離することができる。この場合、音声モデル学習装置（事前学習部２）は、コンピュータを、事前学習部２で説明した各手段として機能させるためのプログラム（音声モデル学習プログラム）で動作させることができる。
また、競技データから音声合成を行う装置として、図３に示した合成処理部３を音声合成装置として分離することができる。この場合、音声合成装置（合成処理部３）は、コンピュータを、合成処理部３で説明した各手段として機能させるためのプログラム（音声合成プログラム）で動作させることができる。

このように、音声モデルを学習する事前学習動作と、音声モデルを用いて音声合成を行う合成処理動作とを、異なる装置で動作させることで、１つの音声モデル学習装置（事前学習部２）で学習した音声モデルを、複数の音声合成装置（合成処理部３）で利用することが可能になる。

また、ここでは、音声合成装置１は、発話スタイルとして、強調および体言止めを実現した合成音声を生成するものとして説明した。
しかし、例えば、音声合成装置１は、発話スタイルとして、強調のみを実現した合成音声を生成するものとしてもよい。
この場合、時間長モデル３１および音響特徴量モデル３２は、図４に示した時間長モデル３１の入力層Ｉから、文末情報（体言止め有無のラベル）を省略し、図５に示した音響特徴量モデル３２の入力層Ｉから、文末情報を省略したモデルとすればよい。また、テキスト解析手段２１からＤＮＮ学習手段２３に出力される発話スタイルラベルから、文末情報を省略すればよい。また、テキスト解析手段７２からＤＮＮ演算手段７３に出力される発話スタイルラベルから、文末情報を省略すればよい。

１音声合成装置
２事前学習部（音声モデル学習装置）
３合成処理部（音声合成装置）
１０コーパス入力手段
２０モデル学習手段
２１テキスト解析手段
２１１音素言語特徴量生成手段
２１２フレーム言語特徴量生成手段
２２音声解析手段
２２１音素区切り手段
２２２音響特徴量生成手段
２３ＤＮＮ学習手段
２３１時間長モデル学習手段
２３２音響特徴量モデル学習手段
３０モデル記憶手段
３１時間長モデル
３２音響特徴量モデル
４０データ入力手段
５０テンプレート記憶手段
６０テキスト生成手段
７０合成音声生成手段
７１スタイル解析手段
７２テキスト解析手段
７２１音素言語特徴量生成手段
７２２フレーム言語特徴量生成手段
７３ＤＮＮ演算手段
７３１時間長演算手段
７３２音響特徴量演算手段
７４合成手段

Claims

ディープニューラルネットワークにより、音素ごとの言語特徴量と前記音素に対する強調の有無を示す強調情報とを入力し、前記音素の時間長を出力する予め学習された時間長モデルと、前記音素のフレームごとの言語特徴量と前記フレームの強調の有無を示す強調情報とを入力し、前記フレームの音響特徴量を出力する予め学習された音響特徴量モデルとを用いて、競技データから競技内容の音声を合成する音声合成装置であって、
前記競技データに対して強調箇所を予め定めたテキストのテンプレートを用いて、前記競技データから前記強調箇所を示したテキストを生成するテキスト生成手段と、
前記テキスト生成手段で生成されたテキストを解析し、音素ごとの言語特徴量と前記音素に対する強調情報とを生成する音素言語特徴量生成手段と、
前記音素言語特徴量生成手段で生成された音素の言語特徴量と強調情報とから、前記時間長モデルにより、前記音素の時間長を生成する時間長演算手段と、
前記時間長演算手段で生成された音素の時間長と前記音素の言語特徴量とから、前記音素のフレームごとの言語特徴量を生成し、前記フレームに対応する音素の強調情報と対応付けるフレーム言語特徴量生成手段と、
前記フレーム言語特徴量生成手段で生成されたフレームの言語特徴量と前記フレームに対応する強調情報とから、前記音響特徴量モデルにより、前記フレームごとの音響特徴量を生成する音響特徴量演算手段と、
前記音響特徴量演算手段で生成されたフレームごとの音響特徴量により音声合成を行う合成手段と、
を備えることを特徴とする音声合成装置。
前記時間長モデルおよび前記音響特徴量モデルは、前記音素が体言止めの文末単語の音素であるか否かを示す文末情報によりさらに学習したモデルであって、
前記音素言語特徴量生成手段は、前記テキストの文末単語の品詞により、前記音素ごとの前記文末情報を生成し、
前記時間長演算手段は、前記音素の言語特徴量と前記強調情報と前記文末情報とから、前記時間長モデルにより、前記音素の時間長を生成し、
前記フレーム言語特徴量生成手段は、前記フレームごとの言語特徴量に、さらに前記文末情報を対応付け、
前記音響特徴量演算手段は、前記フレームの言語特徴量と前記フレームに対応する前記強調情報および前記文末情報とから、前記音響特徴量モデルにより、前記フレームごとの音響特徴量を生成する
ことを特徴とする請求項１に記載の音声合成装置。
テキストと、前記テキストを強調して発話した音声および強調せずに発話した音声とを用いて、請求項１に記載の音声合成装置で使用するディープニューラルネットワークの時間長モデルおよび音響特徴量モデルを学習する音声モデル学習装置であって、
前記テキストを解析するとともに、前記テキストが前記強調して発話した音声に対応したものか否かにより、音素ごとの言語特徴量と前記音素に対する強調の有無を示す強調情報とを生成する音素言語特徴量生成手段と、
前記テキストに対応する音声から、音素ごとの区切りを検出し、音素の時間長を特定する音素区切り手段と、
前記音素言語特徴量生成手段で生成された音素の言語特徴量と強調情報とを入力し、前記音素区切り手段で特定された音素の時間長を出力するように前記時間長モデルを学習する時間長モデル学習手段と、
前記音素区切り手段で特定された音素の時間長と前記音素の言語特徴量とから、前記音素のフレームごとの言語特徴量を生成し、前記フレームに対応する音素の強調情報と対応付けるフレーム言語特徴量生成手段と、
前記音素区切り手段で検出された音素の区切りに基づいて、前記テキストに対応する音声から前記音素の時間長の区間を構成するフレームごとの音響特徴量を生成する音響特徴量生成手段と、
前記フレーム言語特徴量生成手段で生成されたフレームの言語特徴量と強調情報とを入力し、前記音響特徴量を出力するように前記音響特徴量モデルを学習する音響特徴量モデル学習手段と、
を備えることを特徴とする音声モデル学習装置。
テキストと、前記テキストを強調して発話した音声および強調せずに発話した音声とを用いて、請求項２に記載の音声合成装置で使用するディープニューラルネットワークの時間長モデルおよび音響特徴量モデルを学習する音声モデル学習装置であって、
前記テキストを解析するとともに、前記テキストが前記強調して発話した音声に対応したものか否かにより、音素ごとの言語特徴量と前記音素に対する強調の有無を示す強調情報と前記音素が体言止めの文末単語の音素であるか否かを示す文末情報とを生成する音素言語特徴量生成手段と、
前記テキストに対応する音声から、音素ごとの区切りを検出し、音素の時間長を特定する音素区切り手段と、
前記音素言語特徴量生成手段で生成された音素の言語特徴量と強調情報と文末情報とを入力し、前記音素区切り手段で特定された音素の時間長を出力するように前記時間長モデルを学習する時間長モデル学習手段と、
前記音素区切り手段で特定された音素の時間長と前記音素の言語特徴量とから、前記音素のフレームごとの言語特徴量を生成し、前記フレームに対応する音素の強調情報および文末情報と対応付けるフレーム言語特徴量生成手段と、
前記音素区切り手段で検出された音素の区切りに基づいて、前記テキストに対応する音声から前記音素の時間長の区間を構成するフレームごとの音響特徴量を生成する音響特徴量生成手段と、
前記フレーム言語特徴量生成手段で生成されたフレームの言語特徴量と強調情報と文末情報とを入力し、前記音響特徴量を出力するように前記音響特徴量モデルを学習する音響特徴量モデル学習手段と、
を備えることを特徴とする音声モデル学習装置。
コンピュータを、請求項１または請求項２に記載の音声合成装置として機能させるための音声合成プログラム。
コンピュータを、請求項３または請求項４に記載の音声モデル学習装置として機能させるための音声モデル学習プログラム。